首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
中文文本分类中利用依存关系的实验研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了利用依存关系进行短文本分类,研究了利用依存关系进行短文本分类存在的四个关键问题。分别在长文本语料集和两个短文本语料集上,抽取具有依存关系的词对,并利用这些词对作为特征进行分类实验。实验结果表明:依存关系能够作为有效的特征进行文本分类,并能够改善文本分类的性能;单独把依存关系作为特征,不能提高短文本的分类性能;可以利用依存关系作为特征扩充的手段,增加短文本的特征,增强短文本的描述能力,进而进行有效的短文本分类。  相似文献   

2.
通过大规模语料实验和分析,揭示倾向性文本与普通文本在词性特征、依存关系、依存关系中的词性特征、邻接依存关系以及邻接依存关系中的词性特征等五个方面客观存在的差异。总结出若干有意义的结论,如:名词、副词、拟声词、状中结构、副词动词序列等在有倾向性文本中占有率明显高于普通文本;地理名、专有名词、定中关系、名词名词序列等在有倾向性文本中占有率明显低于普通文本等等。这些结论可以作为使用机器学习方法进行本文倾向性判断与分析的特征集使用。  相似文献   

3.
该文针对网络评论倾向分级问题,提出了一种基于观点袋模型和语言学规则的多级情感分类方法。通过分析句子中的词性搭配关系,设计了12种抽取特征-观点搭配模式,并对存在问题给出了解决策略。依据汉语用词特点和词汇在汽车领域的特殊用法,提出搭配四元组的情感倾向极性值计算方法。在此基础上,利用获取的搭配四元组及其情感倾向极性,建立文本的向量化表示,并构造了权重计算公式。最后,利用文本余弦相似度计算方法实现对评论文本的五级情感极性分类。通过在COAE2012任务3的汽车数据集上进行的测试,取得了较好的分类结果。  相似文献   

4.
基于变换的汉语句法功能标注探讨   总被引:4,自引:1,他引:4  
本文尝试利用基于变换的方法标注中文句子词汇的句法功能。系统输入已分词并标注了词性的句子, 输出每个词的依存关系。我们首先设计了一个由44种依存关系组成的汉语依存体系, 然后以人-机互助的方式标注了1300句中文句子。其中1100句作为训练文本用来获取标注规则, 余下200句用做测试。设计了17类变换模板, 采用基于变换的算法获取了60条有序的依存关系标注规则。在测试时, 对新词标注以该词词性所对应的最高频的依存关系作为初始标注以提高鲁棒性。实验表明这种方法简单可行, 取得了初步满意的效果。  相似文献   

5.
基于依存关系的问句理解与问句分类   总被引:1,自引:0,他引:1  
问句理解是问答系统的首要过程,问句分类是问句理解的主要组成部分,它在问答系统中具有非常重要的作用,因为问句类型有助于在文档中定位和抽取答案。问句分类的目标是基于预期的答案类型,准确地分类问句。本文提出依存关系规则与统计方法相结合,实现了基于依存关系的中文问句理解与问句分类机制。实验表明:支持向量机结合依存关系的特征抽取方法,获得了较高问句分类正确率。  相似文献   

6.
语义角色标注是自然语言处理的一个重要研究内容,性能对机器翻译等研究有重大影响。实现了一个基于依存关系的中文名词性谓词语义角色标注平台,并对名词性谓词进行识别,使用最大熵分类模型在Chinese NomBank的转换语料上进行系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到78.09,基于自动句法树的语料上的F1值达到67.42。  相似文献   

7.
需求模板的一致性检查对于需求工程的自动化分析十分重要。现有方法往往需要通过术语表对需求语句的各个组件进行定位,或是通过单词词性组合来判定一致性信息,其在术语表缺失的情况下和在句式较长的需求语句上表现不佳。针对这种情况,提出基于依存关系的模板一致性检查方法,分析需求模板的依存关系来定义通用的依存语法模式,进而通过模式匹配的方法来判定需求语句的一致性信息,同时根据需求模板的特性来对词性标注和依存分析任务带来的错误进行校正,提高方法的准确率。经过实验验证,依存分析的方法相较于现有方法有了明显提升。  相似文献   

8.
评价搭配抽取是情感分析的基础任务之一。目前大部分抽取方法都是以依存句法分析为基础,但依存分析对中文评论文本的分析结果不稳定。针对此问题,提出了融合核心句抽取与依存关系的评价搭配抽取方法。该方法利用核心句抽取规则简化评论句结构,在此基础上进行依存句法分析,根据人工构建的依存关系模板进行评价搭配的抽取,并引入潜在评价搭配抽取规则抽取文本中省略评价对象的评价搭配。在中文酒店评论语料中进行试验,与基于依存分析的方法相比,该方法的F值提高约7%,证明了该方法的有效性。  相似文献   

9.
陶新竹  赵鹏  刘涛 《微机发展》2014,(1):118-121
评价搭配抽取是情感分析的基础任务之一。目前大部分抽取方法都是以依存句法分析为基础,但依存分析对中文评论文本的分析结果不稳定。针对此问题,提出了融合核心句抽取与依存关系的评价搭配抽取方法。该方法利用核心句抽取规则简化评论句结构,在此基础上进行依存句法分析,根据人工构建的依存关系模板进行评价搭配的抽取,并引入潜在评价搭配抽取规则抽取文本中省略评价对象的评价搭配。在中文酒店评论语料中进行试验,与基于依存分析的方法相比,该方法的F值提高约7%,证明了该方法的有效性。  相似文献   

10.
问题分类中基于句法和语义信息的特征选择   总被引:1,自引:0,他引:1       下载免费PDF全文
问题分类是问答系统中一个非常重要的子模块,其关键在于问题的特征选择。考虑了问题的句法信息和语义信息,提出了一种利用问题疑问词、依存关系、主要动词、中心名词和名词的最高上位词作为特征进行分类的新方法。实验中,采用k-最邻近和朴素贝叶斯两种分类算法对该方法进行测试,结果表明了该方法具有较好的分类效果。在自定义的分类体系上,分别达到了82.2%和83.7%的分类精度,性能高于基于bag-of-words的特征选择方法。  相似文献   

11.
本研究针对目前跨度级别的方面情感三元组抽取模型忽视词性和句法知识的问题且存在三元组冲突的情况, 提出了语义和句法依赖增强的跨度级方面情感三元组抽取模型SSES-SPAN (semantic and syntactic enhanced span-based aspect sentiment triplet extraction). 首先, 在特征编码器中引入词性知识和句法依赖知识, 使模型能够更精准地区分文本中的方面词和观点词, 并且更深入地理解它们之间的关系. 具体而言, 对于词性信息, 采用了一种加权求和的方法, 将词性上下文表示与句子上下文表示融合得到语义增强表示, 以帮助模型准确提取方面词和观点词. 对于句法依赖信息, 采用注意力机制引导的图卷积网络捕捉句法依赖特征得到句法依赖增强表示, 以处理方面词和观点词之间的复杂关系. 此外, 鉴于跨度级别的输入缺乏互斥性的保证, 采用推理策略以消除冲突三元组. 在基准数据集上进行的大量实验表明, 我们提出的模型在效果和鲁棒性方面超过了最先进的方法.  相似文献   

12.
考虑到同类型的情感句往往具有相同或者相似的句法和语义表达模式,该文提出了一种基于情感句模的文本情感自动分类方法。首先,将情感表达相关句模人工分为3大类105个二级分类;然后,设计了一种利用依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模。最后,通过对输入句进行情感句模分类实现文本情感分类。在NLP&CC2013中文微博情绪分类评测语料及RenCECps博客语料的实验结果显示,该文提出的分类方法准确率显著高于基于词特征支持向量机分类器。  相似文献   

13.
The advent of Web 2.0 has led to an increase in user-generated content on the Web.This has provided an extensive collection of free-style texts with opinion expressions that could influence the decisions and actions of their readers.Providers of such content exert a certain level of influence on the receivers and this is evident from blog sites having effect on their readers’ purchase decisions,political view points,financial planning,and others.By detecting the opinion expressed,we can identify the sentiments on the topics discussed and the influence exerted on the readers.In this paper,we introduce an automatic approach in deriving polarity pattern rules to detect sentiment polarity at the phrase level,and in addition consider the effects of the more complex relationships found between words in sentiment polarity classification.Recent sentiment analysis research has focused on the functional relations of words using typed dependency parsing,providing a refined analysis on the grammar and semantics of textual data.Heuristics are typically used to determine the typed dependency polarity patterns,which may not comprehensively identify all possible rules.We study the use of class sequential rules(CSRs) to automatically learn the typed dependency patterns,and benchmark the performance of CSR against a heuristic method.Preliminary results show CSR leads to further improvements in classification performance achieving over 80% F1 scores in the test cases.In addition,we observe more complex relationships between words that could influence phrase sentiment polarity,and further discuss on possible approaches to handle the effects of these complex relationships.  相似文献   

14.
基于依存句法“动词配价”原理与组块的概念,提出以情感依存元组(EDT)作为中文情感表达的基本单位。它以句中能承载情感的几类实词作为中心词,修饰词依附于中心词,程度词和否定词依附于中心词和修饰词。该文对句子进行句法分析,在句法树和依赖关系中按规则提取情感依存元组,建立简单句情感依存元组判别模型计算情感倾向性。针对COAE2014评测公布的网络新闻语料,将该方法分别与有监督分类算法(KNN、SVM)和半监督算法(K-means)进行实验对比。结果表明,基于EDT的情感分类性能与有监督的机器学习算法相当,远高于半监督的聚类算法。  相似文献   

15.
利用数据挖掘扩充量词名词词典的方法   总被引:1,自引:0,他引:1  
张辉  徐菁  陆汝占 《计算机工程》2003,29(13):92-94
研究名词与量词的关系对于自然语言处理有很大的帮助,目前用于自然语言处理用的量词名词词典是由人工方法实现的,并由人工进行维护,有更新慢、收藏词少等缺点。该文利用数据挖掘技术对大规模真实文本进行分析,挖掘量词与名词的深层关系,有效地实现了对人工量词名词词典的扩充。  相似文献   

16.
为了研究复杂系统中需求之间的依赖关系,针对需求文本固有的特点以及可能存在的上下文关系,结合各个词之间的词义以及特定语境下的语义知识,提出了一种基于句法和语义的需求依赖关系自动获取方法。在以自然语言描述的需求文本上,首先,通过对每条需求提取关键词,并结合领域知识对其添加领域词汇,对每个关键词进行词性标注并封装成集合来形式化需求;其次,通过对不同需求的关键词做语义分析,定义关联需求的语义词库表,将关系词库和集合中的词性特征结合来判断两个需求之间的依赖关系,并给出抽取关系的方法,基于该方法设计并实现了一个系统,通过自动分析各个词之间的语义依存关系得出需求之间的依赖关系。最后,通过实例证明了该方法的可行性和有效性。  相似文献   

17.
卢天兰  陈荔 《计算机应用研究》2021,38(5):1409-1415,1427
方面情感分析是指分析语句中目标方面项的情感极性,但目前较少研究语句中邻近方面项间依赖关系对情感分类的影响。基于此,针对方面情感分析提出一个结合基于注意力机制的双向LSTM和多跳端到端记忆网络的方面情感分类模型。首先利用Bi-LSTM的序列学习能力,并引入注意力机制来得到语义向量表示;然后用多跳记忆网络来对目标方面项和语句中其余方面项间相关性进行建模构建深层的情感分类特征向量,输入到softmax函数得到最终的情感极性分类结果。该模型在SemEval 2014任务中的restaurant和laptop两个数据集和一组公开的Twitter数据集上进行实验,在三个数据集上的分类准确率都有所提高。实验结果表明,该模型对方面级别情感分类的有效性和考虑方面间依赖关系对于情感分类是有益的。  相似文献   

18.
In multi-label classification, examples can be associated with multiple labels simultaneously. The task of learning from multi-label data can be addressed by methods that transform the multi-label classification problem into several single-label classification problems. The binary relevance approach is one of these methods, where the multi-label learning task is decomposed into several independent binary classification problems, one for each label in the set of labels, and the final labels for each example are determined by aggregating the predictions from all binary classifiers. However, this approach fails to consider any dependency among the labels. Aiming to accurately predict label combinations, in this paper we propose a simple approach that enables the binary classifiers to discover existing label dependency by themselves. An experimental study using decision trees, a kernel method as well as Naïve Bayes as base-learning techniques shows the potential of the proposed approach to improve the multi-label classification performance.  相似文献   

19.
Sentiment information about social media posts is increasingly considered an important resource for customer segmentation, market understanding, and tackling other socio-economic issues. However, sentiment in social media is difficult to measure since user-generated content is usually short and informal. Although many traditional sentiment analysis methods have been proposed, identifying slang sentiment words remains a challenging task for practitioners. Though some slang words are available in existing sentiment lexicons, with new slang being generated with emerging memes, a dedicated lexicon will be useful for researchers and practitioners. To this end, we propose to build a slang sentiment dictionary to aid sentiment analysis. It is laborious and time-consuming to collect a comprehensive list of slang words and label the sentiment polarity. We present an approach to leverage web resources to construct a Slang Sentiment Dictionary (SlangSD) that is easy to expand. SlangSD is publicly available for research purposes. We empirically show the advantages of using SlangSD, the newly-built slang sentiment word dictionary for sentiment classification, and provide examples demonstrating its ease of use with a sentiment analysis system.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号