首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
吴晨  韦向峰 《计算机科学》2016,43(Z6):435-439
在互联网上用户评价内容中很多比较句的比较结果反映了语句陈述者对比较对象的倾向性态度。根据已有的10类比较句句型总结了它们的常见概念搭配,在基于语义块的语句倾向性分析方法的基础上构建了比较句自动识别系统和比较句倾向性自动分析系统。采用第四届中文倾向性分析评测的语料进行实验,对语料中的比较句进行了识别,对比较句中的要素进行了抽取并且分析了比较句的倾向性,识别结果和倾向性分析结果均好于所有参评系统的平均值。  相似文献   

2.
随着主观性评价文本数量的不断增长, 文本情感分析已经成为众多研究者关注的对象. 比较要素抽取是比较句情感分析的重要研究任务之一, 比较句的情感分析结果与比较要素相结合才更有意义. 为了提高比较要素抽取的性能, 本文提出在构建系统模型的过程中引入浅层句法信息、比较词候选信息和启发式位置信息等多种语言学相关特征, 并且在不增加领域知识的情况下, 有效提高系统的准确率和F1值, 同时本文提出的方法可以有效处理含有多个比较关系的句子. 实验结果表明, 将本文提出的特征应用于条件随机域 (Conditional random fields, CRFs)模型可以有效提高比较要素抽取的各项性能指标, 同时, 将本文的实验结果与2012 年中文情感分析评测结果的最大值进行了比较, 各项指标均超过最大值, 进一步证明了本文方法的有效性.  相似文献   

3.
中文比较句识别及比较关系抽取   总被引:1,自引:0,他引:1  
比较是一种具有一定说服力的评估方式,利用机器进行比较句的识别以及比较关系的抽取可以对观点挖掘、信息推荐等应用提供重要的依据。该文通过构建中文比较模式库以实现中文比较句的自动识别。在此基础上,该文通过选取比较主体、比较客体及其上下文的词、词性、位置、语义以及比较属性的领域知识等特征,利用条件随机域模型进行中文比较关系抽取。实验结果表明,中文比较模式库的构建有助于比较句的自动识别,而在词、词性、位置等Baseline特征中融入语义、领域知识及启发式规则特征后,基于条件随机域的比较关系抽取结果有了显著的提高。  相似文献   

4.
研究中文微博情感分析中的观点句识别及要素抽取问题。在观点句识别方面,提出了一种利用微博中的情感词和 情感影响因子计算微博语义情感倾向的新算法;在观点句要素抽取方面,利用主题词分类及关联规则,辅以一系列剪枝、筛选和定界规则抽取评价对象。通过观点句识别和观点句要素抽取结果的相互过滤,进一步提高召回率。实验数据采用第六届中文倾向性分析评测所发布的数据,结果表明,本文方法在观点句识别和要素抽取方面能够取得较好的效果,观点句识别的精确率、召回率入F值分别为95.62%,54.10%及69.10%;观点句要素抽取的精确率、召回率以及F值分别为22.07%,12.66%和16.09%。  相似文献   

5.
李勇敢  周学广  孙艳  张焕国 《软件学报》2017,28(12):3183-3205
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,我们研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取的召回率较低问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为2类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括2个部分,一是参加NLPCC2012的公开评测,本文方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了本文算法的实用性.二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出本文的结论.  相似文献   

6.
事件抽取是自动内容抽取(Automatic Content Extraction,ACE)会议评测的任务之一,事件要素识别是事件抽取的一个子任务。分析了事件抽取和事件要素识别的研究现状,提出了一种基于特征加权的事件要素识别算法(Feature Weighting Based Event Argument Identification,FWEAI)。该算法首先对分类算法中的ReliefF特征选择算法进行改进,将其应用于聚类算法中。改进的ReliefF算法(FWA)根据各个特征对聚类的不同贡献分配不同的权值,然后采用KMeans算法对事件要素进行聚类。实验结果表明,FWEAI算法可以提高事件要素识别的准确率。  相似文献   

7.
中文比较句研究多集中于语言学领域,然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法,该方法将词和词性作为一个基本元素,定义特征词表中核心词和依存词之间的关联方式,利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明,该方法能够有效地识别出中文比较句,在准确率、召回率和F值上均取得不错的效果。  相似文献   

8.
情绪句分类是情绪分析研究领域的核心问题之一,旨在解决情绪句类别的自动判断问题。传统基于情绪认知模型(OCC模型)的情绪句分类方法大多依赖词典和规则,在文本信息缺失的情况下分类精度不高。文中提出基于OCC模型和贝叶斯网络的情绪句分类方法,通过分析OCC模型的情绪生成规则,提取情绪评估变量并结合情绪句中含有的表情符号特征构建情绪分类贝叶斯网络;通过概率推理,可以实现句子级文本的情绪分类,并减小句中信息缺失所带来的影响。与NLPCC2014中文微博情绪分析评测的子任务情绪句分类评测结果的对比表明,所提方法具有有效性。  相似文献   

9.
动态情感知识的获取,特别是领域相关极性词典的构建一直是意见挖掘和情感分析系统在开放应用时面临的主要挑战之一。该文面向产品评价文本提出一种汉语情感极性词典扩展方法。该方法首先采用序列标注方法从意见文本中抽取产品意见要素,同时构建属性-评价对;然后,对抽取的属性-评价对进行正规化,以减少词典扩展中的复杂性和噪声;最后,改进PolarityRank算法的构图方式以使其适用于汉语文本,从而完成词典扩展。在汽车和手机两个领域的意见文本的实验结果表明领域相关的情感极性词语的扩展有利于情感极性分类性能的提高。
  相似文献   

10.
基于CRF算法的汉语比较句识别和关系抽取*   总被引:7,自引:2,他引:5  
比较句是表明事物之间关系的常见表达方式,对于文本挖掘,特别是情感分析,具有重要的价值。目前汉语比较句的研究还是一个新颖的课题,包括汉语比较句的识别和比较关系的抽取。对于汉语比较句的识别,在前人研究的基础上,以SVM为分类器,以特征词和CSR序列规则为特征,同时利用CRF算法抽取实体对象,并增加以实体对象的信息作为特征,显著提高了比较句识别的准确率、召回率和F-度量,最高分别达到96.55%、88.63%和92.43%。对于汉语比较关系的抽取,在CRF算法抽取实体对象的基础上,通过定义一些规则,抽取比较主体和比较基准,也取得了较好的效果,其中比较主体的抽取效果要好于比较基准。  相似文献   

11.
识别比较句并提取被比较事物之间的关系是细颗粒度意见挖掘的重要研究内容之一。该文给出维吾尔语比较句的范畴、语法特点,定义了维吾尔语比较句识别的任务。提出两层识别模型,第一层是基于比较词的粗识别,第二层提出双向CSR挖掘算法(Bidirectional CSR Mining),以挖掘的模式为特征,利用支持向量机(SVM)筛选得到比较句,实现维吾尔语比较句的识别。实验F值达到70.93%,证明提出的两层识别模型可以有效识别维吾尔语比较句。  相似文献   

12.
汉语比较句识别研究   总被引:2,自引:0,他引:2  
比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为“比较”和“非比较”两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。  相似文献   

13.
倾向性句子识别是文本倾向性分析的重要组成部分,其目的是识别文档中具有情感倾向的主观性句子。中文句子的倾向性不仅与倾向词有关,而且还跟句法、语义等因素有关,这使得倾向性句子识别不能简单地从词语的倾向性来统计得到。该文提出了一种基于N-gram超核的中文倾向性句子识别分类算法。该算法基于句子的句法、语义等特征构造N-gram超核函数,并采用基于该超核函数的支持向量机分类器识别中文倾向性句子。实验结果表明,与多项式核、N-gram核等单核函数相比,基于N-gram超核的中文倾向性句子识别算法在一定程度上能有效识别倾向性句子。  相似文献   

14.
社交媒体上短文本情感倾向性分析作为情感分析的一个重要分支,受到越来越多研究人员的关注。为了改善短文本特定目标情感分类准确率,提出了词性注意力机制和LSTM相结合的网络模型PAT-LSTM。将文本和特定目标映射为一定阈值范围内的向量,同时用词性标注处理句子中的每个词,文本向量、词性标注向量和特定目标向量作为模型的输入。PAT-LSTM可以充分挖掘句子中的情感目标词和情感极性词之间的关系,不需要对句子进行句法分析,且不依赖情感词典等外部知识。在SemEval2014-Task4数据集上的实验结果表明,在基于注意力机制的情感分类问题上,PAT-LSTM比其他模型具有更高的准确率。  相似文献   

15.
随着互联网整体水平的提高,大量基于维吾尔文的网络信息不断建立,引起了对不同领域的信息进行情感倾向性分析的迫切需要。该文考虑到维吾尔文没有足够的情感训练语料和完整的情感词典,结合机器学习方法和词典方法的优点,构建一个分类器模型 LCUSCM(Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model),先用自己构建的维吾尔文情感词典对语料进行高质量的情感分类,分类过程中对词典进行递归扩充,再根据每条句子的情感得分,从词典分类的结果中选择一部分语料来训练一个分类器并改进第一步的分类结果。此方法的正确率比单独使用机器学习方法提高了9.13%, 比词典方法提高了1.82%。  相似文献   

16.
基于词典和规则集的中文微博情感分析   总被引:2,自引:0,他引:2  
通过对微博文本的特性分析,提取了中文微博情感分析的关键问题:如何识别微博新词并理解其情感含义?如何利用附加信息辅助文本情感分析?如何结合语言特性构造情感计算方法?针对第一个问题,利用统计信息和点间互信息对新词进行挖掘和情感识别,在40万条新浪微博数据中构建了新情感词词典,用于对已有情感词资源的扩充。对于后两个问题,提出了基于词典和规则集的中文微博情感分析方法。根据微博特性,在不同的语言层次上定义了规则,结合情感词典对微博文本进行了从词语到句子的多粒度情感计算,并以表情符号作为情感计算的辅助元素。通过对采集到的原创微博数据集进行实验,验证了该方法的有效性。  相似文献   

17.
细粒度意见挖掘的主要目标是从观点文本中获取情感要素并判断情感倾向。现有方法大多基于序列标注模型,但很少利用情感词典资源。该文提出一种基于领域情感词典特征表示的细粒度意见挖掘方法,使用领域情感词典在观点文本上构建特征表示并将其加入序列标注模型的输入部分。首先构建一份新的电商领域情感词典,然后在电商评论文本真实数据上,分别为条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)这两种常用序列标注模型设计基于领域情感词典的特征表示。实验结果表明,基于电商领域情感词典的特征表示方法在两种模型上都取得了良好的效果,并且超过其他情感词典。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号