首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
在电商网站评论文本中,评价对象和评价属性的缺省识别对文本情感分析具有重要地作用。针对电商网站评论文本中评价对象和评价属性缺省问题,该文提出了一种基于条件随机场的评价对象缺省项识别方法。首先利用情感词典识别观点句,将缺省项识别问题转换成序列标注问题,综合词法特征和依存句法特征,使用条件随机场模型进行训练,并在测试集上对待识别的观点句进行序列标注,通过标注结果判定缺省项的位置。实验结果表明,该方法具有较高的准确率和召回率,验证了该方法的有效性。  相似文献   

2.
针对在金融领域实体级情感分析任务中缺乏足够的标注语料,以及通用的情感分析模型难以有效处理金融文本等问题,该文构建一个百万级别的金融领域实体情感分析语料库,并标注5 000余个金融领域情感词作为金融领域情感词典。同时,基于该金融领域数据集,提出一种结合金融领域情感词典和注意力机制的金融文本细粒度情感分析模型(FinLexNet)。该模型使用两个LSTM网络分别提取词级别的语义信息和基于情感词典分类后的词类级别信息,能有效获取金融领域词语的特征信息。此外,为了让文本中金融领域情感词获得更多关注,提出一种基于金融领域情感词典的注意力机制来为不同实体获取重要的情感信息。最终在构建的金融领域实体级语料库上进行实验,取得了比对比模型更好的效果。  相似文献   

3.
动态情感知识的获取,特别是领域相关极性词典的构建一直是意见挖掘和情感分析系统在开放应用时面临的主要挑战之一。该文面向产品评价文本提出一种汉语情感极性词典扩展方法。该方法首先采用序列标注方法从意见文本中抽取产品意见要素,同时构建属性-评价对;然后,对抽取的属性-评价对进行正规化,以减少词典扩展中的复杂性和噪声;最后,改进PolarityRank算法的构图方式以使其适用于汉语文本,从而完成词典扩展。在汽车和手机两个领域的意见文本的实验结果表明领域相关的情感极性词语的扩展有利于情感极性分类性能的提高。
  相似文献   

4.
电商领域的文本通常不遵循通用领域文本的表达方式,导致传统短语挖掘方法在电商领域文本中的挖掘精度较低.为此,提出一种基于协同训练的电商领域短语挖掘方法.通过基于语义特征的短语分类模型来有效检测电商领域文本中的反序表达,构建协同训练的短语挖掘框架,以降低领域语料中标注训练数据的成本,在此基础上,利用Stacking方法集成统计模型和语义模型的优点,提升模型整体挖掘性能.在淘宝网查询语料上的实验结果表明,相比于ClassPhrase、AutoPhrase方法,该方法具有更高的精度和召回率.  相似文献   

5.
观点挖掘(或情感分析)作为面向网络社会媒体分析挖掘领域的一个核心研究课题,具有重要的研究意义和应用价值。针对传统观点挖掘方法存在的不足和局限性,本文设计并实现了一种基于OCC情感模型的观点挖掘方法。该方法首先采用统计方法,利用WordNet词典、句法依存关系及少量标注数据,自动构建情感维度词典;其次,对所构建的情感维度词典进行求精,通过语义、情感倾向的不一致性处理和非情感词的过滤,得到高质量的情感维度词典;最后,基于所得到的情感维度词典,结合OCC模型中情感维度值与情感类型的对应关系,生成6种主要的情感类型。实验方法表明,此方法在使用灵活性、可解释性和有效性上具有明显的优势。  相似文献   

6.
挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助。该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据。该文首先在基于字符的BiLSTM-CRF神经网络模型上进行扩展,加入语言模型词向量(Embeddings from Language Models,ELMo)来提高识别性能。进而考虑中文字形特征,包括五笔和笔画特征。提出两种引入字形特征的新模型,即在预训练语言模型中结合事件的字形信息进行建模。实验结果表明融入字形特征的ELMo可以进一步提高模型性能。最后,该文分别使用新闻和电商领域两份大规模无标注数据训练语言模型。结果表明,电商领域语料对系统的帮助更大。  相似文献   

7.
方面级意见挖掘的任务通常包括从客户评论中抽取产品的特征、与产品特征相关联的观点词识别以及观点的极性判断三个方面。围绕如何实现中文评论的方面级意见挖掘问题,提出了利用条件随机场实现中文评论的方面级意见挖掘的四个主要步骤:数据预处理、训练集准备、为条件随机场模型定义学习函数、应用模型标注新的评论数据。在此基础上,通过以五种实际产品的中文评论语料为数据集,对该方法进行了数据实验。实验结果表明,该方法针对不同类型观点元素的抽取在评估性能指标上大部分达到或超过80%。为了进一步验证所提出方法的有效性,将研究结果进行了差异显著性检验。结果显示,用CRF对中文评论进行方面级意见挖掘和对英文评论的方面意见挖掘的性能差异不大。最后,比较了三种不同方法的方面抽取精度和情感分类精度,实验结果表明,CRF方法优于词典化的隐马尔可夫模型和关联规则挖掘方法。  相似文献   

8.
短语情感倾向性分析是文本情感分析的重要研究内容。该文将短语情感倾向性分析问题视作序列标注问题,利用条件随机场模型实现短语的情感倾向性判断。条件随机场模型是利用序列特征处理序列标注问题的经典方法,然而现有条件随机场模型无法将词语的情感倾向性分析与短语的情感倾向性分析相结合,从而造成准确率不高。因此,该文提出一种扩展式条件随机场模型YACRFs。该模型在链式条件随机场模型的基础上进行扩充,将词语情感倾向性分析与短语情感倾向性分析有效地结合起来,引入了情感词汇、短语规则模板以及词性等特征。与传统的规则方法和统计分类方法进行对比实验,该文提出方法取得了最高准确率81.07%。进一步地,在应用于句子情感倾向性分析的实验中得到了94.30%的准确率。实验结果表明,该文所提出的YACRFs模型能够显著提高短语情感倾向性判断结果的准确率。  相似文献   

9.
传统的情感分析研究通过分析, 确定词语、句子或篇章的情感, 但忽略了情感表达的主题。针对这一不足, 该文提出了一种基于双层CRFs模型的细粒度意见挖掘中维吾尔语意见型文本陈述级情感分析方法。第一层模型识别意见型文本中的主题词和意见词, 确定意见陈述的范围, 并将识别结果传递给第二层模型, 将其作为重要特征之一, 用于陈述级情感分析。细粒度意见挖掘中情感分析的目标是构建<意见陈述, 主题词, 意见词, 情感>四元组。该方法用于维吾尔语陈述级情感分析的准确率为77.41%, 召回率为78.51%, 证明了该方法在细粒度意见挖掘中情感分析任务上的有效性。  相似文献   

10.
在线评论文本具有口语化的特点,其评价词缺少对应的评价对象,影响了细粒度情感分析的效果。为此,提出一种利用深度学习自动识别评价对象的方法。设计研究领域的文本序列标注规范,在对评论语料分词后,进行评价词与评价对象的命名实体标注,得到单词序列、词性序列和标注序列。将单词序列、词性序列转为神经网络语言模型的词向量,并用循环神经网络进行训练,采用条件随机场(CRF)输出评价对象标签,得到缺失的评价对象。实验结果表明,与单一CRF模型相比,BiLSTM+CRF模型和BiGRU+CRF模型的识别效果较好,BiGRU+CRF模型的F1值最高可达0.84。  相似文献   

11.
覆盖面广且领域适应性好的情感词典可以有效提高文本情感分析效能。设计了基于连词语言特征和词性特征向量统计特征的中文情感词典扩展算法,提出了综合两种方法的混合特征算法。算法计算得到词语的细粒度的积极和消极情感极性值,并对通用情感词典在领域内进行扩展以提高覆盖度,对词典进行领域内调整以提高适应性。实验结果表明,算法在领域内扩展获得的词典比通用情感词典覆盖度和适应性更好,在情感分类任务中性能接近有监督方法。  相似文献   

12.
情感词典自动构建方法综述   总被引:13,自引:1,他引:12  
王科  夏睿 《自动化学报》2016,42(4):495-511
情感词典作为判断词语和文本情感倾向的重要工具, 其自动构建方法已成为情感分析和观点挖掘领域的一项重要研究内容. 本文整理了现有的中、英文情感词典资源, 同时分别从知识库、语料库、以及两者结合的角度, 归纳现有英文和中文情感词典的构建方法, 分析了各种方法的优缺点, 并总结了情感词典构建中的若干难点问题. 之后, 我们回顾了情感词典性能评估方法及相关评测竞赛. 最后总结了情感词典构建任务的发展前景以及一些亟需解决的问题.  相似文献   

13.
基于情感词典扩展技术的网络舆情倾向性分析   总被引:7,自引:0,他引:7  
随着Web2.0时代的到来,网络已逐渐成为反映社会舆情的重要载体之一,网络舆情发现及网民的观点和倾向性挖掘也成为新的研究热点,但是目前尚无有效反应网民对热点事件或话题总体态度的舆情分析系统.本文针对网民关于话题评论简单、数目众多的特点,应用HowNet和NTUSD两种资源对现有情感词典进行扩展,建立了一个新的、具有倾向程度的情感词典.基于扩展的情感词典,开发了一个半自动化网络舆情分析系统.该系统能够为用户提供更加细致、准确的评论倾向性分析结果.  相似文献   

14.
Sentiment lexicons (SL) (aka lexical resources) are the repositories of one or several dictionaries that consist of known and precompiled sentiment terms. These lexicons play an important role in performing several different opinion mining tasks. The efficacy of the lexicon-based approaches in performing opinion mining (OM) tasks solely depends on selecting an appropriate opinion lexicon to analyze the text. Therefore, one has to explore the available sentiment lexicons and then select the most suitable resource. Among available resources, SentiWordNet (SWN) is the most widely used lexicon to perform tasks related to opinion mining. In SWN, each synset of WordNet is being assigned the three sentiment numerical scores; positive, negative and objective that are calculated using by a set of classifiers. In this paper, a detailed and comprehensive review of the work related to opinion mining using SentiWordNet is provided in a very distinctive way. This survey will be useful for the researchers contributing to the field of opinion mining. Following features make our contribution worthwhile and unique among the reviews of similar kind: (i) our review classifies the existing literature with respect to opinion mining tasks and subtasks (ii) it covers a very different outlook of the opinion mining field by providing in-depth discussions of the existing works at different granularity levels (word, sentences, document, aspect, clause, and concept levels) (iii) this state-ofart review covers each article in the following dimensions: the designated task performed, granularity level of the task completed, results obtained, and feature dimensions, and (iv) lastly it concludes the summary of the related articles according to the granularity levels, publishing years, related tasks (or subtasks), and types of classifiers used. In the end, major challenges and tasks related to lexicon-based approaches towards opinion mining are also discussed.  相似文献   

15.
李卫疆  漆芳  余正涛 《软件学报》2021,32(9):2783-2800
针对情感分析任务中没有充分利用现有的语言知识和情感资源,以及在序列模型中存在的问题:模型会将输入文本序列解码为某一个特定的长度向量,如果向量的长度设定过短,会造成输入文本信息丢失.提出了一种基于多通道特征和自注意力的双向LSTM情感分类方法(MFSA-BiLSTM),该模型对情感分析任务中现有的语言知识和情感资源进行建模,形成不同的特征通道,并使用自注意力重点关注加强这些情感信息.MFSA-BiLSTM可以充分挖掘句子中的情感目标词和情感极性词之间的关系,且不依赖人工整理的情感词典.另外,在MFSA-BiLSTM模型的基础上,针对文档级文本分类任务提出了MFSA-BiLSTM-D模型.该模型先训练得到文档的所有的句子表达,再得到整个文档表示.最后,对5个基线数据集进行了实验验证.结果表明:在大多数情况下,MFSA-BiLSTM和MFSA-BiLSTM-D这两个模型在分类精度上优于其他先进的文本分类方法.  相似文献   

16.
倾向性句子识别是文本倾向性分析的重要组成部分,其目的是识别文档中具有情感倾向的主观性句子。中文句子的倾向性不仅与倾向词有关,而且还跟句法、语义等因素有关,这使得倾向性句子识别不能简单地从词语的倾向性来统计得到。该文提出了一种基于N-gram超核的中文倾向性句子识别分类算法。该算法基于句子的句法、语义等特征构造N-gram超核函数,并采用基于该超核函数的支持向量机分类器识别中文倾向性句子。实验结果表明,与多项式核、N-gram核等单核函数相比,基于N-gram超核的中文倾向性句子识别算法在一定程度上能有效识别倾向性句子。  相似文献   

17.
Twitter messages are increasingly used to determine consumer sentiment towards a brand. The existing literature on Twitter sentiment analysis uses various feature sets and methods, many of which are adapted from more traditional text classification problems. In this research, we introduce an approach to supervised feature reduction using n-grams and statistical analysis to develop a Twitter-specific lexicon for sentiment analysis. We augment this reduced Twitter-specific lexicon with brand-specific terms for brand-related tweets. We show that the reduced lexicon set, while significantly smaller (only 187 features), reduces modeling complexity, maintains a high degree of coverage over our Twitter corpus, and yields improved sentiment classification accuracy. To demonstrate the effectiveness of the devised Twitter-specific lexicon compared to a traditional sentiment lexicon, we develop comparable sentiment classification models using SVM. We show that the Twitter-specific lexicon is significantly more effective in terms of classification recall and accuracy metrics. We then develop sentiment classification models using the Twitter-specific lexicon and the DAN2 machine learning approach, which has demonstrated success in other text classification problems. We show that DAN2 produces more accurate sentiment classification results than SVM while using the same Twitter-specific lexicon.  相似文献   

18.
Opinion targets extraction of Chinese microblogs plays an important role in opinion mining. There has been a significant progress in this area recently, especially the method based on conditional random field (CRF). However, this method only takes lexicon-related features into consideration and does not excavate the implied syntactic and semantic knowledge. We propose a novel approach which incorporates domain lexicon with groups of syntactical and semantic features. The approach acquires domain lexicon through a novel way which explores syntactic and semantic information through Partof-Speech, dependency structure, phrase structure, semantic role and semantic similarity based on word embedding. And then we combine the domain lexicon with opinion targets extracted from CRF with groups of features for opinion targets extraction. Experimental results on COAE2014 dataset show the outperformance of the approach compared with other well-known methods on the task of opinion targets extraction.  相似文献   

19.
随着Web 2.0时代的兴起,微博作为一个新的信息分享平台已经成为人们生活中一个重要的信息来源和传播渠道。近年来针对微博的情感分类问题研究也越来越多地引起人们的关注。该文深入分析了传统的情感文本分类和微博情感分类在特征表示和特征筛选上存在的差异,针对目前微博情感分类在特征选择和使用上存在的缺陷,提出了三种简单但十分有效的特征选取和加入方法,包括词汇化主题特征、情感词内容特征和概率化的情感词倾向性特征。实验结果表明,通过使用该文提出的特征选择和特征加入方法,微博情感分类准确率由传统方法的73.17%提高到了84.17%,显著改善了微博情感分析的性能。  相似文献   

20.
黄熠  王娟 《计算机科学》2017,44(Z6):446-450
中文文本的情感倾向分析是网络舆情信息挖掘和分析的关键技术之一。提出了一种粒子群-高斯过程算法(PSO-GP)的中文文本情感倾向分类方法,采用粒子群优化算法(Particle Swarm optimization,PSO)进行高斯过程(Gaussian Process)超参数的最优搜索,解决了传统高斯过程中共轭梯度法迭代次数难确定、对初值依赖性强和易陷入局部极小值等问题。首先采用多线程网络爬虫技术采集文本数据组成语料库,构建特定领域情感词典,然后通过情感词匹配选择最有效的特征,降低数据维度,并利用TF-IDF算法计算特征词的权重以生成特征向量。最终,将测试样本输入PSO-GP分类模型。实验结果表明,与传统GP方法相比,提出的改进高斯过程分类模型的分类准确率提高了近15%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号