首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 187 毫秒
1.
一种基于多重词典的中文文本情感特征抽取方法   总被引:1,自引:1,他引:0  
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

2.
中文微博情感词典构建方法   总被引:3,自引:2,他引:1  
提出了一种中文微博情感词典构建方法。采用上下文熵的网络用语发现策略,通过TF IDF(term frequency inverse document frequency)进行二次过滤得到网络用语;利用SO PMI(semantic orientation pointwise mutual information)算法在已标注的微博语料库中计算网络用语的情感倾向值,构建网络用语情感词典;将词典应用到微博情感分类实验,并与朴素贝叶斯分类器的分类性能进行了比较分析。实验结果表明,直接利用微博情感词典的分类效果好于朴素贝叶斯分类器,并具有分类过程简单、快速等优势。  相似文献   

3.
针对基于词典的传统分类器无法对不在词典中的情感词的极性和强度进行有效计算和细分的问题,基于最大期望模型,提出构建完善情感词典的EM-SO算法,在此基础上设计基于语义倾向计算模型的否定式和强(弱)化处理组件,以获取评价词及其修饰词的组合效应。实验结果表明,所提算法及所设计组件在评论集上对情感词极性和强度的计算性能优于SO-CAL模型,可应用到主观性分类等实际任务中。  相似文献   

4.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

5.
基于扩展情感词典及特征加权的情感挖掘方法   总被引:1,自引:1,他引:0  
针对情感分类中采用单一特征分类精度不高的问题,提出多特征加权的分类算法:根据扩展的情感词典计算每个词的情感倾向度,经CHI特征选择后,根据情感词的极性强度调整贝叶斯分类模型中该词的正负后验概率,在原值的基础上加上极性强度影响值。实验将该方法和其他3种单特征选择方法在酒店、影视等语料上的分类精度进行了对比,分类精度得到提升。实验结果表明,将词语的情感倾向度的特征融入到分类器中方法,在有效提高情感倾向性分类精度的同时降低了特征维数。  相似文献   

6.
面向文本情感分析的中文情感词典构建方法   总被引:3,自引:1,他引:2  
提出了构建基于HowNet和SentiWordNet的中文情感词典方法。将词语自动分解为多个义元后计算其情感倾向强度,并且使用词典校对方法对词语情感倾向强度进行优化。将所构建词典应用到文本情感分析任务中,使用支持向量机构建文本情感分类器进行实验。实验结果表明,该词典优于一般极性情感词典,为情感分析研究提供了有效的词典资源。  相似文献   

7.
针对微博行文自由性大,情感倾向识别困难的问题,提出了一种基于混合高斯分布伪样本生成技术和条件随机场模型的新方法。该方法首先利用混合高斯分布模型来为训练集中的少数类生成伪样本从而构建一个情感倾向分布平衡的训练集,然后通过使用Word2vec来扩展微博句子以丰富它的情感信息,从而缓解情感词典不足够大对情感分类的负面影响;最后将条件随机场模型应用在上面已经平衡和扩展后的训练集上.实验结果表明该方法比现有方法在数据集情感倾向分布不平衡时能更有效地识别微博的情感倾向.  相似文献   

8.
通过对中文微博情感分类的深入研究,该文提出了基于回应消息的中文微博情感分类方法。首先,对微博回应消息进行情感标注,然后利用回应消息情感分布结合SVM算法对微博文本情感进行分类;其次,对分类特征进行了详细分析。实验结果表明,该方法能够得到更高的准确率和召回率。  相似文献   

9.
一种基于朴素贝叶斯的中文评论情感分类方法研究   总被引:2,自引:1,他引:1  
提出一种新的基于朴素贝叶斯的中文文本情感分类方法。该方法用情感短语作为文本特征,通过情感词典与否定副词相结合,提取情感短语,通过CHI统计法设定阈值进行特征提取,再利用朴素贝叶斯分类器进行情感分类计算。对不同CHI阈值、不同语料库、以情感短语为特征和以情感词为特征进行分类实验。实验表明,以情感短语作为特征进行朴素贝叶斯分类,在不同领域的评论中均获得了较高的查准率和查全率,证明了该方法的可行性。  相似文献   

10.
针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用TF-IDF值在词汇重要程度的度量作用,在酒店评论中获得9 860个领域候选情感词汇;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感词极性分类和文本情感分析任务中,试验结果表明,Senti2vec能实现情感词的语义表示和情感表示;基于特定领域语料的语义相似计算,使得提取的情感特征更具有领域特性,同时不受候选情感词集范围的约束。  相似文献   

11.
微博作为最受欢迎的社交网络平台之一,是人们表达观点和情感的重要途径.性格影响人的情感表达方式.针对现有微博情感分析很少考虑性格因素这一问题,文章提出一种基于BiLSTM+Self-Attention并结合性格因素的微博情感分类模型(P-BiLSTM-SA).该模型首先根据"大五"人格理论,基于用户性格将微博文本进行性格...  相似文献   

12.
表情符号已成为网络语言重要组成部分,是分析社交媒体情感的主要特征之一.目前分析社交媒体情感符号的方法多针对Emoji,对颜文字的情感倾向没有相应分析.为获取中文媒体的多维度情感并分析热点话题的群体情感走向,本文以微博为例提出一种新的融合表情符号与短文本的多维情感分类方法.在该框架中,采用深度学习模型分析文本与Emoji组合部分、颜文字部分,分别计算两部分的7种情感强度,挖掘各部分与情感标签的深层次关联,并设计计算模型来反映语句包含的多维情感属性,实现对语句多维情感强度的检测.实验选择NLPCC2014数据集和爬取的带有颜文字的微博数据集进行验证,实验证明当文本与Emoji组合、颜文字占比分别为0.6和0.4时情感分类效果最好,且含颜文字的语句情感分类性能指标始终高于不含颜文字的语句,这表明融合表情符号和短文本的形式有效提高了情感检测精度.该方法为研究群体情感趋势提供了更细粒度的分析,为中文社交媒体的情感分析提供了新思路.  相似文献   

13.
在Twitter情感分类研究中,经常会采用将推文中的单词匹配情感词典中的同义词条查找相应情感值的方法. 但推文书写比较随意,包含许多俚语、缩写和特殊符号,导致许多词汇与情感词典中的词条无法匹配,匹配率不高直接影响推文的情感分类性能. 针对Twitter的语言特征,提出了一套Twitter推文与情感词典SentiWordNet的匹配算法. 该算法首先通过对推文内容进行数据清洗、替代处理、词性标注和词形还原等预处理,增加了命名实体识别、对hashtags内容的断词处理、基于Word Clusters的否定句处理和词组匹配等方法. 实验结果表明,采用此方法的匹配率可达90%以上.  相似文献   

14.
一种基于动态词典和三支决策的情感分析方法   总被引:1,自引:1,他引:0  
提出了一种新的特征提取方式,与三支决策思想相结合,运用在文本情感分析中,以提高分类器的效率。根据训练集合创建动态情感词典,然后根据情感词典提取文本的抽象特征,形成特征矩阵。在分类过程中,如果分类器对于目标文本的所属分类确信程度不够高,那么分类器会利用三支决策的思想,将文本置于边界域中,等待别的处理方法。实验结果表明,在英文影评数据集上,基于动态词典的特征提取方法可以取得更好的分类准确率,而且三支决策规则可将一些样例放入边界域,提高了分类准确率。  相似文献   

15.
文本情感极性分类是文本情感分析首先要解决的关键问题。在分析影响文本情感分类的各类因素的基础上,首先构建了情感词典,并进行情感特征选取以及情感特征加权,然后使用SVM分类的方法对文本进行情感识别及分类,最后在语料数据集的基础上,在单机平台上和Spark分布式计算平台上执行分类模型,对比分析其分类精度和时间代价。实验结果验证了本文构建的情感极性分类模型在单机和分布式云平台上中的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号