首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 52 毫秒
1.
微博情感研究已成为网络文本分析的重要研究领域,微博情感词典是进行微博情感分类的基础。提出一种在分析海量微博语料情感的过程中,自动构建情感词典的方法。方法自动从语料中获取情感词汇、筛选确定情感新词,使用SO-MB 算法计算新情感词的情感极性及强度,构建微博情感词典,结合规则对中文微博进行无监督情感分类。实验证明提出的微博情感词典的构建方法及微博情感分类方法是有效的。  相似文献   

2.
首先分析微博文本新词出现规律,通过程度词发现微博新词,然后通过拓展的PMI算法,计算新词与情感基准词之间的点互信息值,根据点互信息值将新词分为褒贬2类后加入微博领域词典。接着构建基础情感词典,考虑到微博文本的独特性和汉语言特点,构建微博表情词典、否定词典、程度词词典、连词词典。最后结合情感词典与语义规则,通过与微博表情进行情感值加权的方式来对中文微博进行情感分析。通过对抓取的微博数据集进行测试,验证了本文提出的分析策略的有效性。  相似文献   

3.
孙劲光  马志芳  孟祥福 《计算机工程》2013,(12):211-215,222
受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本主题分类的水平。为此,提出一种基于情感词属性和云模型的情感分类方法。结合情感词属性和简单句法结构以确定情感词的权重值,并利用云模型对情感词进行定性定量表示的转换。实验结果表明,该方法对情感词权重值计算是有效的,召回率最高达到78.8%,且与基于词典的方法相比,其文本情感分类结果更精确,正确率最高达到68.4%,增加了约9%的精度。  相似文献   

4.
为更具体表义社会新词的情感含义及其倾向性,该文提出了一种基于词向量的新词情感倾向性分析方法.在信息时代不断发展变化中,由于语言应用场景不断发展变化以及扩展语义表达的丰富性,网络上不断出现很多表达情感的新词,但是这些新词的表达虽有丰富的含义但缺乏准确的定义,因此对其情感倾向性分析具有一定困难.该文在分析了新词发现方法和词向量训练工具Word2Vec的基础上,研究了基于Word2Vec的情感词新词倾向性分析方法的可行性和架构设计,并面向微博语料进行实验,结果显示新词可以从与其相近的词中分析其情感倾向.  相似文献   

5.
中文基础情感词词典构建方法研究   总被引:12,自引:1,他引:11  
词语的情感倾向判别是文章语义情感倾向研究的基础工作.利用中文情感词建立一个基础情感词典,为专一领域情感词识别提供一个核心子集,能够有效地在语料库中识别及扩展情感词集,并提高分类效果.在中文词语相似度计算方法的基础上,提出了一种中文情感词语的情感权值的计算方法,并以HOWNET情感词语集为基准,构建了中文基础情感词典.利用该词典结合TF-IDF特征权值计算方法,对中文文本情感倾向进行判别,实验结果表明,该方法取得了不错的分类效果.  相似文献   

6.
基于语境歧义词的句子情感倾向性分析   总被引:1,自引:0,他引:1  
该文从情感的角度研究语境歧义词的搭配,这种搭配对文本情感倾向性分析方面具有实际重要的意义。首先使用关联规则挖掘的方法确定语境歧义词候选搭配集,然后通过PMI过滤后判断每对搭配词是否具有情感倾向性,最终构建语境歧义词搭配词典。采用语义分析的方法,在构建的语境歧义词搭配词典基础上对句子进行情感倾向性分析。通过在COAE2008语料集和情感语料库上进行实验,证明了在判断句子情感倾向性时考虑到语境歧义词的重要性,其对句子进行情感倾向性判断的正确率有很大的影响。  相似文献   

7.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

8.
随着2022年北京冬奥会的临近,有必要构建一个与冬奥会相关的垂直领域知识图谱,但目前网络上没有较完整的冬奥会相关术语集,因此,需要用集合扩展的方法对冬奥会术语集进行补充。近年来,集合扩展的方法主要基于Word2Vec进行研究,但扩展平均词频较低的冬奥会中文领域时效果并不理想。该文提出了中英文双语迭代扩展的方法,利用数量多、词频较高的英文语料库和中英文跨语言同义词数据集解决中文数据集平均质量较低的问题。该文使用维基百科中冬奥会领域相关的词条组成的数据集进行实验。实验结果表明,与其他集合扩展方法相比,该文提出的扩展方法扩展出的新词质量提升了12%以上。  相似文献   

9.
基于词典和规则集的中文微博情感分析   总被引:2,自引:0,他引:2  
通过对微博文本的特性分析,提取了中文微博情感分析的关键问题:如何识别微博新词并理解其情感含义?如何利用附加信息辅助文本情感分析?如何结合语言特性构造情感计算方法?针对第一个问题,利用统计信息和点间互信息对新词进行挖掘和情感识别,在40万条新浪微博数据中构建了新情感词词典,用于对已有情感词资源的扩充。对于后两个问题,提出了基于词典和规则集的中文微博情感分析方法。根据微博特性,在不同的语言层次上定义了规则,结合情感词典对微博文本进行了从词语到句子的多粒度情感计算,并以表情符号作为情感计算的辅助元素。通过对采集到的原创微博数据集进行实验,验证了该方法的有效性。  相似文献   

10.
为提高微博情感分类识别的正确率,以网络微博数据作为研究对象,提出一种基于图的情感基准词选择方法。结合知网相似度知识,构建图模型,以图中节点中介性的值为依据,选择出高质量和高覆盖率的情感基准词。根据得到的基准词构建情感分析中所需的情感词典,并给出情感词极性。同时将情感词应用于挖掘短句情感特征,加入到传统支持向量机(SVM)模型中,对微博句子挖掘更多的语义信息从而获取更合理的语义合成函数,捕捉句子情感变化以更好地把握微博整句情感。采用具有特征约束特性的条件随机场(CRF)模型对短句进行分类。实验结果验证了CRF模型短句分类的有效性,与多种特征的SVM分类方法相比,在不同数据集上具有更好的分类效果。  相似文献   

11.
以文本颗粒度为视角,从情感词抽取、语料库和情感词典构建、评价对象与意见持有者分析、篇章级情感分析、实际应用五个方面对文本情感分析文献进行了梳理,并做出必要评述。指出当前情感分析系统的准确率普遍不高,进一步研究的重点在于:自然语言处理的研究成果在文本情感倾向分析中更广泛和贴切的应用;选取文本情感倾向分类的特征和方法;利用现有语言工具和相关资源,规范、快速地构造语言工具和相关资源并应用。  相似文献   

12.
在使用词嵌入法进行词转向量时,两个反义词会转换成相近的向量。如果这两个词是情感词,将会导致词的情感信息的丢失,这在情感分析任务中是不合理的。为了解决这个问题,提出了一种在词嵌入的基础上增加情感向量来获取情感信息的方法。首先利用情感词典资源构建情感向量,将其与词嵌入法得到的词向量融合在一起;然后采用双向长短期记忆(BiLSTM)网络获取文本的特征;最后对文本的情感进行分类。在4个数据集上分别对该方法与未融合情感向量的方法进行了实验。实验结果表明所提方法分类准确度与F1值都高于未融合方法,说明了加入情感向量有助于提高情感分析的性能。  相似文献   

13.
在文本的情感倾向性研究中缺乏对多种情感共现的转折句式的有效分析,为此提出一种专门对转折句式进行有效情感倾向性分析的方法。充分分析汉语中转折句式的结构特点,通过已有资源构建中文情感词典、转折词表、否定词表,依据转折句式中转折词、否定词、情感词的组合规律提出用于进行情感分析的启发式规则。在公开语料库的实验中,该方法能更好地对转折句式进行情感倾向性分析,将此规则融入到传统的朴素贝叶斯情感分类模型后,能获得更高的情感分析精度。  相似文献   

14.
对文本情感分析中的情感词识别任务进行了研究,提出了综合利用已有各种语言知识以及辞典中的信息和知识来判断识别情感词.在识别中主要借助于不同语义知识词典中提供的词语间的知识和关系,对候选词进行语义归类,并计算情感置信度.实验结果表明,该方法能够很大限度利用手工编撰词典中的权威信息,快速识别文本中的情感词,对于词典中不存在的未登录词也有一定的识别能力.  相似文献   

15.
高华玲  张晶 《软件》2021,(1):45-47,66
为研究高端酒店服务中的亮点和不足,分析酒店用户评论舆情,文章对高端酒店用户评论进行情感分析和可视化,提出酒店优势与改进策略。文章采用通用情感词典Hownet与酒店评论相关的评论领域专业词典相结合的方式构建领域情感词典。结合所构建的领域情感词典和其他特殊词典,比如短语词典、否定词词典和副词词典等进行情感分类,然后将分类完成的三个极性的情感词进行词频统计和词云绘制,最后根据词云结果,给出高端酒店在经营策略上的改进建议。  相似文献   

16.
情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要 手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领 域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法 (Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典 建立上具有良好的可移植性,同时还具有专业性、领域性的特点。  相似文献   

17.
基于汉语情感词表的句子情感倾向分类研究   总被引:6,自引:2,他引:4       下载免费PDF全文
提出了一种基于汉语情感词词表的加权线性组合的句子情感分类方法。该方法通过已有的五种资源构建了中文情感词词表,并采用加权线性组合的句子情感分类方法对句子进行情感类别判断。实验结果表明,直接利用词汇语言粒度的句子情感分类综合F值为78.62%,若加入了否定短语语言粒度后,句子情感分类的综合F值提高了4.14%。  相似文献   

18.
面向倾向性分析的基于词聚类的基准词选择方法*   总被引:1,自引:0,他引:1  
现有的基准词选择方法存在着随机性和主观性的缺陷,提出了一种基于词聚类的基准词的选择方法:从目标领域本体中选出一组初始种子词进行扩展,聚类得出二代种子词,对二代种子词再进行扩展、聚类,依次迭代直至得到最优的聚类种子词,并作为最终选取的基准词。实验结果表明该方法提取的基准词在词的情感倾向分类中具有较高的准确率。  相似文献   

19.
方面级情感分类是当前的研究热点之一,其目标是自动推断文本中特定方面的情感倾向。融合多种不同类型的词向量作为基于深度学习模型的输入,在该任务上取得了较好的效果。然而,通过直接拼接或门控机制等方式融合多种不同的词向量,不能充分发挥每种词向量的作用。为了解决这个问题,该文提出了一种基于互学习的多词向量融合情感分类框架,其目的是充分利用普通词向量、领域词向量和情感词向量中的信息,提高分类的性能。具体地,首先构建以三种词向量的融合作为输入的主模型,然后分别构建三个以单一词向量作为输入的辅助模型,最后基于互学习的方式联合训练主模型和辅助模型,以达到相互促进的效果。在三个常用数据集上的实验表明,该文提出框架的性能明显好于基准方法。  相似文献   

20.
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号