首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
陈鑫  王素格  廖健 《计算机应用》2016,36(2):424-427
针对微博中新情感词的识别问题,提出了一种基于词语相关度的微博新情感词自动识别方法。首先,对于分词软件把一个新词错分成几个词的问题,利用组合思想将相邻词进行合并作为新词的候选词;其次,为了充分利用词语上下文的语义信息,采用神经网络训练语料获得候选新词的空间表示向量;最后,利用已有的情感词典作为指导,融合基于词表集合的关联度排序和最大关联度排序算法,在候选词上筛选,获得最终的情感新词。在COAE2014(第六届中文倾向性分析评测)任务3语料上,提出的融合算法与点互信息(PMI)、增强互信息(EMI)、多词表达距离(MED)、新词语概率(NWP)以及基于词向量的新词识别方法相比,准确率至少提高了22%,说明该方法自动识别微博新情感词效果优于其他五种方法。  相似文献   

2.
中文基础情感词词典构建方法研究   总被引:12,自引:1,他引:11  
词语的情感倾向判别是文章语义情感倾向研究的基础工作.利用中文情感词建立一个基础情感词典,为专一领域情感词识别提供一个核心子集,能够有效地在语料库中识别及扩展情感词集,并提高分类效果.在中文词语相似度计算方法的基础上,提出了一种中文情感词语的情感权值的计算方法,并以HOWNET情感词语集为基准,构建了中文基础情感词典.利用该词典结合TF-IDF特征权值计算方法,对中文文本情感倾向进行判别,实验结果表明,该方法取得了不错的分类效果.  相似文献   

3.
对文本情感分析中的情感词识别任务进行了研究,提出了综合利用已有各种语言知识以及辞典中的信息和知识来判断识别情感词.在识别中主要借助于不同语义知识词典中提供的词语间的知识和关系,对候选词进行语义归类,并计算情感置信度.实验结果表明,该方法能够很大限度利用手工编撰词典中的权威信息,快速识别文本中的情感词,对于词典中不存在的未登录词也有一定的识别能力.  相似文献   

4.
作为文本情感分析的前提和基础,词语的情感极性判别显得尤为重要。现有利用情感基准词进行词语的情感倾向研究中,情感基准词的选择多数基于研究者的人工判别或词语的使用频率。以上方式存在着随机性和主观性的缺陷,并且难以保证对词典中语义关系的全面覆盖。本文提出以候选基准词为顶点,两词间的知网相似度作为边的权重设定参数来构建情感词的无向图。将图中结点的中介性值作为基准词的选择依据,从而保证所选基准词的可靠性。实验证明,通过该方法选取出来的基准词在词的情感倾向分类中具有较高的准确率。  相似文献   

5.
为实现维吾尔语网络内容的倾向性分析,进行维吾尔语情感词典的构建研究。首先对现有成果中的情感基准词进行汇总分析,筛选使用频率高、情感倾向强烈的词汇作为维文情感种子词,并利用维文同义词电子词典建立种子扩展词集;其次对HowNet、NTUSD以及大连理工大学开发的情感词典进行并运算,翻译为维吾尔语词汇构成候选词集合;最后利用语料库,计算候选词与种子词以及同义扩展词之间的点互信息值,判别候选词的极性并将其加入到相关的褒贬情感词库中。与汉语句子情感倾向评测实验结果比较,基于该词典的维吾尔语句子倾向性判断准确率和召回率基本相同。  相似文献   

6.
为了更好地对微博进行表示,提高微博情感倾向性识别的准确度,提出一种基于Skip-gram模型的微博情感倾向性分析方法。首先,使用Skip-gram模型在中文数据上进行训练得到词向量;然后,利用词向量在词语表示上的优势,以及一定程度上满足加法组合运算的特性,通过向量相加获得微博的向量表示以及正负情感向量;最后,通过计算微博向量和正负情感向量的相似度判断微博的情感倾向。在NLP&CC2012数据上进行实验,结果表明,该方法能够有效识别微博的情感倾向,较传统的JST(Joint Sentiment/Topic model)和ASUM(Aspect and Sentiment Unication Model)平均F1值分别提高了23%和26%。  相似文献   

7.
为提高微博情感分类识别的正确率,以网络微博数据作为研究对象,提出一种基于图的情感基准词选择方法。结合知网相似度知识,构建图模型,以图中节点中介性的值为依据,选择出高质量和高覆盖率的情感基准词。根据得到的基准词构建情感分析中所需的情感词典,并给出情感词极性。同时将情感词应用于挖掘短句情感特征,加入到传统支持向量机(SVM)模型中,对微博句子挖掘更多的语义信息从而获取更合理的语义合成函数,捕捉句子情感变化以更好地把握微博整句情感。采用具有特征约束特性的条件随机场(CRF)模型对短句进行分类。实验结果验证了CRF模型短句分类的有效性,与多种特征的SVM分类方法相比,在不同数据集上具有更好的分类效果。  相似文献   

8.
微博作为一种用户发表看法和观点的载体已成为互联网上一个重要的情感交流平台,博文搜索为这种交流提供了方便快捷的途径。基于How Net等中文情感词典的微博情感词的抽取和分类,计算词语语义相似度和倾向性。对文本情感倾向的加权值、表情、和情感词增强因素等进行综合考虑。实验结果表明表情情感倾向对微博情感倾向起着重要作用;在表情和文本情感倾向比值固定的情况下,调整因素和中性区间的选择会对情感倾向判断准确率产生影响;通过与基于How Net语义相似度的计算模型比较,该文方法使得情感倾向判断准确率有所提高。  相似文献   

9.
针对现有情感特征在语义表达和领域拓展等方面的不足,提出了一种基于语义相似度的情感特征向量提取方法。利用25万篇sogou新闻语料和50万条微博语料,训练得到Word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感近义词和反义词相似度分析、情感词极性分类和文本情感分析任务中,实验结果表明Senti2vec能实现情感词的语义表示和情感表示。基于大规模语料的语义相似计算,使得提取的情感特征更具有领域拓展性。  相似文献   

10.
邹后孝 《网友世界》2014,(17):317-317
藏语显示情感句是指在一个主观的语句中给一个定期或比较的意见;本文是在基于藏文显示情感句词语级语义的基础上进行藏文语句的情感研究,从藏语言显式情感句自身的特性出发,首先进行语句断句并划分出主体、客体,提取出每个显式情感句的带有情感色彩的情感词以及句子中影响句子情感极性的副词,通过义原相似度分析到概念情感相似度的计算最终得到词语相似情感理论值,在为句子情感分类的基础上扩展其他情感词。最后结合情感语义以及主体、实体之间关系的处理得出整个藏语句子的情感倾向,继而完成基于词语级的藏语显式情感句的情感研究。  相似文献   

11.
针对中文消费评论的情感分类问题,构建了一种基于语料库的二维坐标映射法的情感分类方法。根据中文语言特点,首先提出了基于语料库的搜索方法,使搜索更有针对性;其次,定义了提取表达情感的中文短语的规则;第三,构造了某领域的最佳种子词选取算法;最后,构造了二维坐标映射算法,通过计算评论句子的坐标值,将其映射到二维直角坐标系中,判断句子的语义倾向性。选取亚马逊网站某商家1200条与牛奶相关的评论(好、差评各600条)进行实验,首先根据最佳种子词选取算法选取“很好漏”作为最佳种子词,再根据二维坐标映射算法判断评论的情感极性,实验的平均F值达到了85%以上。实验结果表明该算法可以对消费评论进行情感分类。  相似文献   

12.
吴斐  张玉红  胡学钢 《计算机科学》2015,42(6):220-222, 238
词汇的情感倾向判别对文本情感分类具有重要意义。已有方法多假设存在基准词,根据目标词与基准词的关联度来判别目标词的情感倾向。实际应用中,尤其是评论语料库中基准词往往存在情感歧义问题,从而影响判别结果的准确性。基于上述分析,面向给定语料库,提出一种基准词的提取和消歧方法,并在此基础上实现跨领域的词汇情感倾向判别。首先在任一标记语料库中自动提取候选基准词;然后基于共现矩阵评估并过滤部分具有情感歧义的基准词;最后通过计算基准词与目标词的相似性,实现目标词的情感倾向判别。实验结果表明了方法的有效性和可行性。  相似文献   

13.
董苑  钱丽萍 《计算机科学》2017,44(Z11):422-427
为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩展相似度,找出文本词语间最大的相似度配对,从而计算出文本间的相似度。这种相似度计算方法利用语义词典,既考虑了不同文本间词语的相似度关系,又考虑了词语在各自文本中的词频高低。实验结果表明,与传统的语义算法和基于空间向量的文本相似度计算方法相比,TSSDWFI算法计算的文本相似度的准确度有了进一步提高。  相似文献   

14.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

15.
龙珑  邓伟 《计算机应用研究》2013,30(4):1095-1098
由于目前博客基本是文本格式,提出基于语义理解分析博文倾向性的方法。算法以HowNet情感词语词库为基础,绿色网络云系统可以创建并不断完善绿色网络系统的情感字典云数据库,使用词语相似度方法计算词语的情感权值,同时利用词语的情感权值的计算对博文倾向性作初始判定,从而得到博文的情感倾向性判定结果。最后通过实验对该方法进行验证,结果表明该算法可以有效地判定博客文本情感倾向性,为绿色网络系统是否过滤该博客提供准确依据。  相似文献   

16.
SENTIMENT CLASSIFICATION of MOVIE REVIEWS USING CONTEXTUAL VALENCE SHIFTERS   总被引:3,自引:0,他引:3  
We present two methods for determining the sentiment expressed by a movie review. The semantic orientation of a review can be positive, negative, or neutral. We examine the effect of valence shifters on classifying the reviews. We examine three types of valence shifters: negations, intensifiers, and diminishers. Negations are used to reverse the semantic polarity of a particular term, while intensifiers and diminishers are used to increase and decrease, respectively, the degree to which a term is positive or negative. The first method classifies reviews based on the number of positive and negative terms they contain. We use the General Inquirer to identify positive and negative terms, as well as negation terms, intensifiers, and diminishers. We also use positive and negative terms from other sources, including a dictionary of synonym differences and a very large Web corpus. To compute corpus-based semantic orientation values of terms, we use their association scores with a small group of positive and negative terms. We show that extending the term-counting method with contextual valence shifters improves the accuracy of the classification. The second method uses a Machine Learning algorithm, Support Vector Machines. We start with unigram features and then add bigrams that consist of a valence shifter and another word. The accuracy of classification is very high, and the valence shifter bigrams slightly improve it. The features that contribute to the high accuracy are the words in the lists of positive and negative terms. Previous work focused on either the term-counting method or the Machine Learning method. We show that combining the two methods achieves better results than either method alone.  相似文献   

17.
针对在金融领域实体级情感分析任务中缺乏足够的标注语料,以及通用的情感分析模型难以有效处理金融文本等问题,该文构建一个百万级别的金融领域实体情感分析语料库,并标注5 000余个金融领域情感词作为金融领域情感词典。同时,基于该金融领域数据集,提出一种结合金融领域情感词典和注意力机制的金融文本细粒度情感分析模型(FinLexNet)。该模型使用两个LSTM网络分别提取词级别的语义信息和基于情感词典分类后的词类级别信息,能有效获取金融领域词语的特征信息。此外,为了让文本中金融领域情感词获得更多关注,提出一种基于金融领域情感词典的注意力机制来为不同实体获取重要的情感信息。最终在构建的金融领域实体级语料库上进行实验,取得了比对比模型更好的效果。  相似文献   

18.
基于语义分析的词汇倾向识别研究   总被引:2,自引:0,他引:2  
随着互联网的安全发展和人们对信息需求的日益增强,文本倾向识别方向的研究在许多领域有着广阔的发展前景.作为文本语义倾向识别的研究基础,本文侧重于词汇的语义倾向性判别,利用《知网》中对汉语词汇的定义和描述,建立由褒贬倾向较强烈的词汇组成的种子集,并结合上下文环境因素的影响,采用一种度量方法获取种子词与普通词之间的语义倾向相似度,识别普通词的褒贬倾向.实验表明,本文方法对常用词的倾向识别效果较好,可为更大粒度的文本倾向识别打好基础,具有一定的实用价值.  相似文献   

19.
为更具体表义社会新词的情感含义及其倾向性,该文提出了一种基于词向量的新词情感倾向性分析方法.在信息时代不断发展变化中,由于语言应用场景不断发展变化以及扩展语义表达的丰富性,网络上不断出现很多表达情感的新词,但是这些新词的表达虽有丰富的含义但缺乏准确的定义,因此对其情感倾向性分析具有一定困难.该文在分析了新词发现方法和词向量训练工具Word2Vec的基础上,研究了基于Word2Vec的情感词新词倾向性分析方法的可行性和架构设计,并面向微博语料进行实验,结果显示新词可以从与其相近的词中分析其情感倾向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号