首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 343 毫秒
1.
微博情感研究已成为网络文本分析的重要研究领域,微博情感词典是进行微博情感分类的基础。提出一种在分析海量微博语料情感的过程中,自动构建情感词典的方法。方法自动从语料中获取情感词汇、筛选确定情感新词,使用SO-MB 算法计算新情感词的情感极性及强度,构建微博情感词典,结合规则对中文微博进行无监督情感分类。实验证明提出的微博情感词典的构建方法及微博情感分类方法是有效的。  相似文献   

2.
极性情感词是准确分析维吾尔文倾向性的基础资源。该文在前期构建的维吾尔语褒贬情感词典基础上进行网络情感词的自动扩展研究。首先分析维吾尔语情感表达的语言特征,总结了连词、程度副词与情感词的搭配规律,并基于此规律设计从情感语料库中获取候选情感词的算法,形成候选情感词库;最后再利用维吾尔语连词的特性,结合已创建的情感词典和维吾尔语反义词词典,以互联网作为超大规模语料库,设计基于搜索引擎的情感词极性判别算法,根据算法得分判别候选情感词的极性,再将其扩展到已构建的褒贬情感词库。实验结果表明,与扩展前的情感词库相比,使用互联网文本语料扩展后的情感词库后进行维吾尔语句子倾向性测评的准确率和召回率均有明显提高。  相似文献   

3.
微博是互联网舆论演化的重要平台,对微博进行情感分析,有助于及时掌握社会热点和舆论动态。由于微博数据内容简短、特征稀疏、富含新词等特征,微博情感分类依然是一个较难的任务。传统的文本情感分类方法主要基于情感词典或者机器学习等,但这些方法存在数据稀疏的问题,而且忽略了词的语义、语序等信息。为了解决上述问题,提出一种基于卷积神经网络的中文微博情感分类模型CNNSC,实验表明相比目前的主流方法,CNNSC的准确率提高了3.4%。  相似文献   

4.
该文从统计学方法与机器学习的分类思想出发,对中文微博文本的情感类别进行研究。针对微博文本的特点,提出了一种级联式微博情感分类器模型,该模型首先构建基于情感词典和新浪表情符号词典的微博情感初级分类模型;然后根据基准词构建基于类别倾向相似度的二级分类模型,对初级模型未能确定情感类别的微博进行再次分类,并对初级模型的词典进行更新;最后采用朴素贝叶斯分类器构建三级分类模型,对以上还未确定情感类别的微博进行三级分类。通过与NLPCC2014微博情感分类评测参赛结果进行比较,说明了所提方法的有效性。  相似文献   

5.
微博中携带着的情感对社会发展的影响越来越重要,通过对微博文本的情感分析,可以对网络舆情做出正确判断和及时决策。基于SO-PMI算法对现有情感词典进行扩充,并构建了程度副词、否定词、双重否定词、表情符号词典。首先爬取特定话题的微博文本,进行预处理和分词,然后基于构建的词典计算文本的情感值,并使用可视化方法展示网民的情感状况和关键词。  相似文献   

6.
首先分析微博文本新词出现规律,通过程度词发现微博新词,然后通过拓展的PMI算法,计算新词与情感基准词之间的点互信息值,根据点互信息值将新词分为褒贬2类后加入微博领域词典。接着构建基础情感词典,考虑到微博文本的独特性和汉语言特点,构建微博表情词典、否定词典、程度词词典、连词词典。最后结合情感词典与语义规则,通过与微博表情进行情感值加权的方式来对中文微博进行情感分析。通过对抓取的微博数据集进行测试,验证了本文提出的分析策略的有效性。  相似文献   

7.
为提高微博情感分类识别的正确率,以网络微博数据作为研究对象,提出一种基于图的情感基准词选择方法。结合知网相似度知识,构建图模型,以图中节点中介性的值为依据,选择出高质量和高覆盖率的情感基准词。根据得到的基准词构建情感分析中所需的情感词典,并给出情感词极性。同时将情感词应用于挖掘短句情感特征,加入到传统支持向量机(SVM)模型中,对微博句子挖掘更多的语义信息从而获取更合理的语义合成函数,捕捉句子情感变化以更好地把握微博整句情感。采用具有特征约束特性的条件随机场(CRF)模型对短句进行分类。实验结果验证了CRF模型短句分类的有效性,与多种特征的SVM分类方法相比,在不同数据集上具有更好的分类效果。  相似文献   

8.
中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情感分类模型;通过Spark集群对深度置信神经网络进行并行化处理。实验结果表明,基于深度置信网络的微博情感分类模型在Spark平台下并行化,训练时间大幅缩短,情感分类的准确率比传统的浅层学习方法高5%。  相似文献   

9.
基于词典和规则集的中文微博情感分析   总被引:2,自引:0,他引:2  
通过对微博文本的特性分析,提取了中文微博情感分析的关键问题:如何识别微博新词并理解其情感含义?如何利用附加信息辅助文本情感分析?如何结合语言特性构造情感计算方法?针对第一个问题,利用统计信息和点间互信息对新词进行挖掘和情感识别,在40万条新浪微博数据中构建了新情感词词典,用于对已有情感词资源的扩充。对于后两个问题,提出了基于词典和规则集的中文微博情感分析方法。根据微博特性,在不同的语言层次上定义了规则,结合情感词典对微博文本进行了从词语到句子的多粒度情感计算,并以表情符号作为情感计算的辅助元素。通过对采集到的原创微博数据集进行实验,验证了该方法的有效性。  相似文献   

10.
通过对文本情感分类的研究,考虑微博文本信息的篇幅短小、情感符号丰富及大量网络词汇的特点,提出一种适用于中文微博情感分类的基于Map/Reduce的分布式朴素贝叶斯算法。算法通过构建适用于微博文本的情感词典来完成情感特征属性的提取,以期达到较为理想的分类效果。实验结果表明,这种方法能够很好地适用于微博情感分类,达到较理想的分类效果,满足针对海量的微博文本数据处理的可行性与高效性的需求。  相似文献   

11.
传统的微博情感分析往往忽略不带感情色彩的情感词对微博情感的影响,并缺乏对复杂句式的分析。为此,提出结合条件随机场(conditional random filed,CRF)和复杂句式的跨粒度情感分析方法。该方法在CRF模型的基础上,融合复杂句式特征和语义依存特征,对学生微博进行细粒度情感分析,识别出微博文本中的情感要素,在此基础上,通过基于复杂句式的粗粒度情感分析方法分析微博文本的情感倾向,实现对学生总体情感倾向的跨粒度分析。实验结果显示,跨粒度情感分析方法的提出,使得情感要素识别的综合准确率达88%左右,微博情感分析的综合准确率达87%左右。比起传统的情感分析方法,准确率更高,分类效果更好。  相似文献   

12.
针对互联网出现的评论文本情感分析,引入潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一种分类方法。该分类方法结合情感词典,依据指定的情感单元搭配模式,提取情感信息,包括情感词和上、下文。使用主题模型发掘情感信息中的关键特征,并融入到情感向量空间中。最后利用机器学习分类算法,实现中文评论文本的情感分类。实验结果表明,提出的方法有效降低了特征向量的维度,并且在文本情感分类上有很好的效果。  相似文献   

13.
针对现有情感特征在语义表达和领域拓展等方面的不足,提出了一种基于语义相似度的情感特征向量提取方法。利用25万篇sogou新闻语料和50万条微博语料,训练得到Word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感近义词和反义词相似度分析、情感词极性分类和文本情感分析任务中,实验结果表明Senti2vec能实现情感词的语义表示和情感表示。基于大规模语料的语义相似计算,使得提取的情感特征更具有领域拓展性。  相似文献   

14.
庞磊  李寿山  张慧  周国栋 《计算机科学》2012,39(105):249-252
近年来,微博越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物“好”或“坏”)的微博,这些微博反映了作者的情绪。投资者情绪(investor sentiment)是研究经济市场走向的重要指标,行为金融学认为股票投资者情绪影响投资者决策,进而影响股票市场,而反映股票投资者情绪的重要指标是投资者对股票市场未来行情的情感倾向(认为股票市场未来行情“好”或“坏”)。通过对新浪微博(目前最大的中文微博平台)上股票投资者发布的文本进行情感信息方面的分析与研究,提出了一种自动识别股票投资者未来情感倾向的方法。该方法分为两级识别,第一级是:识别出微博中包含未来情感的句子;第二级是:将第一级识别出来的包含未来情感的句子分为正面评论(看涨)和负面评论(看跌)。实验结果表明,所提方法对自动识别股票投资者的未来情感倾向达到了非常好的效果。  相似文献   

15.
黄熠  王娟 《计算机科学》2017,44(Z6):446-450
中文文本的情感倾向分析是网络舆情信息挖掘和分析的关键技术之一。提出了一种粒子群-高斯过程算法(PSO-GP)的中文文本情感倾向分类方法,采用粒子群优化算法(Particle Swarm optimization,PSO)进行高斯过程(Gaussian Process)超参数的最优搜索,解决了传统高斯过程中共轭梯度法迭代次数难确定、对初值依赖性强和易陷入局部极小值等问题。首先采用多线程网络爬虫技术采集文本数据组成语料库,构建特定领域情感词典,然后通过情感词匹配选择最有效的特征,降低数据维度,并利用TF-IDF算法计算特征词的权重以生成特征向量。最终,将测试样本输入PSO-GP分类模型。实验结果表明,与传统GP方法相比,提出的改进高斯过程分类模型的分类准确率提高了近15%。  相似文献   

16.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

17.
微博情感倾向性分析旨在发现用户对热点事件的观点态度。由于微博噪声大、新词多、缩写频繁、有自己的固定搭配、上下文信息有限等原因,微博情感倾向性分析是一项有挑战性的工作。该文主要探讨利用卷积神经网络进行微博情感倾向性分析的可行性,分别将字级别词向量和词级别词向量作为原始特征,采用卷积神经网络来发现任务中的特征,在COAE2014任务4的语料上进行了实验。实验结果表明,利用字级别词向量及词级别词向量的卷积神经网络分别取得了95.42%的准确率和94.65%的准确率。由此可见对于中文微博语料而言,利用卷积神经网络进行微博情感倾向性分析是有效的,且使用字级别的词向量作为原始特征会好于使用词级别的词向量作为原始特征。  相似文献   

18.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号