首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于表情图片与情感词的中文微博情感分析   总被引:1,自引:0,他引:1  
微博是Web 2.0时代新生的社会化媒体平台,网民通过微博抒发自己的情感,表达自己的喜怒哀乐与爱恶,从而产生了海量的情感文本信息.通过对情感信息的分析,可以得到网民的情绪状况、对某个社会现象的观点、某个产品的喜好等信息,其不仅有一定的商业价值,还对社会的稳定有所帮助.利用微博中的表情图片,并结合情感词语的方法来构建中文微博情感语料库,既保证了语料库的规模与准确性,又省去了人工的负担;在情感语料库的基础上,构建贝叶斯分类器;最后利用熵的概念对语料库进行优化,提高了分类的准确性,并比较了使用不同n-gram特征项的性能.最终发现,使用UniGram特征项并用熵进行优化之后,分类的效果最好,召回率和准确率都可以达到85%以上,F值甚至可以达到89%以上.  相似文献   

2.
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。  相似文献   

3.
为了更好地对微博进行表示,提高微博情感倾向性识别的准确度,提出一种基于Skip-gram模型的微博情感倾向性分析方法。首先,使用Skip-gram模型在中文数据上进行训练得到词向量;然后,利用词向量在词语表示上的优势,以及一定程度上满足加法组合运算的特性,通过向量相加获得微博的向量表示以及正负情感向量;最后,通过计算微博向量和正负情感向量的相似度判断微博的情感倾向。在NLP&CC2012数据上进行实验,结果表明,该方法能够有效识别微博的情感倾向,较传统的JST(Joint Sentiment/Topic model)和ASUM(Aspect and Sentiment Unication Model)平均F1值分别提高了23%和26%。  相似文献   

4.
词语语义知识库对于扩大自然语言理解的深度具有重要的意义。目前较为成熟的WordNet、HowNet、同义词词林等均为人工开发,对知识的描述较为准确,但开发的工作量巨大,实际应用存在很多困难。为了更加自动化、实证性地获取中文词语相互关联状况的知识,该文提出词语相关度的概念以及基于统计的词语相关度计算方法,并以此为基础构建一个基于强领域特性中文词语的词语相关度网络,设计数组分割的硬盘存储方法,使该任务涉及到的海量数据的分析处理可以在目前的个人PC上完成。最终获得的词语语义知识具备经验主义方法的优点,准确性、泛化性较强,可以在文本分类、检索、过滤等领域发挥重要作用。  相似文献   

5.
准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。  相似文献   

6.
提出了词语相关度模型,作为在数据空间中发现数据源内容关联的一个基础。本模型基于HowNet,可以计算同种词性以及不同词性之间的相关度,融合了词语的相似度、关联度和实例因素,综合获得词语的内在相关性。通过对比实验发现,本模型所计算的词语相关度值更加符合人们主观上对词语相关性的认识。  相似文献   

7.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

8.
如今网页排名算法很多,基本上可以分为两类:基于超链接和基于内容。比较成熟的算法主要有PageRank、HITS、LSI等。本文基于向量空间模型以及信息论,提出一个与文章内容相关的语义相关度算法模型。该模型将文章语义抽象为词频表,并通过机器学习构建词语之间的关联度表,以此词关联度为基础,计算文章之间的相关度。实验结果表明,文中提出的相关度算法可以有效的根据文章之间语义相关度大小来进行排名。  相似文献   

9.
10.
情感倾向明显的表情符,容易通过人工进行标注。但是对于情感倾向不明显的表情符,多人手工的标注结果往往难以达成一致。因此,提出一种利用种子词自动判定表情符情感倾向的方法。该方法利用少量种子表情符自动标注情感倾向比较明显的表情符,生成表情符标注 集;对于情感倾向不明显的表情符,利用种子情感词和已得到的表情符标注集构建模型,实现其情感倾向的自动判定。实验结果表明,本文方法在微博表情符情感倾向的自动判 定上有很好的效果。  相似文献   

11.
当前对新词发现、情感词极性标注与情感词库构建的研究比较多,却少有一个专门针对新情感词识别的方法.提出一种基于OC-SVM的新情感词识别方法,通过种子词扩展方法获得词语集,并用旧词典、词频和停用词等对扩展的词进行过滤,获取新词,对新词获取的实验评估显示在适当的F值下,正确率可以达到45.5%.由于情感词和非情感词训练集的不平衡性,采用词频、相邻词及其词性等作为特征用OC-SVM(one-class support vector machine)对新词进行分类,获得新情感词,构建一个有效的新情感词识别系统.实验结果在召回率为26.6%的情况下,正确率可以达到45.7%,证明了算法的有效性.  相似文献   

12.
基于汉语情感词表的句子情感倾向分类研究   总被引:4,自引:2,他引:4       下载免费PDF全文
提出了一种基于汉语情感词词表的加权线性组合的句子情感分类方法。该方法通过已有的五种资源构建了中文情感词词表,并采用加权线性组合的句子情感分类方法对句子进行情感类别判断。实验结果表明,直接利用词汇语言粒度的句子情感分类综合F值为78.62%,若加入了否定短语语言粒度后,句子情感分类的综合F值提高了4.14%。  相似文献   

13.
基于词共现图的中文微博新闻话题识别   总被引:2,自引:0,他引:2  
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.  相似文献   

14.
凌海彬  缪裕青 《计算机应用研究》2020,37(7):1935-1939,1951
现有的微博情感分析方法已经注意到了微博文本与图片之间的互补作用,但较少注意用户情感表达的差异和微博内容中除文字之外的特征,为此提出一种多特征融合的图文微博情感分析方法。首先构建文本情感分类模型,将对情感具有很好指示作用的内容特征和用户特征与微博句子进行融合, 然后构造了基于参数迁移和微调的图片情感分类模型。最后设计特征层和决策层融合的方法,将文本和图片情感分类模型进行融合。实验结果表明,内容特征和用户特征有效增强了模型捕捉情感语义的能力,并在多项性能指标上都取得了很好的效果, 构建的图文情感分类模型和融合方法可获得更好的性能。  相似文献   

15.
随着微博用户数量的快速增长,微博中所携带的一些情感和观点对社会的影响越来越大,尤其是一些涉及到公众人身安全的负面情绪,可能会影响到社会的稳定,因此进行微博情感分析意义重大。微博情感分析的内容包括微博语料的获取、微博语料的预处理和情感分析方法等,常用的情感分析方法有基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。随着注意力机制在NLP领域的广泛使用,很多研究者开始将注意力机制融合到深度学习模型中进行情感分析,这使得情感分析的准确率得到了很大的提升。谷歌提出的BERT模型本质上也是基于注意力机制实现的,BERT模型在情感分析领域取得了突破性的进展。  相似文献   

16.
基于机器学习的中文微博情感分类实证研究   总被引:3,自引:0,他引:3  
使用三种机器学习算法、三种特征选取算法以及三种特征项权重计算方法对微博进行了情感分类的实证研究。实验结果表明,针对不同的特征权重计算方法,支持向量机(SVM)和贝叶斯分类算法(Nave Bayes)各有优势,信息增益(IG)特征选取方法相比于其他的方法效果明显要好。综合考虑三种因素,采用SVM和IG,以及TF-IDF(Term Frequency-Inverse Document Frequency)作为特征项权重,三者结合对微博的情感分类效果最好。针对电影领域,比较了微博评论和普通评论之间分类模型的通用性,实验结果表明情感分类性能依赖于评论的风格。  相似文献   

17.
词语的情感信息对于情感分析任务至关重要,现有大多数基于词向量的无监督学习方法只能对词语的语法语境建模,但忽略了词语的情感信息。本文提出了一种结合监督学习和非监督学习的词向量学习方法:既能够获得词语的语义信息又能够获得情感内容。在相关实验中,论文对词向量分析做了直观地举例对比,并将该方法用于情感分类任务中,通过引入新的评论数据集对本文方法进行验证。实验结果表明,融合了语义与情感的词向量方法效果良好,能更为精确地对情感信息进行分类,更为客观地对用户信息进行评价,助力社交网络良性发展。  相似文献   

18.
针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题与情感的变化趋势,获得主题情感演化图,从而实现主题和情感的演化分析。真实微博数据集上的实验结果表明,与当前优秀代表算法JST(Joint Sentiment/Topic)、S-LDA(Sentiment-Latent Dirichlet Allocation)和DPLDA(Dependency Phrases-Latent Dirichlet Allocation)相比,该方法的情感分类准确率分别提高了3.01%、4.33%和8.75%,并且可以获得主题情感演化图。这表明该方法具有更高的情感分类准确率并且可以进行微博主题情感演化分析,为舆情分析等应用提供了较好的帮助。  相似文献   

19.
针对方面级情感分析存在的局部信息捕捉不充分、多个意见词混淆的问题,提出了一种基于词共现的方面级情感分析模型。该模型将方面级情感分析看成句子对任务,利用BERT获得包含上下文与方面词交互注意力的节点信息;同时,对每条数据样本构建独立的词共现图,使用门控图神经网络更新节点,加强方面词附近信息的融合,减少无关意见词的干扰;之后在自注意力层进一步融合全局信息,最终取出方面词节点送入非线性层获得分类结果。与6个基线模型的对比实验结果表明,该模型有效地提升了方面级情感分析的准确性。  相似文献   

20.
互联网上大量的主观评论性信息蕴含着巨大的商业价值,同时也促使了倾向性识别研究的兴起。句子倾向性识别是文本倾向性识别的基础,现有句子倾向性识别方法存在着识别效果不理想、模式抽取困难等问题。将情感词视为基因,在不同的语境下呈现出不同的性状,通过构建情感词语义倾向分析器,先确定情感词的静态显性,然后根据不同的语境确定情感词的动态显性,最后提出基于情感词语义加权的句子倾向性识别算法。实验结果显示,该方法提高了句子倾向性识别的判全率和判准率,是合理和有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号