首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
中文博客主题情感句自动抽取研究   总被引:2,自引:0,他引:2  
博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客信息的情感分析也逐渐成为了信息挖掘领域的热点。目前,在研究情感分析时,多是通过计算词汇的倾向性来完成的。由于并不是所有的带有情感色彩的词汇都是主题相关的,因此,以词为粒度的情感分析存在一定的缺陷。为了解决这一问题,试图从句子层面进行分析,主要研究了与之相关的主题情感句的自动提取问题。为了有效地提取主题相关情感句,设计了一个新颖的基于二元切分的提取算法来获取主题词,然后利用TFIDF算法获取更多的次要主题词,并利用这些主题词重组了那些包含主题词的原始句。因此,如果主题情感句存在的话,那么它一定在这些重组的主题句集合中,只要对该重组句集合进行分析、提取,便能得到主题情感句。最后,利用CRFs将主题句提取问题有效转化为了中文chunking问题,并在抽取实验中取得了很好的结果。  相似文献   

2.
近年来,随着互联网在中国的普及,网络上大量出现带有主观性的文本,如用户在博客、微博、等社交网络发表的评论,这些评论信息包含大量情感信息和主观观点.有效挖掘此类文本的信息对于电子商务、信息预测,舆情监控有着重要实用价值.当前,情感分析已经成为自然语言处理学术界的研究热点.  相似文献   

3.
作为仅次于及时通信和搜索引擎的中国互联网网民第三大应用,网络音乐及其应用技术受到业界学者的青睐。音乐作为人类最重要的交流媒介,携带着丰富的情感信息,计算机音乐情感分析更是得到人机情感交互技术领域的高度重视。在基于歌词文本的音乐情感分析过程中,一部合理的音乐领域情感词典,将提供更加细致、更加准确的分析结果。以改进后的Hevner情感环模型为基础,借助HowNet所提供的语义资源和从网络爬取的歌词文本语料库,构建了一部树形层次结构的音乐领域中文情感词典,并利用LRC歌词携带的时间标签获取歌曲的语速信息,实现了基于情感向量空间模型和情感词典的歌词情感分类。实验表明与人工构建的情感词典相比,所构建的情感词典更适用于音乐领域。  相似文献   

4.
近年来的方面级情感分析模型应用图卷积神经网络(GCN)学习语句的语法结构信息,但是在建模时忽略了已知情感词信息和评论所属的已知话题环境,渐渐不能满足中文社交网络情感分析需求。针对以上问题,提出一种基于词典和深度学习软融合的字词双通道模型(2D-SGCN)。该模型首先基于基础情感词典扩展得到微博领域词典,获得领域适用性的情感词;其次使用预训练模型获得字、词初始特征向量,并在字维度融入方面词和话题信息,分别使用Bi-LSTM和融入情感信息的GCN(SGCN)学习全局与局部信息;应用注意力机制得到方面词最终特征并进行多维度融合;最后将话题和方面词结合进行分类纠正。在SemEval-2014的Restaurant数据集上F▼1为73.67%,在NLPCC2012数据集上F▼1为91.5%,证明了该模型的有效性。  相似文献   

5.
微博情感分析是对微博文本情感极性的判断并实现微博消息分类,可以对网络舆情进行及时有效的决策。做好微博情感分析的关键点是在原有的基础上更加准确地分析出每条微博文本的情感极性,因此以此为目标对微博进行情感分析。对情感词典进行改进与扩充,主要包括构造程度副词、否定词词典、微博领域词典等相关词典。同时将文本之间的语义规则集考虑到情感分析中,主要涵盖了句间分析规则和句型分析规则。多部情感词典和规则集相结合的方式实现了对微博的情感分析。实验结果证明了该方法对微博情感分析有一定的作用。  相似文献   

6.
随着互联网的迅猛发展,对网络文本带有观点性内容的主观性信息的自动情感分析成为了近期Web信息处理的一个新兴研究热点.文中对英文博客文本的情感分析进行了研究.提出了以词为单位进行特征的选取,并在文本的情感分析中加入了预处理过程.使用机器学习的方法,采用电影评审文本作为语料库,选取在英文文本分类领域较好的支持向量机作为训练器,特征的选取分别采用信息增益、互信息和x2统计的方法.实验结果表明,该方法获得了较满意的结果,与传统的基于N-Gram特征选取方法及基于无监督学习的方法相比,该方法较之都有所提高.  相似文献   

7.
针对领域情感词典的局限性,提出一种中文领域情感词典自适应学习方法.从中文基础情感词典中选取少量种子词,采用基于CBOW模型和基于句法规则两种抽取方法,对领域语料库进行候选情感词的抽取,通过改进的SO PMI算法对得到的候选情感词进行情感极性判定,形成领域正负情感词典.实验结果表明,该方法能够自适应生成领域情感词典,情感...  相似文献   

8.
李勇敢  周学广  孙艳  张焕国 《软件学报》2017,28(12):3183-3205
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,我们研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取的召回率较低问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为2类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括2个部分,一是参加NLPCC2012的公开评测,本文方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了本文算法的实用性.二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出本文的结论.  相似文献   

9.
任远  巢文涵  周庆  李舟军 《计算机科学》2013,40(11):231-235,270
近年来,随着社会网络的迅速兴起,面向社会网络的情感分析技术逐渐成为数据挖掘领域新的研究热点。中文微博以其语言简短、文法灵活的特点,给情感分析的研究工作带来了新的挑战。对数据预处理、情感词典构造、话题元素引入等中文微博情感分析技术进行了系统的研究,提出了给情感词分级的方法以提升情感分析的准确度;同时提出了面向话题的自适应方法以更准确地识别情感词;最后实验结果验证了以上方法的有效性。  相似文献   

10.
首先分析微博文本新词出现规律,通过程度词发现微博新词,然后通过拓展的PMI算法,计算新词与情感基准词之间的点互信息值,根据点互信息值将新词分为褒贬2类后加入微博领域词典。接着构建基础情感词典,考虑到微博文本的独特性和汉语言特点,构建微博表情词典、否定词典、程度词词典、连词词典。最后结合情感词典与语义规则,通过与微博表情进行情感值加权的方式来对中文微博进行情感分析。通过对抓取的微博数据集进行测试,验证了本文提出的分析策略的有效性。  相似文献   

11.
随着Web 2.0时代的兴起,微博作为一个新的信息分享平台已经成为人们生活中一个重要的信息来源和传播渠道。近年来针对微博的情感分类问题研究也越来越多地引起人们的关注。该文深入分析了传统的情感文本分类和微博情感分类在特征表示和特征筛选上存在的差异,针对目前微博情感分类在特征选择和使用上存在的缺陷,提出了三种简单但十分有效的特征选取和加入方法,包括词汇化主题特征、情感词内容特征和概率化的情感词倾向性特征。实验结果表明,通过使用该文提出的特征选择和特征加入方法,微博情感分类准确率由传统方法的73.17%提高到了84.17%,显著改善了微博情感分析的性能。  相似文献   

12.
基于层次结构的多策略中文微博情感分析和特征抽取   总被引:6,自引:0,他引:6  
随着Web2.0时代的兴起,与微博相关的研究得到了学术界和工业界的广泛关注。该文使用新浪API获取数据,针对中文微博消息展开了情感分析方面的研究。我们对于三种情感分析的方法进行了深入研究,包括表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法,实验表明基于SVM的层次结构多策略方法效果最好。其次,针对层次结构的多策略方法的特征选择进行了详细分析,包括主题无关、主题相关的特征。实验表明使用主题无关的特征时获得的准确率为66.467%。引入主题相关的特征后,准确率提升至67.283%。  相似文献   

13.
博客作为一种用户发表其观点和看法的载体已成为Web上一个重要的情感抒发与交流平台,博文搜索为这种交流提供了方便快捷的途径.很多时候,用户进行博文搜索时更关注作者对事件所持的观点或情感,但目前的博文搜索返回结果大多基于主题而非情感倾向.基于此提出一种基于句法依存分析技术的算法SOAD(sentiment orientation analysis based on syntactic dependency)对博文搜索结果进行情感倾向性分析.基于SOAD算法,构建了一个中文博文搜索原型系统,对博文搜索结果进行再处理.实验证明,一方面,SOAD算法在分析博文情感上具有更大的优势;另一方面,建立的原型系统实现了依据情感倾向返回搜索结果的目标.  相似文献   

14.
协同过滤推荐算法通常基于物品或用户的相似度来实现个性化推荐,但是数据的稀疏性往往导致推荐精度不理想。大多数传统推荐算法仅考虑用户对物品的总体评分,而忽略了评论文本中用户对物品各个属性面的偏好。该文提出一种基于情感分析的推荐算法SACF(reviews sentiment analysis for collaborative filtering),该算法在经典的协同过滤推荐算法的基础上,考虑评论文本对相似度计算的影响。SACF算法利用LDA主题模型挖掘物品潜在的K个属性面,通过用户在各个属性面上的情感偏好计算用户相似度,从而构建推荐模型。基于京东网上评论数据集的实验结果表明,SACF算法不但可以有效地改善传统协同过滤推荐算法中数据稀疏性的问题,而且提高了推荐系统的精度。  相似文献   

15.
主题情感混合模型可以同时提取语料的主题信息和情感倾向。针对短文本特征稀疏的问题,主题情感联合分析方法较少的问题,该文提出了BJSTM模型(Biterm Joint Sentiment Topic Model),在BTM模型(Biterm Topic Model)的基础上,增加情感层的设置,从而形成“情感-主题-词汇”的三层贝叶斯模型。对每个双词的情感和主题进行采样,从而对整个语料的词共现关系建模,一定程度上克服了短文本的稀疏性。实验表明,BJSTM模型在无监督情感分类和主题提取方面都有不错的表现。  相似文献   

16.
近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。  相似文献   

17.
情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法(Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典建立上具有良好的可移植性,同时还具有专业性、领域性的特点。  相似文献   

18.
动态情感知识的获取,特别是领域相关极性词典的构建一直是意见挖掘和情感分析系统在开放应用时面临的主要挑战之一。该文面向产品评价文本提出一种汉语情感极性词典扩展方法。该方法首先采用序列标注方法从意见文本中抽取产品意见要素,同时构建属性-评价对;然后,对抽取的属性-评价对进行正规化,以减少词典扩展中的复杂性和噪声;最后,改进PolarityRank算法的构图方式以使其适用于汉语文本,从而完成词典扩展。在汽车和手机两个领域的意见文本的实验结果表明领域相关的情感极性词语的扩展有利于情感极性分类性能的提高。
  相似文献   

19.
以微博为代表的社会媒体的飞速发展为情感分析方向带来巨大的资源,同时也对情感分析算法的性能提出了更大的挑战。其中,现有的情感词典尤其是中文情感词典规模不足是影响情感分析性能的一个重要因素。为此,该文基于海量的微博数据,使用简单的文本统计算法,构建了一个十万词语/词组的大规模情感词典。我们以情感分析的基础任务——情感分类为例,将大规模情感词典作为特征用于该任务上,实验结果表明大规模词典有助于情感分类性能的提高。  相似文献   

20.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号