首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
文本情感摘要任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要,用以帮助用户更好地阅读、理解情感文本的内容。该文主要研究多文档的文本情感摘要问题,重点针对网络上存在的同一个产品的多个评论进行摘要抽取。在情感文本中,情感相关性是一个重要的特点,该文将充分考虑情感信息对文本情感摘要的重要影响。同时,对于评论语料,质量高的评论或者说可信度高的评论可以帮助用户更好的了解评论中所评价的对象。因此,该文将充分考虑评论质量对文本情感摘要的影响。并且为了进行关于文本情感摘要的研究,该文收集并标注了一个基于产品评论的英文多文档文本情感摘要语料库。实验证明,情感信息和评论质量能够帮助多文档文本情感摘要,提高摘要效果。  相似文献   

2.
产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性“三要素”,影响自动分析的应用场景。对此,该文构建了细颗粒度评论语料库,共包含9 343句汽车评论短文本,不仅人工标注了“三要素”的具体词语,而且将其对应到产品和属性的知识本体树上。此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签。语料统计表明,对象和属性要素的共现率高达77.54%,验证了构建“三要素”齐全标注体系的必要性;基于该语料库的“三要素”自动标注实验F1值可达70.82%,验证了细颗粒度标注体系的可计算性以及语料库构建的规范性和应用价值。该语料库可以为细颗粒度情感分析研究提供基础数据。  相似文献   

3.
文本情感摘要任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要。该文主要研究基于多文档的文本情感摘要问题, 重点针对网络上存在同一个产品的多个评论产生相应的摘要。首先,为了进行关于文本情感摘要的研究,该文收集并标注了一个基于产品评论的中文多文档文本情感摘要语料库。其次,该文提出了一种基于情感信息的PageRank算法框架用于实现多文档文本情感摘要,该算法同时考虑了情感和主题相关两方面的信息。实验结果表明,该文采用的方法和已有的方法相比在ROUGE值上有显著提高。  相似文献   

4.
针对在金融领域实体级情感分析任务中缺乏足够的标注语料,以及通用的情感分析模型难以有效处理金融文本等问题,该文构建一个百万级别的金融领域实体情感分析语料库,并标注5 000余个金融领域情感词作为金融领域情感词典。同时,基于该金融领域数据集,提出一种结合金融领域情感词典和注意力机制的金融文本细粒度情感分析模型(FinLexNet)。该模型使用两个LSTM网络分别提取词级别的语义信息和基于情感词典分类后的词类级别信息,能有效获取金融领域词语的特征信息。此外,为了让文本中金融领域情感词获得更多关注,提出一种基于金融领域情感词典的注意力机制来为不同实体获取重要的情感信息。最终在构建的金融领域实体级语料库上进行实验,取得了比对比模型更好的效果。  相似文献   

5.
针对维吾尔文情感语料库标注体系不规范、语料库规模小、没有合适的标注平台等问题,分析英文和中文比较著名情感语料库的优点,结合维吾尔语文本的特点,建立维吾尔文情感语料标注规范,利用Python语言构建集数据采集与标注为一体的情感标注平台,最后构建在舆情分析和舆情监控中可以应用的维吾尔文情感语料库。实验结果表明,该标注规范具有可扩展性和实用性,标注平台可以有效地减轻标注人员的工作量,提高情感语料库的质量,情感语料库可以用于舆情分析任务。   相似文献   

6.
情感分类任务旨在识别文本所表达的情感色彩信息(例如,褒或者贬,支持或者反对)。该文提出一种基于情绪词的中文情感分类方法,使用大规模未标记数据和少量情绪词实现情感分类。具体来讲,首先使用情绪词从未标注数据中抽取高正确率的自动标注数据作为训练样本,然后采用半监督学习方法训练分类器进行情感分类。实验表明,该文提出的方法在产品评论与酒店评论两个领域的情感分类任务中取得了较好地分类效果。  相似文献   

7.
模糊限制语用于表示不确定性的观点。由模糊限制语所引导的信息为模糊限制信息,开展中文模糊限制信息检测研究,对事实信息抽取意义重大。模糊限制信息检测包含模糊限制性句子识别和模糊限制信息范围检测两个子任务。中文模糊限制信息范围语料库的缺乏,影响了中文模糊限制信息检测的研究。该文研究制定了基于短语结构的中文模糊限制信息范围标注规则,构建了中文模糊限制信息范围语料库。最后对标注的语料库进行了统计和分析。该文语料库的构建为中文模糊限制信息检测研究提供了资源支持。  相似文献   

8.
评价对象抽取是自然语言处理中情感分析研究领域的一项重要任务.本文研究基于LDA进行中文评价对象的抽取问题.利用中文倾向性评测中任务3的Digital语料进行相关实验.首先对语料进行分词,词性标注以及去除干扰内容等预操作,然后利用LDA主题模型进行处理,最后对抽取的评价对象进行分析.数据结果表明,将LDA方法运用到评价对象抽取问题具有一定的研究和实用价值.  相似文献   

9.
雷蕾  王晓丹  周进登 《计算机科学》2012,39(12):245-248
情感分类任务旨在自动识别文本所表达的情感色彩信息(例如,褒或者贬、支持或者反对)。提出一种基于情 绪词与情感词协作学习的情感分类方法:在基于传统情感词资源的基础上,引入少量情绪词辅助学习,只利用大规模 未标注数据实现情感分类。具体来讲,基于文档一单词二部图的标签传播算法框架,利用情绪词与情感词构建两个视 图,通过协作学习的方法从大规模未标注语料中抽取高正确率的自动标注样本作为训练数据,然后训练分类器进行情 感分类。实验表明,该方法在多个领域的情感分类任务中都取得了较好的分类效果。  相似文献   

10.
跨文本指代(CrossDocumentCoreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用“多名困惑度”和“重名困惑度”两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。  相似文献   

11.
文本情感分析是目前自然语言处理领域的一个热点研究问题,具有广泛的实用价值和理论研究意义。情感词典构建则是文本情感分析的一项基础任务,即将词语按照情感倾向分为褒义、中性或者贬义。然而,中文情感词典构建存在两个主要问题 1)许多情感词存在多义、歧义的现象,即一个词语在不同语境中它的语义倾向也不尽相同,这给词语的情感计算带来困难;2)由国内外相关研究现状可知,中文情感字典建设的可用资源相对较少。考虑到英文情感分析研究中存在大量语料和词典,该文借助机器翻译系统,结合双语言资源的约束信息,利用标签传播算法(LP)计算词语的情感信息。在四个领域的实验结果显示我们的方法能获得一个分类精度高、覆盖领域语境的中文情感词典。  相似文献   

12.
This study addresses the problem of Chinese microblog opinion retrieval, which aims to retrieve opinionated Chinese microblog posts relevant to a target specified by a user query. Existing studies have shown that lexicon-based approaches employed online public sentiment resources to rank sentimentwords relying on the document features. However, this approach could not be effectively applied to microblogs that have typical user-generated content with valuable contextual information: “user–user” interpersonal interactions and “user–post/comment” intrapersonal interactions. This contextual information is very helpful in estimating the strength of sentiment words more accurately. In this study, we integrate the social contextual relationships among users, posts/comments, and sentiment words into a mutual reinforcement model and propose a unified three-layer heterogeneous graph, on which a random walk sentiment word weighting algorithm is presented to measure the strength of opinion of the sentiment words. Furthermore, the weights of sentiment words are incorporated into a lexicon-based model for Chinese microblog opinion retrieval. Comparative experiments are conducted on a Chinese microblog corpus, and the results show that our proposed mutual reinforcement model achieves significant improvement over previous methods.  相似文献   

13.
为利用情感文本不同侧面的信息,提出一种基于状态和行为描述的情感分类方法。将情感文本的描述分为情感的状态和行为2个视图,并利用2个视图的融合进行情感分类。为自动获得2个视图,人工标注了相应的语料,通过二元分类器构建状态和行为检测系统。在此基础上采用组合分类器方法融合2个不同的视图。实验结果证明,该方法在3个领域中文情感分类任务上的分类效果均有所提高。  相似文献   

14.
Social media, especially Twitter is now one of the most popular platforms where people can freely express their opinion. However, it is difficult to extract important summary information from many millions of tweets sent every hour. In this work we propose a new concept, sentimental causal rules, and techniques for extracting sentimental causal rules from textual data sources such as Twitter which combine sentiment analysis and causal rule discovery. Sentiment analysis refers to the task of extracting public sentiment from textual data. The value in sentiment analysis lies in its ability to reflect popularly voiced perceptions that are stated in natural language. Causal rules on the other hand indicate associations between different concepts in a context where one (or several concepts) cause(s) the other(s). We believe that sentimental causal rules are an effective summarization mechanism that combine causal relations among different aspects extracted from textual data as well as the sentiment embedded in these causal relationships. In order to show the effectiveness of sentimental causal rules, we have conducted experiments on Twitter data collected on the Kurdish political issue in Turkey which has been an ongoing heated public debate for many years. Our experiments on Twitter data show that sentimental causal rule discovery is an effective method to summarize information about important aspects of an issue in Twitter which may further be used by politicians for better policy making.  相似文献   

15.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

16.
An empirical study of sentiment analysis for chinese documents   总被引:1,自引:0,他引:1  
Up to now, there are very few researches conducted on sentiment classification for Chinese documents. In order to remedy this deficiency, this paper presents an empirical study of sentiment categorization on Chinese documents. Four feature selection methods (MI, IG, CHI and DF) and five learning methods (centroid classifier, K-nearest neighbor, winnow classifier, Naïve Bayes and SVM) are investigated on a Chinese sentiment corpus with a size of 1021 documents. The experimental results indicate that IG performs the best for sentimental terms selection and SVM exhibits the best performance for sentiment classification. Furthermore, we found that sentiment classifiers are severely dependent on domains or topics.  相似文献   

17.
方面级情感分析主要有两大类任务:a)抽取任务,旨在抽取出语句中的方面词及观点词;b)分类任务,旨在分析情感极性。在这两种复合任务的基础上,针对目前方面词与观点词耦合性较差,导致分类任务出错这一问题,提出了融合位置信息的观点三元组情感分析模型OTPM。该模型利用双向长短时记忆网络获得文本表示,接着利用自注意力机制来增强方面词与情感词之间的关联性,之后在多任务框架中进行观点三元组的抽取,同时将抽取出的表示与位置信息进行加权融合,最后利用biaffine评分器分析加权后的方面词与观点词之间的情感依赖关系,并利用stop-on-non-I算法对三元组进行解码输出三元组。在Lap14、Rest14、Rest15、Rest16四个数据集上进行大量实验,结果表明所提模型优于一系列基线模型。  相似文献   

18.
情感分类任务具有领域相关性,即使用某一个领域的标注样本训练出的分类模型在对其他领域样本进行分类时性能表现往往会非常差。情感分类的跨领域学习旨在减少跨领域的性能损失。提出一种基于评价对象类别的跨领域学习方法。首先,将评价对象分为4大类:整体、硬件、软件和服务;然后,人工标注源领域中属于以上4类评价对象的句子,并构建评价对象类别分类器;最后,将不同的评价对象类别当作不同的视图,进而使用协同学习(Co-trai-ning)进行跨领域情感分类。实验结果表明,提出的方法有效地改进了跨领域学习性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号