首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
文本情感摘要任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要。该文主要研究基于多文档的文本情感摘要问题, 重点针对网络上存在同一个产品的多个评论产生相应的摘要。首先,为了进行关于文本情感摘要的研究,该文收集并标注了一个基于产品评论的中文多文档文本情感摘要语料库。其次,该文提出了一种基于情感信息的PageRank算法框架用于实现多文档文本情感摘要,该算法同时考虑了情感和主题相关两方面的信息。实验结果表明,该文采用的方法和已有的方法相比在ROUGE值上有显著提高。  相似文献   

2.
该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监督学习方法比无监督学习方法在ROUGE值上有显著的提高,情感特征和评论质量特征均有助于文本情感摘要。  相似文献   

3.
吴璠  王中卿  周夏冰  周国栋 《软件学报》2020,31(8):2492-2507
情感分析旨在判断文本的情感倾向,而评论质量检测旨在判断评论的质量.情感分析和评论质量检测是情感分析中两个关键的任务,这两个任务受多种因素的影响而密切相关,同一个产品的情感倾向具有相似的情感极性;同时,同一个用户发表的评论质量也具有一定的相似性.因此,为了更好地研究情感分类和评论质量检测任务的相关性以及用户信息和产品信息分别对情感分类和评论质量检测的影响,提出了一个情感分析和评论质量检测联合模型.首先,使用深度学习方法学习评论的文本信息作为联系两个任务的基础;然后,将用户评论及产品评论作为用户的表示和产品的表示;在此基础上,采用用户注意力机制对用户的表示进行编码,采用产品注意力机制对产品的表示进行编码;最后,将用户表示和产品表示结合起来进行情感分析和评论质量检测.通过在Yelp2013和Yelp2015数据集上的实验结果表明,该模型与现有的神经网络模型相比,能够有效地提高情感分析和在线评论质量检测的性能.  相似文献   

4.
近些年来,随着电商平台的飞速发展,越来越多的人会选择在网上购物并且对商品进行评价。对于较长篇幅的评论,进行摘要可以让用户快速地了解到商品的优缺点。目前主流的生成式摘要模型大多只考虑文本的序列化信息,而对一个商品评论来说,评论中的商品属性信息和情感信息极为重要。为了让模型学习到评论中的商品属性及情感信息,该文提出了一种融合评论中属性及情感信息的生成式摘要方法。该方法通过将不同种类的情感和属性信息嵌入生成模型的编码阶段的方式,从而有效的结合这些信息。实验证明,该方法可生成更高质量的摘要,生成的摘要在ROUGE评价指标上会有较大幅度的提升。  相似文献   

5.
在评论情感分析的研究中,和评论相关的用户与产品信息对于提高情感分类的准确率有很大的帮助.为了能够有效地利用产品和用户信息,并构建产品和用户信息与评论之间的关联,该文提出一种基于图网络的模型,将产品与用户信息和评论之间的关系构建为一个图,并基于图卷积网络模型学习产品与用户信息对评论的影响,从而提升评论情感分类的准确率.在...  相似文献   

6.
随着互联网的迅速发展,越来越多的用户评论出现在社交网站上。面对迅速增长的评论数据,如何为阅读评论的消费者提供准确、真实的高质量评论就显得尤为重要。评论质量检测旨在判断在线评论的质量,在传统的研究中,文本信息通常独立地被用于预测评论质量。但是在社交媒体上,每个文本之间不是独立的,而是可以通过发表文本的作者与其他文本相关联,即同一个用户或相近的用户发表的评论质量具有一定的相似性。因此,为了更好的构建文本的表示和研究文本之间基于用户的关联,该文基于神经网络模型分别构建用户和文本的表示,同时,为了放大用户信息的作用,我们进一步将基于注意力机制的用户信息融合到文本中,从而提高文本评论质量检测的效果。在Yelp 2013数据集上进行实验的结果表明,该模型能有效地提高在线评论质量检测的性能。  相似文献   

7.
基于协同过滤Attention机制的情感分析模型   总被引:1,自引:0,他引:1  
该文主要研究在评论性数据中用户个性及产品信息对数据情感类别的影响。在影响数据情感类型的众多因素中,该文认为评价的主体即用户以及被评价的对象等信息对评论数据的情感至关重要。该文提出一种基于协同过滤Attention机制的情感分析方法(LSTM-CFA),使用协同过滤(CF)算法计算出用户兴趣分布矩阵,再将矩阵利用SVD分解后加入层次LSTM模型,作为模型注意力机制提取文档特征、实现情感分类。实验表明LSTM-CFA方法能够高效提取用户个性与产品属性信息,显著提升了情感分类的准确率。  相似文献   

8.
研究发现对大规模的数据进行预训练可以更好地从自然语言文本中捕捉更丰富的语义信息,目前很多的多文档摘要的工作也应用了预训练模型并取得了一定的效果。但是这些预训练模型没有考虑到结构化的实体-关系信息。不能更好地从文本中捕获事实性知识。该文提出了基于实体信息增强和多粒度融合的多文档摘要模型MGNIE,该方法将实体关系信息融入预训练模型ERNIE中,增强知识事实以获得多层语义信息,解决摘要生成的事实一致性问题,进而从多种粒度进行多文档层次结构的融合建模,以词信息、实体信息以及句子信息捕捉长文本信息摘要生成所需的关键信息点。该文设计的模型在国际标准评测数据集MultiNews上的实验证明,所提模型对比强基线模型效果和竞争力获得较大提升。  相似文献   

9.
细粒度情感分析(fine-grained sentiment analysis)是自然语言处理领域的关键问题之一,其通过学习文本的上下文信息来进行特定方面的情感分析,可以帮助用户和商家更好地了解用户评论特定方面的情感。针对基于用户评论的方面级别细粒度情感分析任务,提出了BiGRU-Attention与门控机制(gated mechanisms)相结合的文本情感分类模型。首先,通过整合现有的情感资源,将HOWNET评价情感词典作为种子情感词典,利用SO-PMI算法扩充用户评论情感词典,结合否定词典以及词性信息扩充用户评论情感知识,将用户评价情感知识作为用户评论情感特征信息;其次,引入字词特征与情感特征信息,将它们联合作为模型输入,使用BiGRU对文本进行深层次的特征提取;然后,结合门控机制以及注意力机制,根据获取的方面词信息进一步提取与方面词相关的上下文情感特征信息;最后,在输出层进行文本情感分析,经过softmax获得最终的情感极性。在AIchallenger2018细粒度情感分析中文数据集上,所提模型的MacroF1score值达到了0.7...  相似文献   

10.
不同的用户通常具有多粒度的用户偏好,即用不同的用词习惯来表达情感(单词级用户偏好);在不同的句子上表达出不同的情感强度(句子级用户偏好);用不同的评分特征对产品进行评价(文档级用户偏好)。现有情感模型在文本特征表示时并未考虑用户偏好的多粒度性,据此,该文提出了一种融合多粒度用户偏好的情感分析模型。首先,在单词粒度上,将用户信息融合到注意机制中来获取基于用户偏好的句子表示;然后,在句子粒度上,结合自注意机制获取基于用户偏好的文档表示;最后,在文档粒度上,将得到的文档表示与用户信息直接进行融合得到文档的特征表示,并利用该表示进行分类。在IMDB、Yelp13、Yelp14三个文档级数据集上的实验表明,该模型能更有效地提升分类性能。  相似文献   

11.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果.  相似文献   

12.
Although the goal of traditional text summarization is to generate summaries with diverse information,most of those applications have no explicit definition of the information structure.Thus,it is difficult to generate truly structureaware summaries because the information structure to guide summarization is unclear.In this paper,we present a novel framework to generate guided summaries for product reviews.The guided summary has an explicitly defined structure which comes from the important aspects of products.The proposed framework attempts to maximize expected aspect satisfaction during summary generation.The importance of an aspect to a generated summary is modeled using Labeled Latent Dirichlet Allocation.Empirical experimental results on consumer reviews of cars show the effectiveness of our method.  相似文献   

13.
面向查询的多文档摘要技术有两个难点 第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向查询的多文档摘要方法,利用主题分析技术识别出当前主题下的子主题,综合考虑句子所在的子主题与查询的相关度以及子主题的重要度两方面因素来选择摘要句,并根据词语在子主题之间的共现信息,在不使用任何外部知识的情况下,进行查询扩展。在DUC2006评测语料上的实验结果表明,与Baseline系统相比,该系统取得了更高的ROUGE评价值,基于子主题的查询扩展方法则进一步提高了摘要的质量。  相似文献   

14.
We present an optimization-based unsupervised approach to automatic document summarization. In the proposed approach, text summarization is modeled as a Boolean programming problem. This model generally attempts to optimize three properties, namely, (1) relevance: summary should contain informative textual units that are relevant to the user; (2) redundancy: summaries should not contain multiple textual units that convey the same information; and (3) length: summary is bounded in length. The approach proposed in this paper is applicable to both tasks: single- and multi-document summarization. In both tasks, documents are split into sentences in preprocessing. We select some salient sentences from document(s) to generate a summary. Finally, the summary is generated by threading all the selected sentences in the order that they appear in the original document(s). We implemented our model on multi-document summarization task. When comparing our methods to several existing summarization methods on an open DUC2005 and DUC2007 data sets, we found that our method improves the summarization results significantly. This is because, first, when extracting summary sentences, this method not only focuses on the relevance scores of sentences to the whole sentence collection, but also the topic representative of sentences. Second, when generating a summary, this method also deals with the problem of repetition of information. The methods were evaluated using ROUGE-1, ROUGE-2 and ROUGE-SU4 metrics. In this paper, we also demonstrate that the summarization result depends on the similarity measure. Results of the experiment showed that combination of symmetric and asymmetric similarity measures yields better result than their use separately.  相似文献   

15.
In paper, we propose an unsupervised text summarization model which generates a summary by extracting salient sentences in given document(s). In particular, we model text summarization as an integer linear programming problem. One of the advantages of this model is that it can directly discover key sentences in the given document(s) and cover the main content of the original document(s). This model also guarantees that in the summary can not be multiple sentences that convey the same information. The proposed model is quite general and can also be used for single- and multi-document summarization. We implemented our model on multi-document summarization task. Experimental results on DUC2005 and DUC2007 datasets showed that our proposed approach outperforms the baseline systems.  相似文献   

16.
The present is marked by the influence of the Social Web on societies and people worldwide. In this context, users generate large amounts of data, especially containing opinion, which has been proven useful for many real-world applications. In order to extract knowledge from user-generated content, automatic methods must be developed. In this paper, we present different approaches to multi-document summarization of opinion from blogs and reviews. We apply these approaches to: (a) identify positive and negative opinions in blog threads in order to produce a list of arguments in favor and against a given topic and (b) summarize the opinion expressed in reviews. Subsequently, we evaluate the proposed methods on two distinct datasets and analyze the quality of the obtained results, as well as discuss the errors produced. Although much remains to be done, the approaches we propose obtain encouraging results and point to clear directions in which further improvements can be made.  相似文献   

17.
信息爆炸是信息化时代面临的普遍性问题, 为了从海量文本数据中快速提取出有价值的信息, 自动摘要技术成为自然语言处理(natural language processing, NLP)领域中的研究重点. 多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容, 帮助用户快速获取关键信息. 针对目前多文档摘要中存在的信息不全面、冗余度高的问题, 提出一种基于多粒度语义交互的抽取式摘要方法, 将多粒度语义交互网络与最大边界相关法(maximal marginal relevance, MMR)相结合, 通过不同粒度的语义交互训练句子的表示, 捕获不同粒度的关键信息, 从而保证摘要信息的全面性; 同时结合改进的MMR以保证摘要信息的低冗余度, 通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取. 在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型.  相似文献   

18.
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档摘要。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档摘要。使用ROUGE自动摘要评测工具包对DUC2002数据集评测摘要质量,结果表明,该方法能有效地提高摘要的质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号