首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
目前许多观点挖掘方法挖掘粒度过大,导致反馈信息不足。为解决该问题,对标准LDA模型进行改进,提出主题情感联合最大熵LDA模型进行细粒度观点挖掘。首先,考虑到词的位置和语义信息,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;其次,在主题层和单词层之间加入情感层,实现词语级别的细粒度情感分析,并引入情感转移变量来处理情感从属关系,同时获取整篇评论和每个主题的情感极性,实验验证了所提模型和理论的有效性。  相似文献   

2.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断。提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议。实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性。  相似文献   

3.
主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型(ETM)虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。  相似文献   

4.
单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。  相似文献   

5.
针对复杂文本评论的情感分析研究存在着隐式主题方面分类不精确、文本特征提取不全面和识别文本上下文语义不足等问题,论文提出了一种多维特征融合的混合神经网络文本情感分析模型MFF-HNN.该模型先把词向量、词性、位置和句法依存特征进行注意力特征融合,抽取出主题词库,然后把融合特征输入到改进的TBGRU模型和DCNN模型中获取语义信息和局部特征信息,再与主题词库结合进行注意力特征融合语义特征信息,最后使用SoftMax函数获取文本方面级情感分类信息.实验表明,该模型的情感分类的效果优于其它模型.  相似文献   

6.
LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对它的不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特征集中关键的特征,最后通过LDA模型在更小、更切题的文档子集上采样建模。对复旦大学中文语料进行文本分类,新方法的分类精度较单独使用LDA模型的效果提高了1.50%,实验表明提出的LSI_LDA模型在文本分类中有更好的分类性能。  相似文献   

7.
细粒度情感分析(fine-grained sentiment analysis)是自然语言处理领域的关键问题之一,其通过学习文本的上下文信息来进行特定方面的情感分析,可以帮助用户和商家更好地了解用户评论特定方面的情感.针对基于用户评论的方面级别细粒度情感分析任务,提出了BiGRU-Attention与门控机制(gated mechanisms)相结合的文本情感分类模型.首先,通过整合现有的情感资源,将HOWNET评价情感词典作为种子情感词典,利用SO-PMI算法扩充用户评论情感词典,结合否定词典以及词性信息扩充用户评论情感知识,将用户评价情感知识作为用户评论情感特征信息;其次,引入字词特征与情感特征信息,将它们联合作为模型输入,使用BiGRU对文本进行深层次的特征提取;然后,结合门控机制以及注意力机制,根据获取的方面词信息进一步提取与方面词相关的上下文情感特征信息;最后,在输出层进行文本情感分析,经过softmax获得最终的情感极性.在AIchallenger2018细粒度情感分析中文数据集上,所提模型的Macro_F1_score值达到了0.7218,性能超过基线系统,获得了较好的实验结果.  相似文献   

8.
针对商品评论中的细粒度情感要素抽取问题,提出基于条件随机场模型( CRFs)和支持向量机( SVM)的层叠模型。针对情感对象与情感词的识别,将评论的句法信息、语义信息等引入CRFs模型,进一步提高CRFs特征模板的鲁棒性。在SVM模型中,引入情感对象和情感词的深层词义及情感词的基本情感倾向等特征,改进传统的词包模型,对掖情感对象,情感词业词对进行细粒度的情感分类判断,从而获得商品评论中的情感关键信息:(情感对象,情感词,情感倾向性)三元组。实验表明,文中的CRFs和SVM层叠模型可提高情感要素抽取与情感分类判断的准确性。  相似文献   

9.
在对短文本进行情感分类任务的过程中,由于文本长度过短导致数据稀疏,降低了分类任务的准确率。针对这个问题,提出了一种基于潜在狄利克雷分布(LDA)与Self-Attention的短文本情感分类方法。使用LDA获得每个评论的主题词分布作为该条评论信息的扩展,将扩展信息和原评论文本一起输入到word2vec模型,进行词向量训练,使得该评论文本在高维向量空间实现同一主题的聚类,使用Self-Attention进行动态权重分配并进行分类。通过在谭松波酒店评论数据集上的实验表明,该算法与当前主流的短文本分类情感算法相比,有效地提高了分类性能。  相似文献   

10.
面对网络上日益丰富的评论信息资源,如何在海量的客户评论中快速有效的获取并使用其中的有效信息,成为人们日益关注的问题。研究目标是互联网上的旅游评论,通过使用数据挖掘算法分析获取评论中关于商品或服务的主题词,并提取所有评论中包含主题词的句子。使用主题抽取模型(LDA模型)进行半监督的聚类处理,建立景点评论的主题模型,实现了互联网旅游评论个性化的设置和查询。  相似文献   

11.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

12.
方面级别的情感分析(ABSA)旨在确定句子中特定目标的情感倾向。大部分现有方法仅使用语义层面信息,不能很好地利用不同方面词的意见术语来达到精确的情感分类,且模型不具有可解释性。语法层面信息中词性信息和以特定方面术语为根节点的句法结构依存树可以用于捕获句子中特定方面的意见术语。提出了结合词性信息且具有模型可解释性的BG-CNN,并引入依存树作为辅助信息用于细粒度文本情感分析。提出了增强损失函数用于模型的训练。在三个经典数据集上进行验证,实验结果表明了该模型和增强损失函数的有效性。  相似文献   

13.
The Web has become an excellent source for gathering consumer opinions (more specifically, consumer reviews) about products. Consumer reviews are essential for retailers and product manufacturers to understand the general responses of customers to their products and improve their marketing campaigns or products accordingly. In addition, consumer reviews enable retailers to recognize the specific preferences of each customer, which facilitates effective marketing decisions. As the number of consumer reviews expands, it is essential and desirable to develop an efficient and effective sentiment analysis technique that is capable of extracting product features stated in consumer reviews (i.e., product feature extraction) and determining the sentiments (positive or negative semantic orientations) of consumers for these product features (i.e., opinion orientation identification). Product feature extraction is critical to sentiment analysis, because its effectiveness significantly affects the performance of opinion orientation identification, as well as the ultimate effectiveness of sentiment analysis. Therefore, this study concentrates on product feature extraction from consumer reviews. Specifically, we propose a semantic-based product feature extraction (SPE) technique that exploits a list of positive and negative adjectives defined in the General Inquirer to recognize opinion words semantically and subsequently extract product features expressed in consumer reviews. Using a prevalent product feature extraction technique and the SPE-GI technique (a variant of SPE) as performance benchmarks, our empirical evaluation shows that the proposed SPE technique outperforms both benchmark techniques.  相似文献   

14.
One of the main benefits of unsupervised learning is that there is no need for labelled data. As a method of this category, latent Dirichlet allocation (LDA) estimates the semantic relations between the words of the text effectively and can play an important role in solving various issues, including emotional analysis in combination with other parameters. In this study, three novel topic models called date sentiment LDA (DSLDA), author–date sentiment LDA (ADSLDA), and pack–author–date sentiment LDA (PADSLDA) are proposed. The proposed models extend LDA through some extra parameters such as date, author, helpfulness, sentiment, and subtopic. The proposed models use helpfulness in the Gibbs sampling algorithm. Helpfulness is a part of readers who found the review helpful. The proposed models divide the words into two categories: the words more affected by the distribution of subtopic and the words more affected by the main topic. In this study, a new concept called pack is introduced, and a new model called PADSLDA is proposed for sentiment analysis at pack level. The proposed models outperformed the baseline models because according to evaluations results, the extra parameters can appropriately affect the generating process of words in a review. Sentiment analysis at the document level, perplexity, and topic coherence are the main parameters used in the evaluations.  相似文献   

15.
网络新媒体的快速发展,使得网上评论数据呈现爆炸性增长,面对数量庞大的网络文本,使用传统的人工方式来提取观点会导致效率低下、分类界限模糊、领域适应性差等问题。为解决以上问题,在对传统LDA模型进行改进的基础上,提出了一个基于领域判别的LDA主题模型来对在线评论进行观点挖掘。首先,在标准LDA模型中引入领域层,对语料库中的文档采样领域标签,利用领域化的参数来求解LDA模型;其次,考虑到句子间的情感从属关系,在主题层和单词层之间加入情感层,并引入情感转移变量进行表示,提高了情感极性分析的精度,实验结果表明了本文所提模型和理论的有效性。  相似文献   

16.
针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每条评论,提取主观句并利用改进LDA模型对其主题进行学习,根据语料库构建must-link和cannot-link约束条件,在主题更新时对其进行约束和引导,每个主题对应一个特征类。实验表明,本文方法对显式特征和隐式特征都具有很好的实验效果,且相比传统的方法和其他改进方法在保证召回率的同时对准确率也有一定程度的提高。   相似文献   

17.
Tourist reviews on social media websites reflect the tourist's opinions concerning various aspects of a tourist place or service (e.g., “comfortable room” and “terrible service” in hotel reviews). Extracting these aspects from reviews is a challenging task in opinion mining. Therefore, aspect‐based opinion mining has emerged as a new area of social review mining. Existing approaches in this area focus on extracting explicit aspects and classification of opinions around these aspects. However, the implicit and coreferential aspects during aspect extraction are often neglected, and the classification of multiaspect opinions is relatively less emphasized in prior art. In this paper, we propose a model, namely, “enhanced multiaspect‐based opinion classification” that addresses existing challenges by automatically extracting both explicit and implicit aspects and classifying the multiaspect opinions. In this model, first, a probabilistic co‐occurrence‐based method is proposed that utilizes the co‐occurrence between aspects and sentiment words to identify the coreferential aspects and merge them into groups. Second, an implicit aspect extraction method is proposed that associates the sentiment words with suitable aspects to build an aspect‐sentiment hierarchy. Third, a multiaspect opinion classification approach is proposed that employs multilabel classification algorithms to classify opinions into different polarity classes. The effectiveness of the proposed model is evaluated by conducting experiments on benchmark and real‐world datasets. The experimental results revealed the supremacy of multilabel classifiers by achieving 90% accuracy per label on classification when extracting 87% domain‐relevant aspects. A state‐of‐the‐art performance comparison is conducted that also verifies the advantages of the proposed model.  相似文献   

18.
为了解决用户评论文本中的产品特征-观点对的提取及情感分析问题,本文利用组块分析提取产品特征,从中寻找到频繁项集,并用PMI对候选产品特征进行过滤,得到产品的特征集合;利用特征与情感词在位置上的邻接关系,提取情感词并组成特征-观点对,通过SO-PMI方法进行情感倾向分析。为验证该方法的有效性,以酒店评论文本为例,从中提取酒店的特征-观点对并进行情感分析,准确率为76.68%,召回率为70.84%。实验结果表明引入组块分析可以有效的解决商品评论的细粒度情感分类问题。  相似文献   

19.
李学明  张朝阳  佘维军 《计算机应用》2016,36(10):2767-2771
针对有监督评论有用性预测方法中的训练数据集难以构造,以及无监督方法缺乏对情感信息支撑的问题,提出基于语义和情感信息构建一种无监督模型,用于对评论有用性进行预测,同时考虑了评论和评论下回复内容对观点的支持度用来计算观点的有用性得分,进而得到评论的有用性。同时,提出结合句法分析和改进潜在狄利克雷分配(LDA)模型的评论摘要方法用于评论有用性预测模型中的观点提取,基于句法分析结果构建must-link和cannot-link两种约束条件指导主题模型学习,在保证召回率的同时提高模型准确率。该方法在实验数据集上能取得70%左右的F1值和90%左右的排序准确率,且实例应用也表明该方法对结果具有较好的解释性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号