共查询到19条相似文献,搜索用时 46 毫秒
1.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断。提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议。实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性。 相似文献
2.
3.
4.
面对网络上日益丰富的评论信息资源,如何在海量的客户评论中快速有效的获取并使用其中的有效信息,成为人们日益关注的问题。研究目标是互联网上的旅游评论,通过使用数据挖掘算法分析获取评论中关于商品或服务的主题词,并提取所有评论中包含主题词的句子。使用主题抽取模型(LDA模型)进行半监督的聚类处理,建立景点评论的主题模型,实现了互联网旅游评论个性化的设置和查询。 相似文献
5.
随着电子商务的飞速发展,网络购物越来越被消费者认同,而随之产生的产品评论给消费者的购买决策带来了影响。产品评论是指用户在购物站点上对商品的评价信息,而 经过分析和研究发现这些评论中充斥着大量的垃圾评论,因此垃圾评论的识别成了电子商务在提高服务质量的过程中需解决的重要问题之一。根据垃圾评论的主要特点提出LDA-SP(LDA-Sentiment Polarity)垃圾评论识别方法。首先利用LDA主题模型过滤出内容型垃圾评论,然后结合情感分析识别出欺骗型垃圾评论。对网络商城的大量评论数据进行准确度分析实验的结果表明,LDA-SP方法的识别准确度高于传统的LDA主题模型和单一的情感极性分析方法,能够有效地检测垃圾评论,从而使产品评论信息更加客观准确,为电子商务用户提供了有效的参考信息。 相似文献
6.
基于LDA算法原理,提出了两种对语料库提供先验知识的改进策略。一种为对语料库中特定词性的词汇进行增删以进行相对定向的主题词的提取改进;另一种是针对舆情评论文本与新闻的相关性,引入新闻主题以期提高主题提取词汇的语义表达能力。实验证明,改进对提升舆情评论文本的主题提取准确率有明显效果。 相似文献
7.
为了识别商品垃圾评论,基于垃评论员发表的多为垃圾评论这一基本思想,提出一种基于评论员评论行为来判定其是否为垃圾评论员的方法。分析定义了垃圾评论员常见的三类评论行为,分别是针对同类商品发表垃圾评论,针对同品牌商品发表垃圾评论和针对同一卖家商品发表垃圾评论;在对这三类评论行为建模的同时提出一种依据重复性过高或过低打分的评论数量来计算评论员垃圾指数(spam score)的方法。实验数据为在当当网摄影摄像商品区发表过评论的评论员的所有评论信息。实验结果通过人工评判和计算NDCG(normalize discounted cumulative gain)值的方法来检验,实验结果准确有效。 相似文献
8.
9.
产品垃圾评论检测研究综述 总被引:2,自引:2,他引:2
互联网上的产品垃圾评论混淆视听,误导了潜在消费者。产品垃圾评论检测的目的就是将垃圾评论从评论文本中找到并去除,保留真实的产品评论供用户参考。首先将产品垃圾评论和互联网上其它常见的垃圾信息进行了对比,并把产品垃圾评论的检测和产品评论的质量判断、产品评论的情感分析等相关的工作进行了比较分析。然后从产品垃圾评论检测的数据集、检测方法两个角度对相关工作做了概述和分析。最后,在上述工作的基础上提出了一些产品垃圾评论检测研究中值得进一步关注的问题。 相似文献
10.
基于LDA模型的主题分析 总被引:9,自引:0,他引:9
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理. 相似文献
11.
舆情监控系统解决的关键问题是如何有效且精确地对文本进行聚类,以便从大量Web网页中发现网络舆情热点话题。single-pass算法是话题发现中最常用的文本聚类算法,但其在文本聚类的精度和时效方面存在不足,因而论文在对大量新闻报道语料进行深入分析的基础上,从三个方面对single-pass进行了改进。通过实验求证,发现改进后的sin-gle-pass算法在漏检率、误检率和耗费函数等方面有了明显改善。 相似文献
12.
随着互联网的发展,用户倾向于在购物、旅游、用餐之前参考线上评论.之后,他们也会发表评论来表达自身意见.线上评论越来越具有价值.评论对用户决策的重要导向作用催生了虚假评论.虚假评论,指用户由于利益、个人偏见等因素发布的不符合产品真实特性的评论.这些虚假评论语言上模仿真实评论,消费者很难识别出来.国内外学者综合运用自然语言处理技术来研究虚假评论检测问题.从特征工程的角度分析,虚假评论检测方法可以分为三类:基于语言特征和行为特征的方法、基于图结构的方法、基于表示学习的方法.主要描述了检测的一般流程,归纳了三类研究方法常用的特征,比较了方法的优缺点,并且介绍了研究常用的数据集.最后探讨了未来研究方向. 相似文献
13.
14.
虚拟社区中的一些博客通过发表高质量的博文,能够影响社区中其他成员的观点,指导其他成员的行动,具有一定的影响力。这些博客被认为是重要的信息源,探测这样颇具影响力的博客的活动对外部世界的决策有重要意义。利用博客特有的格式,提出度量影响力的相关标准,定量计算出博客在特定主题中的影响力。实验证明,该模型能够克服目前通过简单统计特征识别重要博客的缺点,是一种行之有效的方法。 相似文献
15.
16.
17.
18.
19.
Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。 相似文献