首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断。提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议。实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性。  相似文献   

2.
吕韶华  杨亮  林鸿飞 《计算机工程》2011,37(19):62-64,67
在餐馆评论中,存在评论文本未明确指出评价等级及评论文本不一致等问题。为此,提出一种基于LDA模型的餐馆评论排序方法。利用LDA模型对评论文本进行主题抽取,过滤掉不相关评论,基于过滤后的用户评论和用户给出的评论等级计算餐馆评论若干方面的得分,在该得分的基础上,利用逻辑回归进行训练,得到餐馆评论排序模型。实验结果表明,该方法的排序效果较优。  相似文献   

3.
本文提出了基于LDA主题模型和直觉模糊TOPSIS的农产品在线评论情感分析方法。该方法使用情感词典对在线评论进行情感倾向分析,并计算农产品的积极情感值;运用LDA主题模型计算各个属性的权重,结合直觉模糊TOPSIS方法计算农产品的综合评价值;采用SPSS统计分析软件进行有效性检验。结果表明,综合评价值与月销售量、积极情感值呈显著的正相关性,说明该方法具有合理性,为挖掘农产品在线评论中的情感信息提供一种新的思路。  相似文献   

4.
面对网络上日益丰富的评论信息资源,如何在海量的客户评论中快速有效的获取并使用其中的有效信息,成为人们日益关注的问题。研究目标是互联网上的旅游评论,通过使用数据挖掘算法分析获取评论中关于商品或服务的主题词,并提取所有评论中包含主题词的句子。使用主题抽取模型(LDA模型)进行半监督的聚类处理,建立景点评论的主题模型,实现了互联网旅游评论个性化的设置和查询。  相似文献   

5.
金相宏  李琳  钟珞 《计算机科学》2017,44(10):254-258
随着电子商务的飞速发展,网络购物越来越被消费者认同,而随之产生的产品评论给消费者的购买决策带来了影响。产品评论是指用户在购物站点上对商品的评价信息,而 经过分析和研究发现这些评论中充斥着大量的垃圾评论,因此垃圾评论的识别成了电子商务在提高服务质量的过程中需解决的重要问题之一。根据垃圾评论的主要特点提出LDA-SP(LDA-Sentiment Polarity)垃圾评论识别方法。首先利用LDA主题模型过滤出内容型垃圾评论,然后结合情感分析识别出欺骗型垃圾评论。对网络商城的大量评论数据进行准确度分析实验的结果表明,LDA-SP方法的识别准确度高于传统的LDA主题模型和单一的情感极性分析方法,能够有效地检测垃圾评论,从而使产品评论信息更加客观准确,为电子商务用户提供了有效的参考信息。  相似文献   

6.
曹锐  孙美凤 《软件》2020,(10):70-75+85
基于LDA算法原理,提出了两种对语料库提供先验知识的改进策略。一种为对语料库中特定词性的词汇进行增删以进行相对定向的主题词的提取改进;另一种是针对舆情评论文本与新闻的相关性,引入新闻主题以期提高主题提取词汇的语义表达能力。实验证明,改进对提升舆情评论文本的主题提取准确率有明显效果。  相似文献   

7.
为了识别商品垃圾评论,基于垃评论员发表的多为垃圾评论这一基本思想,提出一种基于评论员评论行为来判定其是否为垃圾评论员的方法。分析定义了垃圾评论员常见的三类评论行为,分别是针对同类商品发表垃圾评论,针对同品牌商品发表垃圾评论和针对同一卖家商品发表垃圾评论;在对这三类评论行为建模的同时提出一种依据重复性过高或过低打分的评论数量来计算评论员垃圾指数(spam score)的方法。实验数据为在当当网摄影摄像商品区发表过评论的评论员的所有评论信息。实验结果通过人工评判和计算NDCG(normalize discounted cumulative gain)值的方法来检验,实验结果准确有效。  相似文献   

8.
LDA主题模型     
在自然语言处理领域,LDA主题模型是进行文本语义挖掘的一种统计模型,用来发现文档中的隐含主题,将词项空间表达的文档约简为主题空间的低维表达,实现信息检索、文本分类等。本文阐述了LDA模型的文档生成过程、LDA模型的图模型表示、基于LDA的扩展模型以及未来的研究趋势。  相似文献   

9.
产品垃圾评论检测研究综述   总被引:2,自引:2,他引:2  
互联网上的产品垃圾评论混淆视听,误导了潜在消费者。产品垃圾评论检测的目的就是将垃圾评论从评论文本中找到并去除,保留真实的产品评论供用户参考。首先将产品垃圾评论和互联网上其它常见的垃圾信息进行了对比,并把产品垃圾评论的检测和产品评论的质量判断、产品评论的情感分析等相关的工作进行了比较分析。然后从产品垃圾评论检测的数据集、检测方法两个角度对相关工作做了概述和分析。最后,在上述工作的基础上提出了一些产品垃圾评论检测研究中值得进一步关注的问题。  相似文献   

10.
基于LDA模型的主题分析   总被引:9,自引:0,他引:9  
石晶  范猛  李万龙 《自动化学报》2009,35(12):1586-1592
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理.  相似文献   

11.
舆情监控系统解决的关键问题是如何有效且精确地对文本进行聚类,以便从大量Web网页中发现网络舆情热点话题。single-pass算法是话题发现中最常用的文本聚类算法,但其在文本聚类的精度和时效方面存在不足,因而论文在对大量新闻报道语料进行深入分析的基础上,从三个方面对single-pass进行了改进。通过实验求证,发现改进后的sin-gle-pass算法在漏检率、误检率和耗费函数等方面有了明显改善。  相似文献   

12.
随着互联网的发展,用户倾向于在购物、旅游、用餐之前参考线上评论.之后,他们也会发表评论来表达自身意见.线上评论越来越具有价值.评论对用户决策的重要导向作用催生了虚假评论.虚假评论,指用户由于利益、个人偏见等因素发布的不符合产品真实特性的评论.这些虚假评论语言上模仿真实评论,消费者很难识别出来.国内外学者综合运用自然语言处理技术来研究虚假评论检测问题.从特征工程的角度分析,虚假评论检测方法可以分为三类:基于语言特征和行为特征的方法、基于图结构的方法、基于表示学习的方法.主要描述了检测的一般流程,归纳了三类研究方法常用的特征,比较了方法的优缺点,并且介绍了研究常用的数据集.最后探讨了未来研究方向.  相似文献   

13.
李芳  何婷婷  宋乐 《计算机科学》2012,39(6):159-162
主要研究如何从在线评论文本中挖掘产品的评价主题,并对其倾向性进行分析。首先采用一种启发式规则和共现概率统计相结合的方法识别文本集合中的名词性短语,再运用LDA模型挖掘潜在的评价主题。然后利用多特征融合的方法计算句子的倾向性,进而根据特征词群统计出各主题的倾向性结果。最后通过对网络汽车评论文本语料的实验证实了该方法的有效性。  相似文献   

14.
虚拟社区中的一些博客通过发表高质量的博文,能够影响社区中其他成员的观点,指导其他成员的行动,具有一定的影响力。这些博客被认为是重要的信息源,探测这样颇具影响力的博客的活动对外部世界的决策有重要意义。利用博客特有的格式,提出度量影响力的相关标准,定量计算出博客在特定主题中的影响力。实验证明,该模型能够克服目前通过简单统计特征识别重要博客的缺点,是一种行之有效的方法。  相似文献   

15.
基于目的分析的作弊页面分类   总被引:3,自引:1,他引:3  
随着互联网的飞速发展,因网络作弊而产生的垃圾页面越来越多,严重影响了搜索引擎的检索效率和用户体验。反作弊已经成为搜索引擎所面临的最重要挑战之一。但目前的反作弊研究大都是基于页面内容或链接特征的,没有一个通用可行的识别方法。本文主要基于作弊目的的分析,给出作弊页面另一种体系的分类,为基于目的的作弊页面识别起到良好的导向作用。  相似文献   

16.
基于聚类分析的网络论坛意见领袖发现方法   总被引:1,自引:0,他引:1  
提出表示网络论坛用户的特征值向量,它由7个特征值组成。设计基于EM算法的用户聚类算法,从实际的贴子数据中提取向量数据集,并基于聚类结果筛选出最符合意见领袖群体的子类。以某论坛为例,分别运用该方法及现有典型方法提取出意见领袖并进行比较,验证本文算法的正确性。  相似文献   

17.
大量垃圾邮件的出现给用户收发电子邮件带来极大困扰。贝叶斯算法由于在垃圾邮件处理上表现出很高的准确度,因此受到了广泛关注。本文介绍了贝叶斯算法的理论依据,分析了贝叶斯算法的优缺点,总结了贝叶斯的相关改进算法,最后对贝叶斯算法进行了总结和展望。  相似文献   

18.
网络舆情具有时效性强、传播迅速、涉及方面杂而广、意见指向性特征明显、泛娱化特征明显等特点。因此,提出对LDA输入数据采用TF-IDF算法加强特征词筛选的方法。选取巴黎圣母院大火事件,采集作为网络舆情重要来源的微博数据,进行LDA建模,引入TF-IDF算法进行特征词的筛选,能较准确地分析出该事件的主题分布。  相似文献   

19.
Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号