首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。  相似文献   

2.
LDA主题模型     
在自然语言处理领域,LDA主题模型是进行文本语义挖掘的一种统计模型,用来发现文档中的隐含主题,将词项空间表达的文档约简为主题空间的低维表达,实现信息检索、文本分类等。本文阐述了LDA模型的文档生成过程、LDA模型的图模型表示、基于LDA的扩展模型以及未来的研究趋势。  相似文献   

3.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断.提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议.实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性.  相似文献   

4.
基于LDA模型的主题分析   总被引:9,自引:0,他引:9       下载免费PDF全文
石晶  范猛  李万龙 《自动化学报》2009,35(12):1586-1592
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理.  相似文献   

5.
本文提出了基于LDA主题模型和直觉模糊TOPSIS的农产品在线评论情感分析方法。该方法使用情感词典对在线评论进行情感倾向分析,并计算农产品的积极情感值;运用LDA主题模型计算各个属性的权重,结合直觉模糊TOPSIS方法计算农产品的综合评价值;采用SPSS统计分析软件进行有效性检验。结果表明,综合评价值与月销售量、积极情感值呈显著的正相关性,说明该方法具有合理性,为挖掘农产品在线评论中的情感信息提供一种新的思路。  相似文献   

6.
基于LDA模型的主题词抽取方法   总被引:1,自引:0,他引:1  
石晶  李万龙 《计算机工程》2010,36(19):81-83
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。  相似文献   

7.
目前在网上购物已成为大多数人的首选,避免购物途中的劳累并且也节约时间。文章基于LDA主题模型对电商平台商品的评论数据进行分析,得出用户正面评价和负面评价分别主要集中在哪些方面,并提出针对性的改进建议,从而提高商品的质量和用户体验。  相似文献   

8.
文本分类是自然语言处理领域的一个重要研究方向.综合分析发现,文本分类的研究和分析,有助于对信息进行有效的分类和管理,并为自然语言处理的应用提供有力的支持.然而,已有的研究在理论和方法层面虽然已经取得了一定的成就,但是文本分类研究涉及内容、领域和技术等多个方面,各学科研究错综复杂,因此还有很多缺陷和不足,需要进一步进行系统和深入的研究.本文针对文本分类这一研究内容,探讨了文本分类和LDA主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状,总结了目前研究中存在的一些问题和研究策略;最后,归纳出文本分类未来的一些发展趋势.  相似文献   

9.
基于LDA模型的博客垃圾评论发现   总被引:1,自引:0,他引:1  
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA) 这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。  相似文献   

10.
针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每条评论,提取主观句并利用改进LDA模型对其主题进行学习,根据语料库构建must-link和cannot-link约束条件,在主题更新时对其进行约束和引导,每个主题对应一个特征类。实验表明,本文方法对显式特征和隐式特征都具有很好的实验效果,且相比传统的方法和其他改进方法在保证召回率的同时对准确率也有一定程度的提高。  相似文献   

11.
介绍了物联网概念、架构及其在农业中的应用,包括数据采集、数据传输、数据分析处理等。  相似文献   

12.
PCA plus LDA is a popular framework for linear discriminant analysis (LDA) in high dimensional and singular case. In this paper, we focus on building a theoretical foundation for this framework. Moreover, we point out the weakness of the previous LDA based methods, and suggest a complete PCA plus LDA algorithm. Experimental results on ORL face image database indicate that the proposed method is more effective than the previous ones.  相似文献   

13.
客户评论在人们的日常生活中越来越重要,人们希望从客户评论中获取商品的用户体验信息.客户评论数量的急剧增长使得用户快速、精准地获取有用的信息变得较为困难.为此,提出一种能够自动提取用户体验信息的方法.该方法通过语义片段过滤评论中的冗余信息,提取产品特征词及特征描述词,将其结合组成用户体验信息,自动获取信息能够迅速、准确地从客户评论中提取信息.实验结果证明了该方法的有效性,并且能够保证较高的准确率与查全率.  相似文献   

14.
从互联网到物联网   总被引:1,自引:0,他引:1  
结合对互联网发展历程的回顾,本文阐述物联网与互联网的联系,分析物联网的主要特点、技术和应用领域。  相似文献   

15.
分类是一种重要的数据挖掘问题,它的一般过程是先输入数据,再利用相关的分类算法得到分类规则,对新的数据划分类别。笔者详细介绍了两种简单的分类降维算法:PrincipalComponentAnalysis(PCA)和Linear DiscriminantAnalysis(LDA)。通过比较这两种分类算法发现,LDA是有监督的降维方法,可选择分类性能最好的投影方向,而PCA是无监督的降维方法,可选择样本点投影具有最大方差的方向。  相似文献   

16.
随着Internet技术的发展,以及应用的日益普及,国家、企业、服务提供商、个人等对Internet安全上的需求更加强烈。传统的Internet体系结构由于内在的缺陷,很难有效地解决这个问题。目前,网络安全面临着新的挑战。论文首先论述了当前Internet体系结构中存在的一些问题,然后从交通管理观点出发,提出了未来Internet安全体系结构的新设想-主动网络模型。  相似文献   

17.
教师应进一步从学生的角度来指导学生利用网络学习,那将会达到更高的教学目标.在信息时代,教师如何指导学生利用网络学习将成为一个有待思考和进一步研究的新课题.  相似文献   

18.
本文介绍了互联网的现状及下一代互联网的发展历程和优点,探讨如何向下一代联网过渡以及对建设我国的下一代互联网的探讨。  相似文献   

19.
本文阐述计算机网络中的虚拟网技术和共享Internet技术,讨论了对共享Internet实施控制的需要和方法。同时本文提出了一种实用和可靠的利用虚拟网技术实现共享Internet的控制技术。  相似文献   

20.
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法,它把抓取器与超链分析器、文本自动分类器相结合,完成对用户要求领域的网页的收集,避免对用户不感兴趣领域的抓取。这样可以节省硬件、网络资源和提高资源采集效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号