共查询到20条相似文献,搜索用时 46 毫秒
1.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 相似文献
2.
3.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断.提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议.实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性. 相似文献
4.
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理. 相似文献
5.
6.
基于LDA模型的主题词抽取方法 总被引:1,自引:0,他引:1
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。 相似文献
7.
肖自乾;陈经优;符天 《数字社区&智能家居》2021,(30):17-19
目前在网上购物已成为大多数人的首选,避免购物途中的劳累并且也节约时间。文章基于LDA主题模型对电商平台商品的评论数据进行分析,得出用户正面评价和负面评价分别主要集中在哪些方面,并提出针对性的改进建议,从而提高商品的质量和用户体验。 相似文献
8.
文本分类是自然语言处理领域的一个重要研究方向.综合分析发现,文本分类的研究和分析,有助于对信息进行有效的分类和管理,并为自然语言处理的应用提供有力的支持.然而,已有的研究在理论和方法层面虽然已经取得了一定的成就,但是文本分类研究涉及内容、领域和技术等多个方面,各学科研究错综复杂,因此还有很多缺陷和不足,需要进一步进行系统和深入的研究.本文针对文本分类这一研究内容,探讨了文本分类和LDA主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状,总结了目前研究中存在的一些问题和研究策略;最后,归纳出文本分类未来的一些发展趋势. 相似文献
9.
基于LDA模型的博客垃圾评论发现 总被引:1,自引:0,他引:1
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA) 这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。 相似文献
10.
针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每条评论,提取主观句并利用改进LDA模型对其主题进行学习,根据语料库构建must-link和cannot-link约束条件,在主题更新时对其进行约束和引导,每个主题对应一个特征类。实验表明,本文方法对显式特征和隐式特征都具有很好的实验效果,且相比传统的方法和其他改进方法在保证召回率的同时对准确率也有一定程度的提高。 相似文献
11.
12.
PCA plus LDA is a popular framework for linear discriminant analysis (LDA) in high dimensional and singular case. In this paper, we focus on building a theoretical foundation for this framework. Moreover, we point out the weakness of the previous LDA based methods, and suggest a complete PCA plus LDA algorithm. Experimental results on ORL face image database indicate that the proposed method is more effective than the previous ones. 相似文献
13.
客户评论在人们的日常生活中越来越重要,人们希望从客户评论中获取商品的用户体验信息.客户评论数量的急剧增长使得用户快速、精准地获取有用的信息变得较为困难.为此,提出一种能够自动提取用户体验信息的方法.该方法通过语义片段过滤评论中的冗余信息,提取产品特征词及特征描述词,将其结合组成用户体验信息,自动获取信息能够迅速、准确地从客户评论中提取信息.实验结果证明了该方法的有效性,并且能够保证较高的准确率与查全率. 相似文献
14.
15.
16.
随着Internet技术的发展,以及应用的日益普及,国家、企业、服务提供商、个人等对Internet安全上的需求更加强烈。传统的Internet体系结构由于内在的缺陷,很难有效地解决这个问题。目前,网络安全面临着新的挑战。论文首先论述了当前Internet体系结构中存在的一些问题,然后从交通管理观点出发,提出了未来Internet安全体系结构的新设想-主动网络模型。 相似文献
17.
倪丽菊 《数字社区&智能家居》2007,3(14):574-575
教师应进一步从学生的角度来指导学生利用网络学习,那将会达到更高的教学目标.在信息时代,教师如何指导学生利用网络学习将成为一个有待思考和进一步研究的新课题. 相似文献
18.
本文介绍了互联网的现状及下一代互联网的发展历程和优点,探讨如何向下一代联网过渡以及对建设我国的下一代互联网的探讨。 相似文献
19.
郑蓝波 《自动化与信息工程》2002,23(1):55-57
本文阐述计算机网络中的虚拟网技术和共享Internet技术,讨论了对共享Internet实施控制的需要和方法。同时本文提出了一种实用和可靠的利用虚拟网技术实现共享Internet的控制技术。 相似文献