首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 61 毫秒
1.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。  相似文献   

2.
LDA主题模型     
在自然语言处理领域,LDA主题模型是进行文本语义挖掘的一种统计模型,用来发现文档中的隐含主题,将词项空间表达的文档约简为主题空间的低维表达,实现信息检索、文本分类等。本文阐述了LDA模型的文档生成过程、LDA模型的图模型表示、基于LDA的扩展模型以及未来的研究趋势。  相似文献   

3.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断。提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议。实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性。  相似文献   

4.
基于LDA模型的主题分析   总被引:9,自引:0,他引:9       下载免费PDF全文
石晶  范猛  李万龙 《自动化学报》2009,35(12):1586-1592
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理.  相似文献   

5.
基于LDA模型的主题词抽取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
石晶  李万龙 《计算机工程》2010,36(19):81-83
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。  相似文献   

6.
本文提出了基于LDA主题模型和直觉模糊TOPSIS的农产品在线评论情感分析方法。该方法使用情感词典对在线评论进行情感倾向分析,并计算农产品的积极情感值;运用LDA主题模型计算各个属性的权重,结合直觉模糊TOPSIS方法计算农产品的综合评价值;采用SPSS统计分析软件进行有效性检验。结果表明,综合评价值与月销售量、积极情感值呈显著的正相关性,说明该方法具有合理性,为挖掘农产品在线评论中的情感信息提供一种新的思路。  相似文献   

7.
文本分类是自然语言处理领域的一个重要研究方向.综合分析发现,文本分类的研究和分析,有助于对信息进行有效的分类和管理,并为自然语言处理的应用提供有力的支持.然而,已有的研究在理论和方法层面虽然已经取得了一定的成就,但是文本分类研究涉及内容、领域和技术等多个方面,各学科研究错综复杂,因此还有很多缺陷和不足,需要进一步进行系统和深入的研究.本文针对文本分类这一研究内容,探讨了文本分类和LDA主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状,总结了目前研究中存在的一些问题和研究策略;最后,归纳出文本分类未来的一些发展趋势.  相似文献   

8.
基于LDA模型的博客垃圾评论发现   总被引:1,自引:0,他引:1  
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA) 这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。  相似文献   

9.
针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每条评论,提取主观句并利用改进LDA模型对其主题进行学习,根据语料库构建must-link和cannot-link约束条件,在主题更新时对其进行约束和引导,每个主题对应一个特征类。实验表明,本文方法对显式特征和隐式特征都具有很好的实验效果,且相比传统的方法和其他改进方法在保证召回率的同时对准确率也有一定程度的提高。   相似文献   

10.
曹锐  孙美凤 《软件》2020,(10):70-75+85
基于LDA算法原理,提出了两种对语料库提供先验知识的改进策略。一种为对语料库中特定词性的词汇进行增删以进行相对定向的主题词的提取改进;另一种是针对舆情评论文本与新闻的相关性,引入新闻主题以期提高主题提取词汇的语义表达能力。实验证明,改进对提升舆情评论文本的主题提取准确率有明显效果。  相似文献   

11.
吕韶华  杨亮  林鸿飞 《计算机工程》2011,37(19):62-64,67
在餐馆评论中,存在评论文本未明确指出评价等级及评论文本不一致等问题。为此,提出一种基于LDA模型的餐馆评论排序方法。利用LDA模型对评论文本进行主题抽取,过滤掉不相关评论,基于过滤后的用户评论和用户给出的评论等级计算餐馆评论若干方面的得分,在该得分的基础上,利用逻辑回归进行训练,得到餐馆评论排序模型。实验结果表明,该方法的排序效果较优。  相似文献   

12.
介绍了物联网概念、架构及其在农业中的应用,包括数据采集、数据传输、数据分析处理等。  相似文献   

13.
PCA plus LDA is a popular framework for linear discriminant analysis (LDA) in high dimensional and singular case. In this paper, we focus on building a theoretical foundation for this framework. Moreover, we point out the weakness of the previous LDA based methods, and suggest a complete PCA plus LDA algorithm. Experimental results on ORL face image database indicate that the proposed method is more effective than the previous ones.  相似文献   

14.
张晓阳  秦贵和  邹密  孙铭会  高庆洋 《计算机科学》2017,44(7):180-184, 214
随着网络的飞速发展,餐饮类的评价信息数量急剧增加。对餐饮评价进行有效分析不仅能够帮助消费者进行用餐选择,还可以帮助商家对餐厅服务进行改进。为此,提出了一种基于LDA(Latent Dirichlet Allocation)模型的餐厅推荐方法。首先,对餐厅评价信息进行情感分类,获取积极评价和好评率;其次,根据LDA模型对积极评价信息文本进行聚类,生成餐厅标签;最后,计算用户需求与餐厅标签的相似度,根据相似度和好评率向用户推荐餐厅。基于通过网络获取的真实餐饮评价信息进行实验,结果表明,该方法生成的餐厅标签的效果好,能准确地向用户推荐餐厅。  相似文献   

15.
Literature on supervised Machine-Learning (ML) approaches for classifying text-based safety reports for the construction sector has been growing. Recent studies have emphasized the need to build ML approaches that balance high classification accuracy and performance on management criteria, such as resource intensiveness. However, despite being highly accurate, the extensively focused, supervised ML approaches may not perform well on management criteria as many factors contribute to their resource intensiveness. Alternatively, the potential for semi-supervised ML approaches to achieve balanced performance has rarely been explored in the construction safety literature. The current study contributes to the scarce knowledge on semi-supervised ML approaches by demonstrating the applicability of a state-of-the-art semi-supervised learning approach, i.e., Yet, Another Keyword Extractor (YAKE) integrated with Guided Latent Dirichlet Allocation (GLDA) for construction safety report classification. Construction-safety-specific knowledge is extracted as keywords through YAKE, relying on accessible literature with minimal manual intervention. Keywords from YAKE are then seeded in the GLDA model for the automatic classification of safety reports without requiring a large quantity of prelabeled datasets. The YAKE-GLDA classification performance (F1 score of 0.66) is superior to existing unsupervised methods for the benchmark data containing injury narratives from Occupational Health and Safety Administration (OSHA). The YAKE-GLDA approach is also applied to near-miss safety reports from a construction site. The study demonstrates a high degree of generality of the YAKE-GLDA approach through a moderately high F1 score of 0.86 for a few categories in the near-miss data. The current research demonstrates that, unlike the existing supervised approaches, the semi-supervised YAKE-GLDA approach can achieve a novel possibility of consistently achieving reasonably good classification performance across various construction-specific safety datasets yet being resource-efficient. Results from an objective comparative and sensitivity analysis contribute to much-required knowledge-contesting insights into the functioning and applicability of the YAKE-GLDA. The results from the current study will help construction organizations implement and optimize an efficient ML-based knowledge-mining strategy for domains beyond safety and across sites where the availability of a pre-labeled dataset is a significant limitation.  相似文献   

16.
客户评论在人们的日常生活中越来越重要,人们希望从客户评论中获取商品的用户体验信息.客户评论数量的急剧增长使得用户快速、精准地获取有用的信息变得较为困难.为此,提出一种能够自动提取用户体验信息的方法.该方法通过语义片段过滤评论中的冗余信息,提取产品特征词及特征描述词,将其结合组成用户体验信息,自动获取信息能够迅速、准确地从客户评论中提取信息.实验结果证明了该方法的有效性,并且能够保证较高的准确率与查全率.  相似文献   

17.
提出了一种新的非线性特征抽取方法——隐空间中参数化直接鉴别分析。其主要思想是利用一核函数将原始输入空间非线性变换到隐空间,针对在该隐空间中类内散布矩阵总是奇异等问题,利用参数化直接鉴别分析进行特征抽取。与现有的核特征抽取方法不同的是,该方法不需要核函数满足Mercer 定理,从而增加了核函数的选择范围。更为重要的是,由于在隐空间中采用了参数化直接鉴别分析,不仅保留了参数化直接鉴别分析的优点,而且有效地抽取了样本的非线性特征;在该方法中提出了一个更为合理的加权系数矩阵,提高了分类性能。在FERET人脸数据库子库上的实验结果验证了该方法的有效性。  相似文献   

18.
分类是一种重要的数据挖掘问题,它的一般过程是先输入数据,再利用相关的分类算法得到分类规则,对新的数据划分类别。笔者详细介绍了两种简单的分类降维算法:PrincipalComponentAnalysis(PCA)和Linear DiscriminantAnalysis(LDA)。通过比较这两种分类算法发现,LDA是有监督的降维方法,可选择分类性能最好的投影方向,而PCA是无监督的降维方法,可选择样本点投影具有最大方差的方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号