共查询到18条相似文献,搜索用时 61 毫秒
1.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 相似文献
2.
3.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断。提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议。实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性。 相似文献
4.
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理. 相似文献
5.
6.
7.
文本分类是自然语言处理领域的一个重要研究方向.综合分析发现,文本分类的研究和分析,有助于对信息进行有效的分类和管理,并为自然语言处理的应用提供有力的支持.然而,已有的研究在理论和方法层面虽然已经取得了一定的成就,但是文本分类研究涉及内容、领域和技术等多个方面,各学科研究错综复杂,因此还有很多缺陷和不足,需要进一步进行系统和深入的研究.本文针对文本分类这一研究内容,探讨了文本分类和LDA主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状,总结了目前研究中存在的一些问题和研究策略;最后,归纳出文本分类未来的一些发展趋势. 相似文献
8.
基于LDA模型的博客垃圾评论发现 总被引:1,自引:0,他引:1
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA) 这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。 相似文献
9.
针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每条评论,提取主观句并利用改进LDA模型对其主题进行学习,根据语料库构建must-link和cannot-link约束条件,在主题更新时对其进行约束和引导,每个主题对应一个特征类。实验表明,本文方法对显式特征和隐式特征都具有很好的实验效果,且相比传统的方法和其他改进方法在保证召回率的同时对准确率也有一定程度的提高。
相似文献
10.
基于LDA算法原理,提出了两种对语料库提供先验知识的改进策略。一种为对语料库中特定词性的词汇进行增删以进行相对定向的主题词的提取改进;另一种是针对舆情评论文本与新闻的相关性,引入新闻主题以期提高主题提取词汇的语义表达能力。实验证明,改进对提升舆情评论文本的主题提取准确率有明显效果。 相似文献
11.
12.
13.
PCA plus LDA is a popular framework for linear discriminant analysis (LDA) in high dimensional and singular case. In this paper, we focus on building a theoretical foundation for this framework. Moreover, we point out the weakness of the previous LDA based methods, and suggest a complete PCA plus LDA algorithm. Experimental results on ORL face image database indicate that the proposed method is more effective than the previous ones. 相似文献
14.
随着网络的飞速发展,餐饮类的评价信息数量急剧增加。对餐饮评价进行有效分析不仅能够帮助消费者进行用餐选择,还可以帮助商家对餐厅服务进行改进。为此,提出了一种基于LDA(Latent Dirichlet Allocation)模型的餐厅推荐方法。首先,对餐厅评价信息进行情感分类,获取积极评价和好评率;其次,根据LDA模型对积极评价信息文本进行聚类,生成餐厅标签;最后,计算用户需求与餐厅标签的相似度,根据相似度和好评率向用户推荐餐厅。基于通过网络获取的真实餐饮评价信息进行实验,结果表明,该方法生成的餐厅标签的效果好,能准确地向用户推荐餐厅。 相似文献
15.
Literature on supervised Machine-Learning (ML) approaches for classifying text-based safety reports for the construction sector has been growing. Recent studies have emphasized the need to build ML approaches that balance high classification accuracy and performance on management criteria, such as resource intensiveness. However, despite being highly accurate, the extensively focused, supervised ML approaches may not perform well on management criteria as many factors contribute to their resource intensiveness. Alternatively, the potential for semi-supervised ML approaches to achieve balanced performance has rarely been explored in the construction safety literature. The current study contributes to the scarce knowledge on semi-supervised ML approaches by demonstrating the applicability of a state-of-the-art semi-supervised learning approach, i.e., Yet, Another Keyword Extractor (YAKE) integrated with Guided Latent Dirichlet Allocation (GLDA) for construction safety report classification. Construction-safety-specific knowledge is extracted as keywords through YAKE, relying on accessible literature with minimal manual intervention. Keywords from YAKE are then seeded in the GLDA model for the automatic classification of safety reports without requiring a large quantity of prelabeled datasets. The YAKE-GLDA classification performance (F1 score of 0.66) is superior to existing unsupervised methods for the benchmark data containing injury narratives from Occupational Health and Safety Administration (OSHA). The YAKE-GLDA approach is also applied to near-miss safety reports from a construction site. The study demonstrates a high degree of generality of the YAKE-GLDA approach through a moderately high F1 score of 0.86 for a few categories in the near-miss data. The current research demonstrates that, unlike the existing supervised approaches, the semi-supervised YAKE-GLDA approach can achieve a novel possibility of consistently achieving reasonably good classification performance across various construction-specific safety datasets yet being resource-efficient. Results from an objective comparative and sensitivity analysis contribute to much-required knowledge-contesting insights into the functioning and applicability of the YAKE-GLDA. The results from the current study will help construction organizations implement and optimize an efficient ML-based knowledge-mining strategy for domains beyond safety and across sites where the availability of a pre-labeled dataset is a significant limitation. 相似文献
16.
客户评论在人们的日常生活中越来越重要,人们希望从客户评论中获取商品的用户体验信息.客户评论数量的急剧增长使得用户快速、精准地获取有用的信息变得较为困难.为此,提出一种能够自动提取用户体验信息的方法.该方法通过语义片段过滤评论中的冗余信息,提取产品特征词及特征描述词,将其结合组成用户体验信息,自动获取信息能够迅速、准确地从客户评论中提取信息.实验结果证明了该方法的有效性,并且能够保证较高的准确率与查全率. 相似文献
17.
提出了一种新的非线性特征抽取方法——隐空间中参数化直接鉴别分析。其主要思想是利用一核函数将原始输入空间非线性变换到隐空间,针对在该隐空间中类内散布矩阵总是奇异等问题,利用参数化直接鉴别分析进行特征抽取。与现有的核特征抽取方法不同的是,该方法不需要核函数满足Mercer 定理,从而增加了核函数的选择范围。更为重要的是,由于在隐空间中采用了参数化直接鉴别分析,不仅保留了参数化直接鉴别分析的优点,而且有效地抽取了样本的非线性特征;在该方法中提出了一个更为合理的加权系数矩阵,提高了分类性能。在FERET人脸数据库子库上的实验结果验证了该方法的有效性。 相似文献