首页 | 本学科首页   官方微博 | 高级检索  
     

基于优化密度的耦合空间LDA文本聚类算法研究*
引用本文:邢长征,赵全颖,王伟,王星.基于优化密度的耦合空间LDA文本聚类算法研究*[J].计算机应用研究,2017,34(7).
作者姓名:邢长征  赵全颖  王伟  王星
作者单位:辽宁工程技术大学电子与信息工程学院,辽宁工程技术大学电子与信息工程学院,辽宁工程技术大学电子与信息工程学院,辽宁工程技术大学电子与信息工程学院
基金项目:国家自然科学基金项目(61402212):语义Web模糊规则互换与推理关键技术研究资助;辽宁省高等学校杰出青年学者成长计划项目(LJQ2015045)资助;辽宁省自然科学基金项目(2015020098)资助;辽宁省教育厅一般项目(L2013131)资助。
摘    要:针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。

关 键 词:文本聚类  耦合空间模型  LDA主题模型  密度  阈值
收稿时间:2016/5/5 0:00:00
修稿时间:2017/5/14 0:00:00

Coupling space LDA text clustering algorithm research based on optimizing density
XING Chang-zheng,ZHAO Quan-ying,WANG Wei and WANG Xing.Coupling space LDA text clustering algorithm research based on optimizing density[J].Application Research of Computers,2017,34(7).
Authors:XING Chang-zheng  ZHAO Quan-ying  WANG Wei and WANG Xing
Affiliation:School of Electronic and Information Engineering, Liaoning Technical University,,School of Electronic and Information Engineering, Liaoning Technical University,School of Electronic and Information Engineering, Liaoning Technical University
Abstract:Aim at the problem that traditional vector space model to calculate the similarity in text representation only use statistic the frequency of the word to represent text and to the high-dimensional effect decreased of text data clustering, a coupling space LDA text clustering algorithm based on optimizing density is proposed in the paper. Linear fusion coupling space model and LDA theme model for computing text similarity, and optimize the issue of threshold of sensitive, the radius of threshold corresponding to the different density area. Experimental results show that, Comparing with the improved DBSCAN text clustering algorithms and R-DBSCAN text clustering algorithm, the proposed algorithm performs higher accuracy and better clustering effect in text clustering.
Keywords:Text clustering  Coupling Space Model  LDA Theme Model  Density  Threshold
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号