首页 | 本学科首页   官方微博 | 高级检索  
     

基于Kolmogorov复杂性的文本聚类算法改进
引用本文:王有华,陈笑蓉.基于Kolmogorov复杂性的文本聚类算法改进[J].计算机科学,2016,43(5):243-246.
作者姓名:王有华  陈笑蓉
作者单位:贵州大学计算机科学与技术学院 贵阳550025,贵州大学计算机科学与技术学院 贵阳550025
基金项目:本文受国家自然科学基金(61363028)资助
摘    要:基于Kolmogorov复杂性的聚类算法虽然具有普适性、参数无关性的优点,但是应用到文本内容语义信息聚类时往往准确率较低。针对这一问题,提出了一种基于特征扩展的文本聚类改进算法——DEF-KC算法。该算法通过引用百度百科中特定词条的信息,对预处理过的文本中的关键词进行特征扩展,从而提高特征词的主题贡献度,增强文本的结构辨识度,并通过选取特定压缩算法近似计算Kolmogorov复杂性得到文本相似度,最后使用谱聚类算法进行聚类。实验结果表明,与传统的基于Kolmogorov复杂性的文本聚类算法相比,使用该算法时聚类准确率和召回率均得到了较大提升。

关 键 词:Kolmogorov复杂性  文本聚类  特征扩展  谱聚类
收稿时间:7/2/2015 12:00:00 AM
修稿时间:2015/9/20 0:00:00

Improved Text Clustering Algorithm Based on Kolmogorov Complexity
WANG You-hua and CHEN Xiao-rong.Improved Text Clustering Algorithm Based on Kolmogorov Complexity[J].Computer Science,2016,43(5):243-246.
Authors:WANG You-hua and CHEN Xiao-rong
Affiliation:College of Computer Science and Technology,Guizhou University,Guiyang 550025,China and College of Computer Science and Technology,Guizhou University,Guiyang 550025,China
Abstract:
Keywords:Kolmogorov complexity  Text clustering  Feature extension  Spectral clustering
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号