首页 | 本学科首页   官方微博 | 高级检索  
     

基于EM算法的文本聚类优化研究
引用本文:冯中慧,鲍军鹏,沈钧毅.基于EM算法的文本聚类优化研究[J].信息与控制,2006,35(5):657-661.
作者姓名:冯中慧  鲍军鹏  沈钧毅
作者单位:西安交通大学电子与信息工程学院,陕西,西安,710049
摘    要:针对现有的文本聚类算法难以取得满意结果的问题,以EM算法为基础,提出能分别描述相似、不相似聚类对的相似性分布以及重要、不重要文档的重要性分布的文本聚类优化模型(text clustering optimization model, TCOM).基于该模型,设计一种通过合并不同的文本聚类结果以获取最优性能的方法.实验结果表明,利用该方法同时改善了聚类精度和召回率,其性能优于单独使用现有的硬、软聚类算法.

关 键 词:硬聚类  软聚类  EM算法  文本聚类优化模型(TCOM)
文章编号:1002-0411(2006)05-0657-05
收稿时间:2005-05-30
修稿时间:2005-05-30

Optimization of Text Clustering Based on EM Algorithm
FENG Zhong-hui,BAO Jun-peng,SHEN Jun-yi.Optimization of Text Clustering Based on EM Algorithm[J].Information and Control,2006,35(5):657-661.
Authors:FENG Zhong-hui  BAO Jun-peng  SHEN Jun-yi
Abstract:A model named TCOM(text clustering optimization model) based on expectation-maximization(EM) algorithm is proposed to solve the problem that the existing text clustering algorithms can not achieve satisfac-(tory results.) This model describes the similarity distribution of the similar and non-similar pair of clusters,and pre-(sents) the importance distribution of the important and unimportant documents.The method based on TCOM optimizes the performance by merging different text clustered results.Experimental results show that clustering precision and recall are both improved,and its performance is higher than that of either hard clustering method or soft clustering method.
Keywords:hard clustering  soft clustering  expectation-maximization(EM) algorithm  text clustering optimization model(TCOM)  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《信息与控制》浏览原始摘要信息
点击此处可从《信息与控制》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号