首页 | 本学科首页   官方微博 | 高级检索  
     

文本聚类中的贝叶斯后验模型选择方法
引用本文:姜宁,史忠植.文本聚类中的贝叶斯后验模型选择方法[J].计算机研究与发展,2002,39(5):580-587.
作者姓名:姜宁  史忠植
作者单位:1. 中国科技大学研究生院计算机学部,北京,100039
2. 中国科学院计算技术研究所,北京,100080
摘    要:对聚类分析中的模型选择特别是混合模型方法进行了较全面地介绍与总结,对其中的关键技术逐一进行了讨论。在此基础上,提出了贝叶斯后验模型选择方法,并把它与文档产生特征序列的物理模型相结合,给出了一个用于聚类分析的概率模型。对真实文本数据的测试中该模型取得了非常好的效果。同时对不同贝叶斯估计方法取得的效果进行了对比。

关 键 词:文本聚类  贝叶斯后验模型选择  混合模型  贝叶斯估计  人工智能

BAYESIAN POSTERIORI MODEL SELECTION FOR TEXT CLUSTERING
Abstract:A complete introduction to the model selection, ad hoc the mixture model, for clustering analysis is included in this paper, and the key related technologies are discussed seriatim, Based on these, the author introduces the Bayesian posteriori model selection, which reduces the complexity of the algorithm based on the mixture model and improves the precision (against the traditional model selection). To estimate the parameters in the posteriori model, two different Bayesian estimation methods, maximum likelihood estimation, and conditional expectation estimation, are compared. The posteriori model based hierarchical clustering algorithms are described, with the analysis of the domain itself. Results of high accuracy have been achieved in experiments for real world text clustering.
Keywords:text clustering  Bayesian posteriori model selection  mixture model  expectation maximization  Bayesian estimation
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号