首页 | 本学科首页   官方微博 | 高级检索  
     

基于高斯分布的簇间距离计算方法
引用本文:季铎,王智超,蔡东风,张桂平.基于高斯分布的簇间距离计算方法[J].中文信息学报,2008,22(3):50-55.
作者姓名:季铎  王智超  蔡东风  张桂平
作者单位:沈阳航空工业学院 自然语言处理研究室,辽宁 沈阳 110034
基金项目:国家高技术研究发展计划(863计划) , 教育部科学技术研究重点项目
摘    要:凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。

关 键 词:计算机应用  中文信息处理  层次聚类  簇间距离计算  文本聚类  
文章编号:1003-0077(2008)03-0050-06
修稿时间:2007年6月19日

A Gaussian Distribution Based Cluster Distance Computing Method
JI Duo,WANG Zhi-chao,CAI Dong-feng,ZHANG Gui-ping.A Gaussian Distribution Based Cluster Distance Computing Method[J].Journal of Chinese Information Processing,2008,22(3):50-55.
Authors:JI Duo  WANG Zhi-chao  CAI Dong-feng  ZHANG Gui-ping
Affiliation:Natural Language Processing Research Laboratory, Shenyang Institute of Aeronautical Engineering,
Shenyang ,Liaoning 110034,China
Abstract:Agglomerate hierarchical clustering algorithm is distinguished for its superior performance in dividing the data set by continually merging similar clusters.The cluster distance computing method is the key issue affecting the performance of hierarchical clustering algorithm.This paper proposes a new method of calculating the clusters distance based on the Gaussian distribution.This method considers the factors in the cluster-itself to improve the calculation veracity,such as the cluster's size and its data distribution.,The experimental results on different text sets prove that the proposed method improves the performance of hierarchical clustering effectively.
Keywords:computer application  Chinese information processing  hierarchical clustering  cluster distance computing  text clustering
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号