首页 | 本学科首页   官方微博 | 高级检索  
     

学习特征权值对K-均值聚类算法的优化
引用本文:王熙照,王亚东,湛燕,袁方.学习特征权值对K-均值聚类算法的优化[J].计算机研究与发展,2003,40(6):869-873.
作者姓名:王熙照  王亚东  湛燕  袁方
作者单位:1. 河北大学数学与计算机科学学院机器学习研究中心,保定,071002
2. 哈尔滨工业大学计算机科学与工程学院,哈尔滨,150001
基金项目:国家自然科学基金 ( 69975 0 0 5 ,60 2 730 83),河北省自然科学基金 ( 698139),河北省教育厅科研计划项目 ( 2 0 0 12 0 6)
摘    要:K-均值(K—means)算法聚类的结果依赖于距离度量的选取.传统的K-均值算法选择的相似性度量通常是欧几里德距离的倒数,这种距离通常涉及所有的特征.在距离公式中引入一些特征权参数后,其聚类结果将依赖于这些权值,从而可以通过调整这些权值优化聚类效果.由于K-均值算法是迭代算法,很难直接确定其权值以优化聚类结果,因此提出了一种间接的学习权值算法以改进聚类结果.从数学意义上讲,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换.数值实验证实了算法的有效性.

关 键 词:K-均值聚类  相似度量  特征权值  梯度下降技术

Optimization of K-means Clustering by Feature Weight Learning
WANG Xi-Zhao ,WANG Ya-Dong ,ZHAN Yan ,and YUAN Fang.Optimization of K-means Clustering by Feature Weight Learning[J].Journal of Computer Research and Development,2003,40(6):869-873.
Authors:WANG Xi-Zhao  WANG Ya-Dong  ZHAN Yan  and YUAN Fang
Affiliation:WANG Xi-Zhao 1,WANG Ya-Dong 2,ZHAN Yan 1,and YUAN Fang 1 1
Abstract:The performance of K-means clustering algorithm depends on the selection of distance metrics. The Euclidean distance is usually chosen as the similarity measure in the conventional K-means clustering algorithm, which usually relates to all attributes. When feature weight parameters are introduced to the distance formula, the performance will depend on the weight values and accordingly can be improved by adjusting weight values. Since K-means algorithm is iterative, it is difficult to optimize clustering results by giving weight values directly. An indirect learning feature weight algorithm is introduced to improve the clustering result. Mathematically it corresponds to a linear transformation for a set of points in the Euclidean space. The numerical experiments prove the validity of this algorithm.
Keywords:K-means clustering  similarity metrics  feature weight  gradient-descent technique
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号