首页 | 本学科首页   官方微博 | 高级检索  
     

基于数据抽样的自动k-means聚类算法
引用本文:罗军锋,洪丹丹.基于数据抽样的自动k-means聚类算法[J].现代电子技术,2014(8):19-21.
作者姓名:罗军锋  洪丹丹
作者单位:;1.西安交通大学信息中心
摘    要:为了解决传统k-means算法需要输入k值和在超大规模数据集进行聚类的问题,这里在前人研究基础上,首先在计算距离时引入信息熵,在超大规模数据集采用数据抽样,抽取最优样本数个样本进行聚类,在抽样数据聚类的基础上进行有效性指标的验证,并且获得算法所需要的k值,然后利用引入信息熵的距离公式再在超大数据集上进行聚类。实验表明,该算法解决了传统k-means算法输入k值的缺陷,通过数据抽样在不影响数据聚类质量的前题下自动获取超大数据集聚类的k值。

关 键 词:k-means算法  信息熵  最优样本抽取  有效性指标

Automatic k-means clustering algorithm based on data sampling
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号