首页 | 本学科首页   官方微博 | 高级检索  
     

基于聚类和距离的大数据集离群点检测算法
引用本文:王欣. 基于聚类和距离的大数据集离群点检测算法[J]. 制造业自动化, 2011, 33(8). DOI: 10.3969/j.issn.1009-0134.2011.4(下).29
作者姓名:王欣
作者单位:中国民航飞行学院,计算机学院,广汉,618307
摘    要:针对已有的基于距离的离群点检测算法在大数据集上扩展性差的问题,提出了基于聚类和距离混合的大数据集离群检测算法.算法第一阶段采用层次聚类和k-means混合的层次k-means算法对数据进行聚类,并按照一个启发式规则对其进行排序.第二阶段在聚类的结果上采用嵌套循环算法进行离群检测,并通过两个剪枝规则进行高效舅枝,减少了离群检测时数据点之间距离计算的次数.理论分析和实验结果证明了算法的可行性和效率.

关 键 词:离群点  聚类  嵌套循环  k近邻搜索

Clustering and distance-based outlier detection in large datasets
WANG Xin. Clustering and distance-based outlier detection in large datasets[J]. Manufacturing Automation, 2011, 33(8). DOI: 10.3969/j.issn.1009-0134.2011.4(下).29
Authors:WANG Xin
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号