首页 | 本学科首页   官方微博 | 高级检索  
     

面向高维数据的低冗余top-k异常点发现方法
引用本文:陈冠华,马秀莉,杨冬青,唐世渭,帅猛,谢昆青.面向高维数据的低冗余top-k异常点发现方法[J].计算机研究与发展,2010,47(5).
作者姓名:陈冠华  马秀莉  杨冬青  唐世渭  帅猛  谢昆青
作者单位:1. 北京大学信息科学技术学院,北京,100871;机器感知与智能教育部重点实验室(北京大学),北京,100871
2. 北京大学信息科学技术学院,北京,100871;高可信软件技术教育部重点实验室(北京大学),北京,100871
基金项目:国家“八六三”高技术研究发展计划基金项目(2007AA120502);;国家自然科学基金项目(60874082)
摘    要:异常发现是数据挖掘领域的一类重要任务.针对高维对象的异常度量问题和异常点集合的冗余问题,提出了一种新的面向高维数据的异常点发现方法.该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支持包含不同类型属性的高维数据.为了解决top-k异常点集合中的冗余问题,提出了低冗余top-k异常点的概念.由于精确计算低冗余的top-k异常点是NP-hard问题,设计了计算近似低冗余的top-k异常点的启发式方法k-AnomaliesHD算法.从在真实和人工数据集上的实验结果可以看出,该方法具有较好的扩展性;而且与不考虑冗余的异常点发现方法相比较,能够更有效地概括数据中的异常模式.

关 键 词:数据挖掘  异常检测  高维数据  低冗余  异常度量  

Discovering Redundancy-Aware Top-k Anomalies in High Dimensional Data
Chen Guanhua,Ma Xiuli,Yang Dongqing,Tang Shiwei,Shuai Meng,Xie Kunqing.Discovering Redundancy-Aware Top-k Anomalies in High Dimensional Data[J].Journal of Computer Research and Development,2010,47(5).
Authors:Chen Guanhua  Ma Xiuli  Yang Dongqing  Tang Shiwei  Shuai Meng  Xie Kunqing
Abstract:Discovering anomalies is an important data mining task which has been studied in many applications In this paper,by emphasizing the problems of exception measurement of high dimensional objects and redundancy in the set of anomalies,an approach is proposed to discover the anomalies in high dimensional data With a bipartite graph representation of the given high dimensional dataset,the capability of compression of each object is used to measure the degree of exception of the object Based on the exception mea...
Keywords:data mining  anomaly detection  high dimensional data  redundancy-aware  exception measure  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号