首页 | 本学科首页   官方微博 | 高级检索  
     

基于Hadoop的局部异常检测算法
作者单位:;1.华北计算机系统工程研究所;2.中国信息安全研究院有限公司
摘    要:为了提高局部异常检测算法的检测效率以及检测的准确度,提出基于Hadoop的分布式局部异常检测算法MRDINFLO。该算法在INFLuenced Outlierness(INFLO)算法的基础上,引入了MapReduce计算框架,将数据点的k近邻、k距离、反向k近邻、局部离群因子的计算并行化处理,从而提高了检测效率。算法在计算各个数据对象之间的距离时采用加权距离,通过引入信息熵来判断离群属性,给离群属性以较大的权重,从而提高了异常检测的准确度。实验在3节点Hadoop集群上进行,输入数据为KDD-CUP 99。当输入数据集大小为500万条时,所提出的MR-DINFLO算法检测准确度为0. 94,检测时间为2 589 s。实验结果表明该算法具有高效可行性。

关 键 词:异常检测  INFLuenced Outlierness  Hadoop  MapReduce  并行化  信息熵

Local outlier detection algorithm based on Hadoop
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号