首页 | 本学科首页   官方微博 | 高级检索  
     

基于HDFS的海量日志数据冗余点过滤算法仿真
引用本文:贾文钢,高锦涛.基于HDFS的海量日志数据冗余点过滤算法仿真[J].计算机仿真,2021,38(12):241-244,249.
作者姓名:贾文钢  高锦涛
作者单位:内蒙古工业大学信息工程学院,内蒙古 呼和浩特010051;内蒙古特种设备检验院,内蒙古 呼和浩特010051
摘    要:利用当前算法滤除数据冗余点时,缺少对数据冗余点特征的提取、分类处理过程,导致滤除效率差、准确率低、存储开销过大.于是设计了基于HDFS的海量日志数据冗余点过滤算法.引入HDFS体系架构,利用数据采样时间序列获取数据冗余点的特征,并进行分类处理,提升冗余点的滤除效率;计算滤除前含有冗余特征的数据字节数与普通字节数之比的缩减率、误判率,减少存储开销量;为提高准确率、消除性能,采用相似度概念,根据冗余点的突出特征计算整体相似度,再通过均值漂移传递函数实现对数据冗余点的滤除.实验结果表明:上述算法滤出效率更好、准确率更高、存储开销量更小.

关 键 词:数据冗余点  冗余特征  缩减率计算  均值漂移传递函数

Simulation of Redundant Point Filtering Algorithm for Mass Log Data Based on HDFS
JIA Wen-gang,GAO Jin-tao.Simulation of Redundant Point Filtering Algorithm for Mass Log Data Based on HDFS[J].Computer Simulation,2021,38(12):241-244,249.
Authors:JIA Wen-gang  GAO Jin-tao
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号