基于分类和回归树决策树的网络大数据集离群点动态检测算法 |
| |
引用本文: | 傅丽芳,陈卓,敖长林.基于分类和回归树决策树的网络大数据集离群点动态检测算法[J].吉林大学学报(工学版),2023(9):2620-2625. |
| |
作者姓名: | 傅丽芳 陈卓 敖长林 |
| |
作者单位: | 1. 东北农业大学理学院;2. 东北农业大学工程学院 |
| |
基金项目: | 国家自然科学基金项目(71874026); |
| |
摘 要: | 针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使用支持向量机建立异常数据样本关联规则矩阵,明确大数据集异常数据范围,并通过动态网格划分策略降低离群点检测计算量;然后,运用CART决策树方法在分支节点采取布尔检测,将待检测数据统一拟作连续数据,升序排列训练数据集,计算数据最高信息增益,剪枝决策树直到没有非叶子节点可被替换,得到离群点动态检测结果。仿真结果证明,本文算法离群点检测准确率高、检测耗时短,具备显著的计算优势,能为大数据集的可靠应用提供积极帮助。
|
关 键 词: | 分类和回归树决策树 大数据集 离群点检测 数据预处理 网格划分 基尼系数 |
|