基于属性组权重的分类数据离群检测 |
| |
引用本文: | 张凯棋,宋亦静,陈鑫.基于属性组权重的分类数据离群检测[J].计算机技术与发展,2023(11):20-27. |
| |
作者姓名: | 张凯棋 宋亦静 陈鑫 |
| |
作者单位: | 太原科技大学计算机科学与技术学院 |
| |
摘 要: | 属性分组是高维离群检测中的有效手段之一,可以有效缓解“维度灾难”的干扰,但现有的属性分组离群检测方法未能体现属性组之间的差异性,以及属性组的偏离程度,严重影响了高维离群检测的效果与性能。该文采用信息熵累加和刻画与描述属性组之间的差异性,提出了一种基于属性组权重的分类离群检测方法。首先,根据数据模式频率和编码长度,定义了属性组偏离因子,并将其作为属性组之间的合并依据,有效地刻画了属性组的偏离程度,进一步提高了属性分组过程中的搜索效率;其次,利用信息熵累加和定义了属性组权重,有效地体现了不同属性组之间的差异性;然后,依据属性组权重,重新定义了离群得分函数,并提出了一种基于属性组权重的分类数据离群检测算法;最后,采用UCI,NTU,KEEL和人工合成数据集,实验验证了该离群检测算法不仅具有较高的检测精度和效率,而且也具有良好的可扩展性与伸缩性,可适用于高维海量分类属性数据集的离群检测任务。
|
关 键 词: | 离群检测 属性分组 分类数据 属性组权重 偏离因子 |
|
|