一种基于混合模型的数据流概念漂移检测算法 |
| |
引用本文: | 郭躬德,李南,陈黎飞.一种基于混合模型的数据流概念漂移检测算法[J].计算机研究与发展,2014(4). |
| |
作者姓名: | 郭躬德 李南 陈黎飞 |
| |
作者单位: | 福建师范大学数学与计算机科学学院;网络安全与密码技术福建省高校重点实验室(福建师范大学); |
| |
基金项目: | 国家自然科学基金项目(61070062,61175123);福建省高校产学合作科技重大项目(2010H6007) |
| |
摘 要: | 由于在信用卡欺诈分析等领域的广泛应用,学者们开始关注概念漂移数据流分类问题.现有算法通常假设数据一旦分类后类标已知,利用所有待分类实例的真实类别来检测数据流是否发生概念漂移以及调整分类模型.然而,由于标记实例需要耗费大量的时间和精力,该解决方案在实际应用中无法实现.据此,提出一种基于KNNModel和增量贝叶斯的概念漂移检测算法KnnM-IB.新算法在具有KNNModel算法分类被模型簇覆盖的实例分类精度高、速度快优点的同时,利用增量贝叶斯算法对难处理样本进行分类,从而保证了分类效果.算法同时利用可变滑动窗口大小的变化以及主动学习标记的少量样本进行概念漂移检测.当数据流稳定时,半监督学习被用于扩大标记实例的数量以对模型进行更新,因而更符合实际应用的要求.实验结果表明,该方法能够在对数据流进行有效分类的同时检测数据流概念漂移及相应地更新模型.
|
关 键 词: | 概念漂移 数据流 分类 主动学习 半监督学习 |
本文献已被 CNKI 等数据库收录! |
|