首页 | 本学科首页   官方微博 | 高级检索  
     

基于聚类分区的多维数据流概念漂移检测方法
引用本文:陈圆圆,王志海.基于聚类分区的多维数据流概念漂移检测方法[J].计算机科学,2022(7):25-30.
作者姓名:陈圆圆  王志海
作者单位:1. 北京交通大学计算机与信息技术学院;2. 北京交通大学交通数据分析与挖掘北京重点实验室
基金项目:国家自然科学基金(61771058)~~;
摘    要:对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容。然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战。检测数据分布的变化是一种直接且有效的概念漂移检测方法,目前,已有研究方法基于树型结构或网格结构建立直方图,实现对数据分布的描述,但是,此类方法在进行分布检测时容易产生检验盲点,其可解释性较差,并且在多维数据上的内存消耗较大。文中提出了一种基于等密度分区的概念漂移检测方法PUDC(Partition Based on Uniform Density Clusters),该方法基于改进的k-Means算法,对数据进行等密度分区,利用卡方检验对每个分区进行统计和计算,从而检测数据分布变化,以达到概念漂移检测的目的。为了验证方法的有效性,选取了4个人工数据集和3个真实数据集进行实验,对比分析了不同维度的数据下的I类错误率和II类错误率,实验结果表明,PUDC算法在多维数据流的概念漂移检测中相比几种较新的算法具有一定的优势。

关 键 词:数据流挖掘  概念漂移检测  k-Means  假设检验  直方图
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号