首页 | 本学科首页   官方微博 | 高级检索  
     

非平衡数据流在线主动学习方法
引用本文:李艳红, 任霖, 王素格, 李德玉. 非平衡数据流在线主动学习方法. 自动化学报, 2024, 50(7): 1389−1401 doi: 10.16383/j.aas.c211246
作者姓名:李艳红  任霖  王素格  李德玉
作者单位:1.山西大学计算机与信息技术学院 太原 030006;;2.山西大学计算智能与中文信息处理教育部重点实验室 太原 030006
基金项目:国家自然科学基金(62076158, 62072294, 41871286), 山西省重点研发计划(201903D421041)资助
摘    要:
数据流分类是数据流挖掘领域一项重要研究任务, 目标是从不断变化的海量数据中捕获变化的类结构. 目前, 几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题. 基于此, 提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream, OALM-IDS). AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法, AdaBoost.M2引入了弱分类器的置信度, 此类方法常用于静态数据.
定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量, 从而使AdaBoost.M2方法适用于非平衡数据流, 提升了非平衡数据流集成分类器的性能. 提出了边际阈值矩阵的自适应调整方法, 优化了标签请求策略. 将概念漂移程度融入模型构建过程中, 定义了基于概念漂移指数的自适应遗忘因子, 实现了漂移后的模型重构. 在6个人工数据流和4个真实数据流上的对比实验表明, 提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法.


关 键 词:主动学习   数据流分类   多类非平衡   概念漂移
收稿时间:2021-12-29
点击此处可从《自动化学报》浏览原始摘要信息
点击此处可从《自动化学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号