首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于数据流模式表示的半懒惰式分类算法
引用本文:江晶晶,王志海,原继东. 一种基于数据流模式表示的半懒惰式分类算法[J]. 计算机科学, 2017, 44(7): 167-174, 202
作者姓名:江晶晶  王志海  原继东
作者单位:北京交通大学计算机与信息技术学院 北京100044交通数据分析与挖掘北京市重点实验室 北京100044,北京交通大学计算机与信息技术学院 北京100044交通数据分析与挖掘北京市重点实验室 北京100044,北京交通大学计算机与信息技术学院 北京100044交通数据分析与挖掘北京市重点实验室 北京100044
基金项目:本文受国家自然科学基金(61672086),北京市自然科学基金(4142042)资助
摘    要:依据从大规模数据中抽取的模式来建立分类模型是模式挖掘的重要研究问题之一。一种可行的方法是根据模式集合建立贝叶斯分类模型。然而,目前基于模式的贝叶斯分类模型大多是针对静态数据集合的,通常不能适应于高速动态变化与无限的数据流环境。对此,提出一种数据流环境下基于模式发现的贝叶斯分类学习模型,其采用半懒惰式学习策略,针对分类实例在不断更新的频繁项集合上建立局部的分类模型;为加快流数据处理的速度,提出了结构更为简单的混合树结构,同时提出了给定项限制的模式抽取机制以减少候选项集的生成;对数据流中模式抽取不完全的情况,使用平滑技术处理未被抽取的项。大量实验分析证明,相较于其他数据流分类器,所提模型具有更高的分类正确率。

关 键 词:数据流  频繁模式  贝叶斯  半懒惰式学习
收稿时间:2016-05-16
修稿时间:2016-09-30

Partially-lazy Learning Classification Algorithm Based on Representation of Data Stream Model
JIANG Jing-jing,WANG Zhi-hai and YUAN Ji-dong. Partially-lazy Learning Classification Algorithm Based on Representation of Data Stream Model[J]. Computer Science, 2017, 44(7): 167-174, 202
Authors:JIANG Jing-jing  WANG Zhi-hai  YUAN Ji-dong
Affiliation:School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China Beijing Key Lab of Traffic Data Analysis and Mining,Beijing 100044,China,School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China Beijing Key Lab of Traffic Data Analysis and Mining,Beijing 100044,China and School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China Beijing Key Lab of Traffic Data Analysis and Mining,Beijing 100044,China
Abstract:Utilizing patterns extracted from large scale data to build classification model is one of important research problems.Exploiting patterns to estimate Bayesian probability is a feasible approach.However,most of the existing pattern-based Bayesian classifiers aim at static data set,which cannot adapt to the dynamic data stream environment.A Bayesian classification model,named PBDS(Pattern-based Bayesian classifier for Data Stream),based on pattern discove-ry over data streams was proposed.PBDS constructs local model for unseen case based on continuously updated frequent item sets with partially-lazy learning method.To accelerate data processing,the simpler data structure,i.e.,hybrid trees structure was proposed,and pattern extracting mechanism was proposed to reduce the generation of candidate itemsets.Smoothing technique was used to handle incomplete itemset extraction in the data stream.Extensive experiments on real-world and synthetic data streams show that PBDS is more accurate than state-of-the-art data stream classifiers.
Keywords:Data stream  Frequent pattern  Bayesian  Partially-lazy learning
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号