首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
针对概念漂移数据流集成分类算法的基本概念、相关工作、适用范围及优缺点等方面进行具体阐述,重点分析突变型、渐变型、重复型和增量型集成分类算法,以及集成分类中的Bagging、Boosting、基分类器组合学习策略与在线学习、基于块的集成、增量学习关键技术,指出现阶段概念漂移数据流集成分类算法所需解决的主要问题,并对集成基分类器的动态更新与加权组合、多类型概念漂移的快速检测等研究方向进行分析和展望。  相似文献   

2.
详细介绍了国内外集成分类算法,对集成分类算法的两个部分(基分类器组合和动态更新集成模型)进行了详细综述,明确区分不同集成算法的优缺点,对比算法和实验数据集。并且提出进一步的研究方向和考虑的解决办法。  相似文献   

3.
概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成的不平衡数据流分类方法(incremental weighted ensemble for imbalance learning, IWEIL)。该方法以集成框架为基础,利用基于可变大小窗口的遗忘机制确定基分类器对窗口内最近若干实例的分类性能,并计算基分类器的权重,随着新实例的逐个到达,在线更新IWEIL中每个基分器及其权重。同时,使用改进的自适应最近邻SMOTE方法生成符合新概念的新少数类实例以解决数据流中类不平衡问题。在人工数据集和真实数据集上进行实验,结果表明,相比于DWMIL算法,IWEIL在HyperPlane数据集上的G-mean和recall指标分别提升了5.77%和6.28%,在Electricity数据集上两个指标分别提升了3.25%和6.47%。最后,IWEIL在安卓应用检测问题上表现良好。  相似文献   

4.
为构建更加有效的隐含概念漂移数据流分类器,依据不同数据特征对分类关键程度不同的理论,提出基于特征漂移的数据流集成分类方法(ECFD)。首先,给出了特征漂移的概念及其与概念漂移的关系;然后,利用互信息理论提出一种适合数据流的无监督特征选择技术(UFF),从而析取关键特征子集以检测特征漂移;最后,选用具有概念漂移处理能力的基础分类算法,在关键特征子集上建立异构集成分类器,该方法展示了一种隐含概念漂移高维数据流分类的新思路。大量实验结果显示,尤其在高维数据流中,该方法在精度、运行速度及可扩展性方面都有较好的表现。  相似文献   

5.
徐树良  王俊红 《计算机科学》2016,43(12):173-178
数据流挖掘已经成为数据挖掘领域一个热门的研究方向,由于数据流中概念漂移现象的存在,使得传统的分类算法无法直接应用于数据流中。为了能有效地应对数据流中的概念漂移,提出了一种基于Kappa系数的数据流分类算法。该算法采用集成式分类技术,以Kappa系数度量系统的分类性能,根据Kappa系数来动态地调整分类器,当发生概念漂移时,系统能利用已有的知识很快删除不符合要求的分类器来适应新概念。实验结果表明,相对于实验中参与比较的BWE,AE和AWE算法,该算法不但具有较好的分类性能,而且在一定程度上能较为有效地降低时间开销。  相似文献   

6.
一种面向周期性概念漂移的数据流分类算法   总被引:1,自引:0,他引:1  
数据流挖掘已在许多领域得到应用,概念漂移检测是数据流挖掘研究中的一个重点.目前关于数据流中的概念检测的研究虽然取得了很多成果,却没有充分考虑到数据流概念"周期性"出现的特点.针对周期性概念漂移的特点,提出了当"历史概念"重现时,利用对应的模型来对数据流进行分类的方法,从而减小模型更新的代价,加快分类预测的速度.实验证明这种方法提高了运行效率.  相似文献   

7.
李南 《计算机系统应用》2016,25(12):187-192
现有数据流分类算法大多使用有监督学习,而标记高速数据流上的样本需要很大的代价,因此缺乏实用性.针对以上问题,提出了一种低代价的数据流分类算法2SDC.新算法利用少量已标记类别的样本和大量未标记样本来训练和更新分类模型,并且动态监测数据流上可能发生的概念漂移.真实数据流上的实验表明,2SDC算法不仅具有和当前有监督学习分类算法相当的分类精度,并且能够自适应数据流上的概念漂移.  相似文献   

8.
9.
一种自适应局部概念漂移的数据流分类算法   总被引:1,自引:0,他引:1  
本文基于DB2算法提出一个能实时检测局部概念漂移,并随之自适应调整的数据流分类算法IncreDB2.该算法动态增量维护一个层次分类树.当局部概念漂移出现时,IncreDB2不是重新构造一个全新的分类树,而是仅更新漂移所影响到的局部结点,具有较高的时间效率.实验结果表明了该算法的正确性和有效性.  相似文献   

10.
袁泉  郭江帆 《计算机应用》2018,38(6):1591-1595
针对数据流中概念漂移和噪声问题,提出一种新型的增量式学习的数据流集成分类算法。首先,引入噪声过滤机制过滤噪声;然后,引入假设检验方法对概念漂移进行检测,以增量式C4.5决策树为基分类器构建加权集成模型;最后,实现增量式学习实例并随之动态更新分类模型。实验结果表明,该集成分类器对概念漂移的检测精度达到95%~97%,对数据流抗噪性保持在90%以上。该算法分类精度较高,且在检测概念漂移的准确性和抗噪性方面有较好的表现。  相似文献   

11.
面向高速数据流的集成分类器算法   总被引:1,自引:1,他引:0  
李南  郭躬德 《计算机应用》2012,32(3):629-633
数据流挖掘要求算法在占用少量内存空间的前提下快速地处理数据并且自适应概念漂移,据此提出一种面向高速数据流的集成分类器算法。该算法将原始数据流沿着时间轴划分为若干数据块后,在各个数据块上计算所有类别的中心点和对应的子空间;此后将各个数据块上每个类别的中心点和对应的子空间集成作为分类模型,并利用统计理论的相关知识检测概念漂移,动态地调整模型。实验结果表明,该方法能够在自适应数据流概念漂移的前提下对数据流进行快速的分类,并得到较好的分类效果。  相似文献   

12.
目前关于概念漂移数据流的分类研究已经取得了许多成果,但大部分没有充分考虑到数据流中概念重复出现的情况,这将耗费大量的计算和内存资源,增加了分类错误的可能性。为此,基于概念的重复性提出了一种数据流集成分类算法,该算法运用集成分类思想处理数据流中的概念漂移,但在学习过程中不会将暂时失效的概念及对应基分类器删除,而是把它们的基本信息存储起来,方便以后调用,并可根据概念间的转换关系预测即将到来的概念,在提高分类精度的同时又提高了时间效率。实验结果验证了算法的有效性。  相似文献   

13.
Vanessa  Michel  Jrme 《Neurocomputing》2009,72(16-18):3580
The classification of functional or high-dimensional data requires to select a reduced subset of features among the initial set, both to help fighting the curse of dimensionality and to help interpreting the problem and the model. The mutual information criterion may be used in that context, but it suffers from the difficulty of its estimation through a finite set of samples. Efficient estimators are not designed specifically to be applied in a classification context, and thus suffer from further drawbacks and difficulties. This paper presents an estimator of mutual information that is specifically designed for classification tasks, including multi-class ones. It is combined to a recently published stopping criterion in a traditional forward feature selection procedure. Experiments on both traditional benchmarks and on an industrial functional classification problem show the added value of this estimator.  相似文献   

14.
一种能够适应概念漂移变化的数据流分类方法   总被引:1,自引:0,他引:1  
目前多数的数据流分类方法都是基于数据稳定分布这一假设,忽略了真实数据在一段时间内会发生潜在概念性的变化,这可能会降低分类模型的预测精度.针对数据流的特性,提出一种能够识别并适应概念漂移发生的在线分类算法,实验表明它能根据目前概念漂移的状况,自动地调整训练窗口和模型重建期间新样本的个数.  相似文献   

15.
由于人类语言的复杂性,文本情感分类算法大多都存在因为冗余而造成的词汇量过大的问题。深度信念网络(DBN)通过学习输入语料中的有用信息以及它的几个隐藏层来解决这个问题。然而对于大型应用程序来说,DBN是一个耗时且计算代价昂贵的算法。针对这个问题,提出了一种半监督的情感分类算法,即基于特征选择和深度信念网络的文本情感分类算法(FSDBN)。首先使用特征选择方法(文档频率(DF)、信息增益(IG)、卡方统计(CHI)、互信息(MI))过滤掉一些不相关的特征从而使词汇表的复杂性降低;然后将特征选择的结果输入到DBN中,使得DBN的学习阶段更加高效。将所提算法应用到中文以及维吾尔语中,实验结果表明在酒店评论数据集上,FSDBN在准确率方面比DBN提高了1.6%,在训练时间上比DBN缩短一半。  相似文献   

16.
为了克服数据流概念漂移现象对分类模型的影响,提高数据流分类准确率,提出了一种基于概念漂移检测算法的数据流分类模型.针对不同概念漂移类型使用不同的方法进行检测,该模型通过对概念漂移进行监控,从而有效控制分类模型的更新频率,做到有的放矢地更新分类器模型,提高分类模型的分类性能.通过使用两种不同的数据集进行实验,并与传统分类模型进行比较,验证了该模型的有效性和正确性.  相似文献   

17.
Incremental learning has been developed for supervised classification, where knowledge is accumulated incrementally and represented in the learning process. However, labeling sufficient samples in each data chunk is of high cost, and incremental technologies are seldom discussed in the semi-supervised paradigm. In this paper we advance an Incremental Semi-Supervised classification approach via Self-Representative Selection (IS3RS) for data streams classification, by exploring both the labeled and unlabeled dynamic samples. An incremental self-representative data selection strategy is proposed to find the most representative exemplars from the sequential data chunk. These exemplars are incrementally labeled to expand the training set, and accumulate knowledge over time to benefit future prediction. Extensive experimental evaluations on some benchmarks have demonstrated the effectiveness of the proposed framework.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号