共查询到17条相似文献,搜索用时 62 毫秒
1.
数据流挖掘算法研究综述 总被引:15,自引:3,他引:15
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。 相似文献
2.
一种自适应局部概念漂移的数据流分类算法 总被引:1,自引:0,他引:1
本文基于DB2算法提出一个能实时检测局部概念漂移,并随之自适应调整的数据流分类算法IncreDB2.该算法动态增量维护一个层次分类树.当局部概念漂移出现时,IncreDB2不是重新构造一个全新的分类树,而是仅更新漂移所影响到的局部结点,具有较高的时间效率.实验结果表明了该算法的正确性和有效性. 相似文献
3.
4.
传统分类器难以应对含概念漂移的复杂类型数据流分类这一难题,且得到的分类效果往往不尽如人意。针对不同类型数据流中处理概念漂移的方法,从不平衡、概念演化、多标签和含噪声4个方面对概念漂移复杂数据流分类方法进行了综述。首先,对基于块的和基于在线的学习方式对不平衡概念漂移数据流、基于聚类和基于模型的学习方式对概念演化概念漂移数据流、基于问题转换和基于算法适应的学习方式对多标签概念漂移数据流和含噪声概念漂移数据流这四个方面的分类方法进行了分析介绍;然后,对所提到概念漂移复杂数据流分类方法的实验结果及性能指标进行了详细的对比和分析;最后,给出了现有方法的不足和下一步研究方向。 相似文献
5.
挖掘带有概念漂移的数据流对于许多实时决策是十分重要的.本文使用统计学理论估计某一确定模型在最新概念上的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移,并将此方法和KMM(核平均匹配)算法引入集成分类器框架中,提出一种数据流分类的新算法WSEC.在仿真和真实数据流上的试验结果表明该算法是有效的. 相似文献
6.
数据流挖掘分类技术综述 总被引:7,自引:0,他引:7
数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类技术更是当前的研究热点.综述了当前国际上关于数据流挖掘分类算法的研究现状,并从数据平稳分布和带概念漂移两个方面对这些方法进行了系统的介绍与分析,最后对数据流挖掘分类技术当前所面临的问题和发展趋势进行了总结和展望. 相似文献
7.
重点研究了数据流分类挖掘中存在的概念漂移问题,并在CVFDT算法改进的基础上,提出了一种多重选择决策树算法mCVFDT.该算法将多重属性的选择机制加入到节点结构中,克服了CVFDT无法自动检测概念漂移的缺陷,同时避免了对决策树的重复遍历,提高了算法的分类精度和效率.实验结果证明该,算法随着样本数目的增加,在分类精度上比CVFDT算法有更好的表现. 相似文献
8.
9.
10.
上世纪末,为适应网络监控、入侵检测、情报分析、商业交易管理和分析等应用的要求,数据流技术应运而生。数据流独特的特点,对传统数据的处理方法带来了很大的挑战。介绍了数据流的有关概念及数据流挖掘的特点,讨论了数据流挖掘的研究现状。最后,举例说明了数据流挖掘的应用,并展望了数据流挖掘未来的研究方向。 相似文献
11.
12.
现有概念漂移处理算法在检测到概念漂移发生后,通常需要在新到概念上重新训练分类器,同时“遗忘”以往训练的分类器。在概念漂移发生初期,由于能够获取到的属于新到概念的样本较少,导致新建的分类器在短时间内无法得到充分训练,分类性能通常较差。进一步,现有的基于在线迁移学习的数据流分类算法仅能使用单个分类器的知识辅助新到概念进行学习,在历史概念与新到概念相似性较差时,分类模型的分类准确率不理想。针对以上问题,文中提出一种能够利用多个历史分类器知识的数据流分类算法——CMOL。CMOL算法采取分类器权重动态调节机制,根据分类器的权重对分类器池进行更新,使得分类器池能够尽可能地包含更多的概念。实验表明,相较于其他相关算法,CMOL算法能够在概念漂移发生时更快地适应新到概念,显示出更高的分类准确率。 相似文献
13.
随着通信技术和硬件设备的不断发展,尤其是小型无线传感设备的广泛应用,数据采集和生成技术变得越来越便捷和趋于自动化,研究人员正面临着如何管理和分析大规模动态数据集的问题。能够产生数据流的领域应用已经非常普通,例如传感器网络、金融证券管理、网络监控、Web日志以及通信数据在线分析等新型应用。这些应用的特征是环境配备有多个分布式计算节点;这些节点往往临近于数据源;分析和监控这种环境下的数据,往往需要对挖掘任务、数据分布、数据流入速率和挖掘方法有一定的了解。综述了分布式数据流挖掘的当前进展概况,并展望了未来可能的、潜在的专题研究方向。 相似文献
14.
We propose a particle filter‐based learning method, PF‐LR, for learning logistic regression models from evolving data streams. The method inherently handles concept drifts in a data stream and is able to learn an ensemble of logistic regression models with particle filtering. A key feature of PF‐LR is that in its resampling, step particles are sampled from the ones that maximize the classification accuracy on the current data batch. Our experiments show that PF‐LR gives good performance, even with relatively small batch sizes. It reacts to concept drifts quicker than conventional particle filters while being robust to noise. In addition, PF‐LR learns more accurate models and is more computationally efficient than the gradient descent method for learning logistic regression models. Furthermore, we evaluate PF‐LR on both synthetic and real data sets and find that PF‐LR outperforms some other state‐of‐the‐art streaming mining algorithms on most of the data sets tested. 相似文献
15.
由于在信用卡欺诈分析等领域的广泛应用,学者们开始关注概念漂移数据流分类问题.现有算法通常假设数据一旦分类后类标已知,利用所有待分类实例的真实类别来检测数据流是否发生概念漂移以及调整分类模型.然而,由于标记实例需要耗费大量的时间和精力,该解决方案在实际应用中无法实现.据此,提出一种基于KNNModel和增量贝叶斯的概念漂移检测算法KnnM-IB.新算法在具有KNNModel算法分类被模型簇覆盖的实例分类精度高、速度快优点的同时,利用增量贝叶斯算法对难处理样本进行分类,从而保证了分类效果.算法同时利用可变滑动窗口大小的变化以及主动学习标记的少量样本进行概念漂移检测.当数据流稳定时,半监督学习被用于扩大标记实例的数量以对模型进行更新,因而更符合实际应用的要求.实验结果表明,该方法能够在对数据流进行有效分类的同时检测数据流概念漂移及相应地更新模型. 相似文献
16.
一种基于时间衰减模型的数据流闭合模式挖掘方法 总被引:1,自引:0,他引:1
数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象。在一些数据流应用中,通常认为最新的数据具有最大的价值。数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式。因此,提出了一种基于时间衰减模型和闭合算子的数据流闭合模式挖掘方式TDMCS (Time-Decay-Model-based Closed frequent pattern mining on data Stream)。该算法采用时间衰减模型来区分滑动窗口内的历史和新近事务权重,使用闭合算子提高闭合模式挖掘的效率,设计使用最小支持度-最大误差率-衰减因子的三层架构避免概念漂移,设计一种均值衰减因子平衡算法的高查全率和高查准率。实验分析表明该算法适用于挖掘高密度、长模式的数据流;且具有较高的效率,在不同大小的滑动窗口条件下性能表现是稳态的,同时也优于其他同类算法。 相似文献
17.