首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
为了有效解决传统的数据分类算法不能很好的适应数据流的数据无限性和概念漂移性带来的问题,提出了一种实时的数据流的挖掘算法.贝叶斯数据流分类算法充分考虑了离散属性和连续属性的不同处理,对时间窗口内的数据进行压缩,然后根据各个时间窗口的权重,重组了压缩后的数据并在重组后的压缩数据上学习和生成了单个贝叶斯分类器.实验结果表明,该算法在分类性能、分类准确率、分类速度上优于同类算法.  相似文献   

2.
角点在目标识别分类中的应用   总被引:3,自引:0,他引:3  
本文描述了一种角点的形状分析方法。它选用相邻角点与形心所成直线之夹角,以及角点到形心之间的归一化距离作为特征,并证明了它们的平移、旋转和比例变化不变性。为了提高特征匹配的精度,本文采用动态分析的方法,将其应用于飞机目标识别之中。实验证明,这二组特征有较好的分类能力。  相似文献   

3.
提出一种基于贝叶斯的多窗口数据流分类模型BCCDSMW对数据流进行分类。BC-CDSMW对时间窗口内的数据进行压缩。只有少量样本被保存,其他样本只保存少量统计量,以便在有限的空间上尽可能多地利用有效历史数据。目的是在适应概念漂移的前提下,利用多个时间段的数据学习生成单个贝叶斯分类器,使其能准确地反映当前数据流地实际情况,并且该分类器能快速地对未来数据分类处理。  相似文献   

4.
详细介绍了国内外集成分类算法,对集成分类算法的两个部分(基分类器组合和动态更新集成模型)进行了详细综述,明确区分不同集成算法的优缺点,对比算法和实验数据集。并且提出进一步的研究方向和考虑的解决办法。  相似文献   

5.
数据流高速、连续无限和动态的特性使得传统的数据分析和挖掘技术无效或需要改进。以数据流分类为重点,分析了数据流分类中的一些关键问题,综述了典型的数据流分类技术;针对现有方法的不足,给出了应用主动学习和半监督学习的新思路。  相似文献   

6.
传统分类器难以应对含概念漂移的复杂类型数据流分类这一难题,且得到的分类效果往往不尽如人意。针对不同类型数据流中处理概念漂移的方法,从不平衡、概念演化、多标签和含噪声4个方面对概念漂移复杂数据流分类方法进行了综述。首先,对基于块的和基于在线的学习方式对不平衡概念漂移数据流、基于聚类和基于模型的学习方式对概念演化概念漂移数据流、基于问题转换和基于算法适应的学习方式对多标签概念漂移数据流和含噪声概念漂移数据流这四个方面的分类方法进行了分析介绍;然后,对所提到概念漂移复杂数据流分类方法的实验结果及性能指标进行了详细的对比和分析;最后,给出了现有方法的不足和下一步研究方向。  相似文献   

7.
数据流分类挖掘首先要面对概念变化问题。介绍了数据流分类中的概念变化的定义与类型,研究了概念变化的意义及应用,对目前数据流中处理概念变化的方法进行了综述。真实数据流常常含有大量的噪声,因此需要理解噪声与概念变化的区别。针对周期性数据流中概念重现现象,当"历史概念"重现时,利用特定的模型对数据流进行概念预测,可以减少模型更新的代价。  相似文献   

8.
近年来,数据流挖掘已成为知识发现领域中的一个研究热点.数据流中数据的无限性和概念漂移等特征使得传统的分类算法不能很好地适用于数据流环境.提出了一种基于eEP的分类器集成算法CEEPCE(classification by eEP-based classifiers ensemble)对数据流进行分类.CEEPCE使用eEP建立基分类器,当新数据块流入时训练新的分类器,并调整集成分类器中的基分类器.依据基分类器在新流入数据上的分类误差对其进行加权,集成权重最高的若干个基分类器来分类未来数据.实验表明,与单分类器相比,CEEPCE具有更好的分类准确率,并足以与以C4.5为基分类器的集成方法相媲美.  相似文献   

9.
数据流挖掘分类技术综述   总被引:7,自引:0,他引:7  
数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类技术更是当前的研究热点.综述了当前国际上关于数据流挖掘分类算法的研究现状,并从数据平稳分布和带概念漂移两个方面对这些方法进行了系统的介绍与分析,最后对数据流挖掘分类技术当前所面临的问题和发展趋势进行了总结和展望.  相似文献   

10.
对数据流分类分析的常用方法是集成学习。为了得到更好的分类效果,给出一种基于堆叠集成的数据流分类分析方法。该方法通过构造一个分类器对基分类器进行集成。实验结果表明,与基于投票或加权投票的集成方法相比,基于堆叠集成方法对概念漂移的快速适应能力以及预测准确率得到了提高。  相似文献   

11.
随着科学技术发展的不断进步,静态数据上的分类技术已不能满足现实情况的需要了。大量的数据都是以数据流的形式出现,本文对这种新数据形式下的分类算法进行了一个综述。所描述的主要算法有:集合分类器、基于需求的数据流分类算法、最近邻数据流分类算法、快速决策树算法。通过学习研究和实验对比结果发现,这些数据流上的分类算法性能完全超过了传统的分类算法。  相似文献   

12.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。  相似文献   

13.
李南 《计算机系统应用》2016,25(12):187-192
现有数据流分类算法大多使用有监督学习,而标记高速数据流上的样本需要很大的代价,因此缺乏实用性.针对以上问题,提出了一种低代价的数据流分类算法2SDC.新算法利用少量已标记类别的样本和大量未标记样本来训练和更新分类模型,并且动态监测数据流上可能发生的概念漂移.真实数据流上的实验表明,2SDC算法不仅具有和当前有监督学习分类算法相当的分类精度,并且能够自适应数据流上的概念漂移.  相似文献   

14.
为了平衡隐含概念漂移的数据流分类算法的分类精度和效率之间的矛盾,提出了基于聚类决策树的框架来处理快速到达的数据流,通过将不能实时分类的数据预聚类成n个类,并基于聚类结果产生VFDT新分支或替代原有分支。实验结果证明,聚类决策树框架算法在预测精度和效率上均有一定的提升。  相似文献   

15.
基于多分类-关联规则的数据流分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于多分类-关联规则的数据流分类算法——SCMAR,通过改进CMAR算法中FP-tree的建立过程,使FP-tree的时间和空间效率得到提高。利用Hoeffding 边界使算法能挖掘并维护数据流中所有的频繁规则,用CR-tree存放挖掘出的规则,为每条规则存放统计信息,使分类时能够对各个规则进行评价,选择适当的规则进行分类。理论分析和实验表明,该算法是有效可行的。  相似文献   

16.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

17.
基于子空间集成的概念漂移数据流分类算法   总被引:2,自引:2,他引:2  
具有概念漂移的复杂结构数据流分类问题已成为数据挖掘领域研究的热点之一。提出了一种新颖的子空间分类算法,并采用层次结构将其构成集成分类器用于解决带概念漂移的数据流的分类问题。在将数据流划分为数据块后,在每个数据块上利用子空间分类算法建立若干个底层分类器,然后由这几个底层分类器组成集成分类模型的基分类器。同时,引入数理统计中的参数估计方法检测概念漂移,动态调整模型。实验结果表明:该子空间集成算法不但能够提高分类模型对复杂类别结构数据流的分类精度,而且还能够快速适应概念漂移的情况。  相似文献   

18.
由于数据流不同于传统静态数据的特点,对其进行有效的分析和挖掘遇到了极大的挑战。本文对近年来数据流挖掘方面的进展进行了综述,介绍数据流的基本概念、数据流模型和对数据流的概要描述,总结数据流挖掘中常用的算法,最后结合其在不同领域中的应用对数据流挖掘的意义进行分析。  相似文献   

19.
互联网环境日新月异,使得网络数据流中存在概念漂移,对数据流的分类也由传统的静态分类变为动态分类,而如何对概念漂移进行检测是动态分类的关键.本文提出一种基于概念漂移检测的网络数据流自适应分类算法,通过比较滑动窗口中数据与历史数据的分布差异来检测概念漂移,然后将窗口中数据过采样来减少样本间的不均衡性,最后将处理后的数据集输...  相似文献   

20.
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提出一种基于Spark的分布式快速短文本数据流分类方法。一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率。在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号