首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window, CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能.  相似文献   

2.
随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域.与传统静态数据相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.同时数据流的隐含分布变化会带来概念漂移问题.为了适应大数据环境下流数据分类算法的要求,必须对传统的静态离线数据分类算法进行改进,提出基于分布式计算平台Storm的P-HT并行化算法.算法在满足Storm流处理平台要求基础上,通过滑动窗口机制、替代子树机制和并行化处理,提高了算法的灵活性和通用性,并且能良好地适应数据流的概念漂移.最后通过实验验证该算法的有效性和高效性,结果表明在与传统C4.5算法相比精度没有降低的情况下,改进的P-HT算法具有更大的吞吐量和更快的处理速度.  相似文献   

3.
在许多现实应用中,数据以一种特征演化流的形式收集.例如,随着传感器的更换,由旧传感器收集的数据特征会消失,新传感器收集的数据特征会出现.在线被动-主动算法已被证明可以有效地从具有固定特征空间和梯形特征空间的数据集中学习线性分类器.因此,提出了一种基于被动-主动更新策略的特征演化学习算法(passive-aggressive learning with feature evolvable streams, PAFE).该算法通过主动-被动更新策略从当前特征空间和被恢复的已消失特征空间中学习了2个模型.具体来说,在重叠时段,即新旧特征同时存在的时段,该算法用新特征恢复了消失的特征空间,同时用旧特征空间模拟了新特征空间,进而为新特征空间的模型学习提供合理的初始化.基于这2个模型,为提高算法整体性能提出了2个集成算法:组合预测和当前最优预测.在合成数据集和真实数据集上的实验结果验证了该算法的有效性.  相似文献   

4.
在数据流上建立有效的分类模型具有许多应用.流数据的动态性给业界提出了两个关键问题:如何监测数据流的变化;一旦发生显著变化,如何高效地组织足够的训练数据,调整无效的模型.提出了一个基于半监督学习的分类算法,较好地解决了这些问题.设计了一种识别显著变化的可靠方法;提出了一个基于naive Bayes的EM算法,利用较少的类标数据来扩大训练数据集,从而极大地降低类标数据的需求量.基于新的训练数据可以构建一个有效的分类器.实验结果证明了算法的优势.  相似文献   

5.
近年来,深度学习模型在众多领域取得了广泛成功.现有的深度学习模型大多部署在静态环境下,依赖提前收集好的数据集进行离线训练,模型一经确定,便无法进一步更新.然而,现实中开放动态的环境往往存在以流形式不断到来的数据,包括随时间演进不断产生的新类别数据.因此,理想的机器学习模型应能够从流式数据中不断学习新类,从而增强自身的判别能力.这样的学习范式被称作“类别增量学习”(class-incremental learning),且近年来已成为机器学习领域的研究热点.面对流式数据,直接使用新类别样本训练模型会使其遗忘旧类别的数据,造成整体性能的下降.因此,设计增量学习模型时,需确保模型在学习新类的同时也能够抵抗灾难性遗忘.本文从机器学习的三个重要方面(数据层面、参数层面、算法层面)着眼,总结和归纳近几年基于深度学习的类别增量学习算法.此外,本文还在基准数据集上对10种典型算法进行了实验验证,并从中总结出适应类别增量学习的一般性规律.最后,本文对基于深度学习的类别增量学习算法目前存在的挑战加以分析,并展望未来的发展趋势.  相似文献   

6.
概率粗糙集三支决策是不确定问题求解的一种重要理论,流计算模式是一种新型的动态内存计算形式,实施流计算模式下三支决策的快速动态计算是一项具有挑战性的新议题。本研究以流计算模式中的两个核心计算步骤即动态增量与动态减量作为研究对象,提出了一种流计算模式下概率粗糙集三支决策域的快速动态学习方法。首先对流计算模式中三支决策动态增量和动态减量的不同变化情况进行了数据建模。然后基于不同数据变化情况分别讨论了数据增量与数据减量时三支决策域的变化推理,并且基于上述理论给出了流计算模式下的三支决策动态增减学习算法。该算法能够以更低的时间复杂度获得与经典三支决策算法相同决策效果。最后通过八种UCI数据集的实验证明了流计算模式下三支决策动态增减学习算法在时间消耗上明显优于经典概率粗糙集三支决策算法,并且在不同阈值下具有稳定的决策效率。本研究表明了流计算模式下三支决策快速计算是可行的。  相似文献   

7.
面向流数据分类的在线学习综述   总被引:1,自引:0,他引:1  
翟婷婷  高阳  朱俊武 《软件学报》2020,31(4):912-931
流数据分类旨在从连续不断到达的流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术,是流数据分类的有效工具.主要从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法,然后着重介绍在线学习算法在一般流数据上的工作现状,在高维流数据上解决"维度诅咒"问题的工作现状,以及在演化流数据上处理"概念漂移"问题的工作现状,最后讨论高维和演化流数据分类未来仍然存在的挑战和亟待研究的方向.  相似文献   

8.
为提高流测量系统的运行效率,减小其所消耗资源,提出了一种新的用于测量流长度分布的估计方法。对到达的报文进行抽样后,用两个哈希函数来确定更新相应计数单元的值,定期收集计数空间中的数据进行离线处理。利用EM算法和最小二乘法,得到了流长度分布。通过应用于来自不同网络的数据进行实验测试,实验结果表明该模型对于流分布的估计是精确的。  相似文献   

9.

针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept drift based on online ensemble,AC_OE). 一方面,该方法利用在线集成策略构建在线集成学习器,对数据块中的训练样本进行局部预测以动态调整学习器权重,有助于深入提取漂移位点附近流数据的演化信息,对数据分布变化进行精准响应,提升在线学习模型对概念漂移发生后新数据分布的适应能力,提高学习模型的实时泛化性能;另一方面,利用增量学习策略构建增量学习器,并随新样本的进入进行增量式的训练更新,提取流数据的全局分布信息,使模型在平稳的流数据状态下保持较好的鲁棒性. 实验结果表明,该方法能够对概念漂移做出及时响应并加速在线学习模型的收敛速度,同时有效提高学习器的整体泛化性能.

  相似文献   

10.
在文本流数据中,文本文档以流的形式源源不断地进入系统,数据量大和数据更新速度快给文本流话题发现与追踪提出了严峻的挑战。为了应对上述困难,本文提出了一种基于联合矩阵分解的话题发现与追踪模型。为了有效地处理海量数据,将流数据按照时间戳划分为数据块;为了能在数据的快速变化中追踪到话题的演化,将当前时刻的话题分布表示为前一时刻话题分布的线性演化。本文采用联合矩阵分解技术将当前的数据块分别表示为当前的话题分布和前一时刻的话题分布两种形式,通过同时分解两个矩阵得到当前的话题分布。在优化求解过程中,通过Karush-Kuhn-Tucker条件分析得到参数的更新策略,并给出相应的求解算法。Yahoo数据集对比实验表明,本文提出的话题发现算法能更好的发现文本流中蕴含的话题分布情况,并且可以随着时间的推移对话题的演化进行追踪。  相似文献   

11.

线性赌博机模型是在线学习的基本模型之一,其每个摇臂的平均奖赏可以由线性函数进行参数化. 该模型具有坚实的理论保证和良好的实际建模能力,被广泛应用于各个场景. 然而在一些现实场景中,数据通常是从开放动态环境中收集得到,因而会存在数据不规范的问题,已有算法缺乏对此的稳健性. 特别关注2类数据的不规范性:奖励函数的回归参数可能随时间变化,环境噪声可能无界,甚至不服从亚高斯分布. 这2类问题分别被称为分布变化和重尾噪声. 为了应对这2类不利因素, 提出一种基于置信上界的在线算法, 该算法使用均值中位数估计器以处理潜在的重尾噪声,同时采用重启机制来解决分布变化问题. 在理论上,首先建立了问题的遗憾理论下界, 进一步给出了算法的理论保障, 所取得的结果可以回退到已有研究中没有分布变化或没有重尾噪声场景线性赌博机的理论结果. 此外,针对未知环境设计了实用的在线集成适应技术,并在合成和真实世界的数据集上进行了广泛的实验来验证其有效性.

  相似文献   

12.
通过对SDN流表更新的研究,发现了网络流量高峰期流表更新不及时的问题。提出了一种基于预测与动态调整负载因子的SDN流表优化算法。算法首先收集每个单位时间内的新增流条目,然后用二次移动平均算法对收集的历史数据进行分析,并估计下一个单位时间内新增的流条目,最终根据负载因子动态调整交换机流表中流条目的停滞超时时间。实验结果表明,该算法提高了流表匹配率和数据成功转发率,增加了活动流表项的数量。  相似文献   

13.
RFID数据流随着时间而不断变化,捕捉其中蕴含的变化可以用于检测有意义事件的发生.提出了一种捕获数据流事件的算法--CECD,通过分析聚类结果分布变化和值域中产生的偏差检测数据流中蕴含的变化,同时采用组合分类技术对变化进行分类,捕获观察到的事件或现象的特性,建立事件与响应的映射关系.实验证明提出的框架可以高效检测数据流上的变化,与不借助变化检测的单纯基于规则的事件检测方法相比可以更准确地捕获事件.  相似文献   

14.
密度估计在许多流数据决策系统中都有重要的意义。本文考虑了最近数据的重要性.利用核心密度估计方法,提出了一种适合流数据特点的密度估计算法。该算法利用远远小于数据长度的内存,通过对流数据进行窗口划分,为单个窗口保留少量的分布信息,再综合这些窗口信息,从而实时评估流数据的密度分布。理论和实验证明.该算法是快速有效的。  相似文献   

15.
张杰  赵峰 《控制与决策》2013,28(1):29-35
鉴于流数据具有实时、连续、有序和无限等特点,使用近似方法便可检测连续分时段的流数据序列,基于此,运用目标分布数据,结合相似分布理论,提出了利用 Tr-OEM 算法对流数据中的概念漂移现象进行检测.该算法能够动态地判断流数据概念漂移的发生,自适应地优化概念漂移的检测值,适用于不同类型的流数据.通过分析和实验仿真可以表明,该算法在处理流数据概念漂移时具有较好的适应性.  相似文献   

16.

在现实应用中,数据通常以流的形式不断积聚,数据的特征可能随时间而演变. 例如,在环境监测任务中,由于旧传感器达到使用寿命和新传感器的部署,数据特征可能会动态地消失或增加. 此外,除了可演变的特征空间,数据标记可能存在噪声. 当特征空间演变和数据标记带噪同时发生时,设计具有理论保障的学习算法,尤其是具备对算法泛化能力的理解是非常具有挑战性的. 为了应对这一挑战,提出了一种在特征演变环境中针对标记带噪数据的差异度量方法,称为容忍标记噪声的演变差异. 该差异度量启发了泛化误差分析,并根据泛化误差的理论分析设计了一种基于深度神经网络实现的学习算法. 合成数据上的实证研究验证了所提差异度量的合理性,而在现实应用任务上的实验则验证了所提算法的有效性.

  相似文献   

17.
基于集成的流形学习可视化   总被引:14,自引:0,他引:14  
流形学习有助于发现数据的内在分布和几何结构.目前已有的流形学习算法对噪音和算法参数都比较敏感,噪音使得输入参数更加难以选择,参数较小的变化会导致差异显著的学习结果.针对Isomap这一流形学习算法,提出了一种新方法,通过引入集成学习技术,扩大了可以产生有效可视化结果的输入参数范围,并且降低了对噪音的敏感性.  相似文献   

18.
集成多个传感器的智能片上系统( SoC)在物联网得到了广泛的应用.在融合多个传感器数据的分类算法方面,传统的支持向量机( SVM)单分类器不能直接对传感器数据流进行小样本增量学习.针对上述问题,提出一种基于Bagging-SVM的集成增量算法,该算法通过在增量数据中采用Bootstrap方式抽取训练集,构造能够反映新信息变化的集成分类器,然后将新老分类器集成,实现集成增量学习.实验结果表明:该算法相比SVM单分类器能够有效降低分类误差,提高分类准确率,且具有较好的泛化能力,可以满足当下智能传感器系统基于小样本数据流的在线学习需求.  相似文献   

19.
丁智国  莫毓昌  杨凡 《计算机科学》2016,43(10):63-65, 80
流数据的海量、无限、分布动态变化且不均衡等特征使得对流数据的在线异常检测成为当前一个研究热点。分析了异常数据的少而不同且更容易通过随机空间的分割而孤立出来的特征,基于在线集成学习理论,提出了一种基于隔离森林的在线流数据异常检测算法。在4个UCI标准数据集上的实验结果表明提出的方法有效。  相似文献   

20.
张振宇  杨健 《自动化学报》2023,49(7):1446-1455
双目深度估计的在线适应是一个有挑战性的问题, 其要求模型能够在不断变化的目标场景中在线连续地自我调整并适应于当前环境. 为处理该问题, 提出一种新的在线元学习适应算法(Online meta-learning model with adaptation, OMLA), 其贡献主要体现在两方面: 首先引入在线特征对齐方法处理目标域和源域特征的分布偏差, 以减少数据域转移的影响; 然后利用在线元学习方法调整特征对齐过程和网络权重, 使模型实现快速收敛. 此外, 提出一种新的基于元学习的预训练方法, 以获得适用于在线学习场景的深度网络参数. 相关实验分析表明, OMLA和元学习预训练算法均能帮助模型快速适应于新场景, 在KITTI数据集上的实验对比表明, 本文方法的效果超越了当前最佳的在线适应算法, 接近甚至优于在目标域离线训练的理想模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号