首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
针对带有概念漂移的数据流的分类问题,提出一种新颖的能够识别并且适应概念漂移数据流的分类算法。该算法将原始数据流沿着时间轴划分为若干数据块后,选择第一块中有代表性的数据作为样本训练模型,从而减轻了噪声和边界对分类精度的影响,使得漂移检测能较为全面且对离群点不过于敏感;此后对随后的数据块进行分类,并依据分类结果动态修正当前分类模型。实验结果表明:该方法能够根据数据流的当前状况自动调整分类模型,快速适应数据流概念漂移的情况,并得到较好的分类效果。  相似文献   

2.
概念漂移是数据流挖掘中具有挑战性的问题.当概念漂移发生后,原有分类模型的分类正确率会显著下降,因此需要及时发现并调整模型以适应这些改变.概念重现是概念漂移的特殊情况,然而已有的算法大多未能充分考虑这种状况.为此,提出一种能够处理重现的概念检测方法.试验结果表明,该方法能够以较低的延迟和较低的误报率检测到概念漂移,并且可以识别重现的概念,很大程度上提升了分类器的分类正确率.  相似文献   

3.
文章针对概念漂移检测分类器很难维持较高的分类性能,存在错误检测和延迟检测等问题,提出了一种基于信息熵的概念漂移检测算法。首先,使用信息熵对动态数据流中的概念漂移进行检测;然后,将检测到的概念漂移信息,在概念池中进行汇总和统计;最后,使用了两种公开的真实数据和一种人造概念漂移数据进行实验,并对实验结果进行分析,验证了模型的有效性和正确性。实验结果表明,该算法可以有效地检测概念漂移和更新分类器,同时表现出较好的分类性能。  相似文献   

4.
为了解决复杂工业过程中的概念漂移问题,提高集成学习模型的泛化性能,在保证集成学习模型精度的基础上,提出了一种用于优化多样性的基学习器在线动态选择集成建模方法.该方法以在线极限学习机作为基学习器,按照基学习器在滑动窗口上的分类精度对其进行逆序排序,将基学习器在滑动窗口上的其他性能指标作为特征属性,依次利用近似线性依靠条件挑选出准确且多样的基学习器用于集成输出,提高了集成学习模型在处理概念漂移数据流时的分类精度.最后,使用合成数据集和公开数据集验证了所提算法的合理性与有效性.  相似文献   

5.
为了解决复杂工业过程的概念漂移问题,提高集成学习模型的泛化性能,基于分组遗传算法,提出一种用于提升基学习器间多样性的建模方法.该方法以在线极限学习机作为基学习器,根据基学习器在滑动窗口上的性能对其进行分组,并执行进化操作,同时引入基因流概念,增加了基学习器间的多样性,提高了集成算法在处理概念漂移数据流时的预测性能.最后使用合成数据集和真实数据集验证了所提算法的合理性与有效性.  相似文献   

6.
鉴于在数据流中无法一次性收集完整的训练集,同时数据可能会处于不平衡状态并夹杂概念漂移而影响分类性能,提出一种在线动态集成选择的不平衡漂移数据流Boosting分类算法。该算法采用多种平衡措施,使用泊松分布对数据流进行重采样,如果数据处于高度不平衡状态则采用存储少数类的窗口进行二次采样以达到当前数据平衡。为了提高算法的处理效率,提出分类器选择集成策略动态调整分类器数目,算法运行过程使用自适应窗口检测器检测概念漂移。试验结果表明,该算法在一定程度上提高了少数类的真阳性率和运行效率,可以对带有概念漂移的不平衡数据流有较好的分类性能。  相似文献   

7.
针对现有的大多数数据流集成分类算法对分类器的评估时未考虑历史数据的重要性,同时忽略对无关属性和噪声属性干扰的处理等问题,提出一种基于深度属性加权的数据流自适应集成分类算法,旨在有效组合多个基于深度属性加权的朴素贝叶斯模型。通过在不同数据块中深入分析不同属性取值对类属性归属的贡献,并将学习到的局部属性权重作用于不同的属性取值,以降低噪声数据干扰。在评价基分类器时,权衡历史数据和当前最新数据的重要性;采用基于测试实例的分类器置信度和分类正确率权重的组合投票策略进行子分类器组合以提高整体分类性能。通过在多个基准数据集上与经典算法对比试验,本研究算法在分类正确率和概念漂移适应性上具有一定优势。  相似文献   

8.
针对隐含概念漂移和噪声的数据流,提出一种基于模糊积分融合的数据流分类方法(fuzzy integral ensemble classifiers for mining data streams, FI-MDS)。将模糊积分融合方法与集成综合技术有效结合起来,首先通过基分类器对识别样例进行分类得到决策剖面,然后再用模糊积分融合方法得到最终的分类结果,同时引入动态权值更新以提高算法的适应性。实验结果表明,与传统的数据流分类算法相比,该方法提高了概念漂移的检测精度,有效地解决了数据流中复杂分类问题,具有良好的分类性和健壮性。  相似文献   

9.
入侵检测数据流具有偏斜分布以及概念漂移的特点,其样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类,使得检测正确率不高,对此,文中提出了一种单分类器集成的入侵检测方法,该方法在使用k-means聚类算法调整数据分布的基础上,用区间估计结合AUC的值检查概念漂移并更新分类器.实验结果表明,在处理偏斜数据流上优于均值、乘法规则、最大值三种分类处理方法,并具有较高的入侵检测率.  相似文献   

10.
模糊数据流的分类问题大多从模糊数据流中提取典型的特征来进行分类,没有考虑到概念漂移及非平衡问题。基于此,从模糊粒度神经元入手,构建了进化粒度神经网络的多层次拓扑结构。采用了模糊神经元的信息聚集规则,提出了进化粒度神经网络的模糊编码方法与快速进化原理。运用梯形隶属函数对进化粒度神经元的聚集和模糊推理功能进行递归,通过关联函数和核函数来评估奇异逼近与粒度的近似结果,并以进化迭代和半监督分类方法解决了模糊数据流中的概念漂移及非平衡问题,从而实现了对模糊数据流的有效分类,仿真结果也证明了该方法的有效性。  相似文献   

11.
为了扩展支持向量机在大规模数据集和成批出现数据领域的应用,提出了一种基于支持向量机的增量式学习算法.利用标准的支持向量机算法训练得到初始的目标概念,通过增量式步骤不断更新初始的目标概念.更新模型是求解一个与标准支持向量机具有类似的数学形式的凸二次规划问题.证明了在可分情况下,如果新增加的样本不是位于边界区,那么增量式过程既不会改变分类平面也不会改变分类平面的表达.与现有的增量式支持向量机算法相比,该算法无需额外计算就可实现增量式的逆过程并且训练时间与增量式步骤数成反比.实验结果表明,该算法满足稳定性、能够不断改进性能以及性能回复三个准则.  相似文献   

12.
在多示例学习中,当训练样本数量不充足或者训练样本中存在噪声信息时,分类器的分类性能将降低.针对该问题,本文提出了一种基于抗噪声的多任务多示例学习算法.一方面,针对训练样本中可能存在的噪声问题,该算法赋予包中示例不同的权值,通过迭代更新权值来降低噪声数据对预测结果的影响.另一方面,针对训练样本数量不充足问题,该算法运用多任务学习策略,通过同时训练多个学习任务,利用任务间的关联性来提高各个分类任务的预测性能.实验结果证明,与现有的分类算法相比,该方法在相同的实验条件下具有更优秀的性能.  相似文献   

13.
业务流程预测性监控是过程管理的重要内容,已有的研究大部分是基于显式的工作流模型进行预测.但是在实际应用中,企业可能并没有对整个过程实施端到端的工作流建模和管理,或者由于权限原因只能够获得部分执行日志,难以基于完整的业务流程模型进行预测,对此,提出了一种基于频繁活动集的序列编码处理日志中的低频活动,并通过搜寻历史相似数据进行预测的方法.该方法能够随着日志的更新适应由于概念漂移导致的模型改变.在真实的数据集上进行的实验结果验证了算法的有效性.  相似文献   

14.
为满足皮纳卫星高维遥测数据的实时、自动化、抗概念漂移等处理要求,提出一种基于聚类的遥测数据异常检测方法,包括子空间搜索和两阶段遥测数据聚类处理两部分.子空间搜索,通过熵值实现所有遥测数据低维子空间划分,降低计算复杂度,避免"维度灾难"的发生;两阶段遥测数据聚类处理,在线阶段通过网格索引实时发现单点异常,离线阶段通过聚类挖掘数据的集体异常及其特征,满足快速异常检测和复杂异常检测两种需求,并通过正常状态数据的迭代更新和算法的自适应修改,抵抗概念漂移.ZDPS-1A卫星历史遥测数据的分析结果表明,皮纳卫星遥测数据异常检测聚类方法在线阶段能实时处理10 kHz的流量数据,发现95%的单点异常,满足皮纳卫星实时遥测数据异常检测的一般需求;算法自适应了卫星快速转动导致的数据漂移,维持了稳定的单簇形态;同时相比原边界检查系统早一个月检测出姿态确定与控制系统中程序跑飞引起的太阳敏感器数据紊乱故障.所提出的算法针对性解决了高维、存在概念漂移的遥测数据异常检测问题,能实时检测单点异常,具有集体异常挖掘能力,适用于皮纳卫星星座组网的地面监控系统.  相似文献   

15.
为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升.  相似文献   

16.
针对现有的数据流聚类算法不能在线实时生成用户需要的聚类结果问题,提出一种基于滑动窗口的数据流在线聚类算法.该算法采用密度网格存储结构,实现了数据流的在线聚类过程,能实时地向用户提供聚类结果,动态地检测数据流的进化情况.实验结果表明,该方法具有快速在线聚类能力,并能保证良好的聚类质量.  相似文献   

17.
为解决反馈型两级交换结构(FTSA)对调度算法的时间限制问题,提出了一种脉动反馈型两级交换结构(PFTSA).PFTSA将调度算法所需信息以脉动的形式反馈至输入端口,通过预处理机制使调度算法获得目标缓存的准确信息,从而避免信元冲突和信元失序.相对于现有方案,PFTSA简化了交换结构和交换流程,同时提高了时延性能.  相似文献   

18.
针对现有的支持向量机(SVM)不具有多分辨率学习的特点,提出一种新的小波框架的多尺度支持向量机(SVM)的模糊小波网络(FWN)算法.将小波多尺度学习和模糊推理方法相结合,由于FWN对应着多个模糊规则,而每个模糊规则的后件对应一个小波网络,解决了模糊规则后件难以描述的问题;对高维输入的小波网络的初始参数和网络结构的确定困难问题,用基于正交小波框架的支持向量机代替小波网络的方法,使FWN模型具有更好的泛化性能;为了提高FWN模型的逼近精度,使用梯度下降方法调节FWN参数.仿真结果表明,与传统的模糊神经网络(FNN)相比,该方法能显著地提高分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号