首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
针对数据流中出现的概念漂移问题,采用决策树作为分类器,提出一种基于相对熵的数据流概念漂移检测算法。提出的算法将分类器的准确率与相对熵作为判断该数据块是否发生概念漂移的标准。通过5个数据集对该方法进行验证,该算法在其中4个数据集上都获得了最优的结果,在另一个数据集上获得了次优结果。实验结果表明采用该方法不仅能够有效地检测概念漂移的发生,而且还能提高分类器的准确率。  相似文献   

2.
针对数据流中的概念漂移检测存在错误检测、延迟检测等问题,提出了一种基于交叠数据窗距离测度的在线概念漂移检测方法。通过将数据流划分成大小相等且交叠的数据窗并计算相邻交叠数据窗异构欧氏距离,同时利用近邻原则判别数据窗中样本不一致程度,从而实现分布差异性评价和漂移的检测。为评价该方法的有效性,在具有不同漂移严重程度和漂移速度的公开数据集上进行了实验,实验结果表明:该方法能够准确快速地检测到不同类型的概念漂移且能够找出概念漂移发生的具体位置。  相似文献   

3.
针对数据流中的概念漂移检测存在错误检测、延迟检测等问题,提出了一种基于交叠数据窗距离测度的在线概念漂移检测方法。通过将数据流划分成大小相等且交叠的数据窗并计算相邻交叠数据窗异构欧氏距离,同时利用近邻原则判别数据窗中样本不一致程度,从而实现分布差异性评价和漂移的检测。为评价该方法的有效性,在具有不同漂移严重程度和漂移速度的公开数据集上进行了实验,实验结果表明:该方法能够准确快速地检测到不同类型的概念漂移且能够找出概念漂移发生的具体位置。  相似文献   

4.
张杰  赵峰 《控制与决策》2013,28(1):29-35
鉴于流数据具有实时、连续、有序和无限等特点,使用近似方法便可检测连续分时段的流数据序列,基于此,运用目标分布数据,结合相似分布理论,提出了利用 Tr-OEM 算法对流数据中的概念漂移现象进行检测.该算法能够动态地判断流数据概念漂移的发生,自适应地优化概念漂移的检测值,适用于不同类型的流数据.通过分析和实验仿真可以表明,该算法在处理流数据概念漂移时具有较好的适应性.  相似文献   

5.
现有概念漂移处理算法在检测到概念漂移发生后,通常需要在新到概念上重新训练分类器,同时“遗忘”以往训练的分类器。在概念漂移发生初期,由于能够获取到的属于新到概念的样本较少,导致新建的分类器在短时间内无法得到充分训练,分类性能通常较差。进一步,现有的基于在线迁移学习的数据流分类算法仅能使用单个分类器的知识辅助新到概念进行学习,在历史概念与新到概念相似性较差时,分类模型的分类准确率不理想。针对以上问题,文中提出一种能够利用多个历史分类器知识的数据流分类算法——CMOL。CMOL算法采取分类器权重动态调节机制,根据分类器的权重对分类器池进行更新,使得分类器池能够尽可能地包含更多的概念。实验表明,相较于其他相关算法,CMOL算法能够在概念漂移发生时更快地适应新到概念,显示出更高的分类准确率。  相似文献   

6.
分类器动态集成的入侵数据流检测算法   总被引:1,自引:0,他引:1       下载免费PDF全文
入侵数据流具有快速更新以及概念漂移的特点,静态集成分类器无法及时反映整个空间的数据分布,入侵检测正确率不高,对此,文中提出了一种单分类器动态集成的入侵检测方法,该方法动态分配各分类器权值并用区间估计检查概念漂移并更新分类器。实验结果表明,在处理超平面构造的数据流上,分类效果优于多数投票、加权投票两种静态分类方法,在真实入侵实数据集上有高检测率。  相似文献   

7.
目前数据流分类算法大多是基于类分布这一理想状态,然而在真实数据流环境中数据分布往往是不均衡的,并且数据流中往往伴随着概念漂移。针对数据流中的不均衡问题和概念漂移问题,提出了一种新的基于集成学习的不均衡数据流分类算法。首先为了解决数据流的不均衡问题,在训练模型前加入混合采样方法平衡数据集,然后采用基分类器加权和淘汰策略处理概念漂移问题,从而提高分类器的分类性能。最后与经典数据流分类算法在人工数据集和真实数据集上进行对比实验,实验结果表明,本文提出的算法在含有概念漂移和不均衡的数据流环境中,其整体分类性能优于其他算法的。  相似文献   

8.
现有的概念漂移检测方法大多集中于单标签数据流,难以满足多标签数据流概念漂移检测的需要,因此文中提出基于分层校验的多标签数据流概念漂移检测算法.算法包括检验层和校验层,检验层通过检测数据分布变化判断是否发生概念漂移,校验层通过判断标签混淆矩阵的变化程度验证是否真正发生概念漂移.在真实多标签数据集和合成多标签数据集上的实验表明,文中算法表现更优,可以有效检测概念漂移,提升分类性能.  相似文献   

9.
武加文    李光辉     《智能系统学报》2019,14(2):254-262
针对无线传感器网络节点容易产生数据漂移的问题,提出了一种新型的跟踪和校准节点数据流漂移的算法。首先使用基于遗传算法优化的BP神经网络对目标节点和其邻居节点间的时空相关性进行建模,以获得目标节点的预测值,再使用卡尔曼滤波器跟踪和校准该节点的数据漂移。针对不同的真实数据集进行仿真实验显示,该方法相较于其他对比方法模型预测精度更高,漂移校准性能更好。实验结果表明,该算法可以精确地校准传感器节点的数据漂移,提高节点数据的可靠性。  相似文献   

10.
随着计算机技术的发展,利用机器学习算法构建自动化评估模型已经成为金融机构进行信用评估的重要手段。然而,目前信用评估模型仍存在一些问题:信用数据本身存在类别不平衡和高维特征的问题,并且不同的时间下外界环境的改变会影响信用主体的行为,即数据会产生概念漂移现象。为此,文中提出了一个动态的信用评估模型,通过集成学习在新的增量数据上训练基分类器,并对各个基分类器的权重进行动态调整来适应概念漂移,以实现模型的动态更新。当发生概念漂移时,会针对概念漂移的检测结果对高维不平衡的信用数据进行不同形式的均衡化和特征选择。特别地,针对特征选择,文中提出了结合历史代表性样本的增量特征选择算法,该算法能够进行高效准确的特征选择,从而使模型可以同时解决增量信用数据存在的高维不平衡和概念漂移问题。最后,文中选取了真实的增量高维信用数据集,验证了所提算法相比其他主流算法在准确率和效率上的优越性。  相似文献   

11.
针对一种新型的DDoS攻击—链路泛洪攻击(link-flooding attack,LFA)难以检测的问题,提出了SDN中基于MS-KNN(mean shift-K-nearestneighbor)方法的LFA检测方法。首先通过搭建SDN实验平台,模拟LFA并构建LFA数据集;然后利用改进的加权欧氏距离均值漂移(mean shift,MS)算法对LFA数据集进行分类;最后利用K近邻(K-nearestneighbor,KNN)算法判断分类结果中是否具有LFA数据。实验结果表明,相较于KNN算法,利用MS-KNN不仅得到了更高的准确率,同时也得到了更低的假阳性率。  相似文献   

12.
针对工业过程数据固有概念漂移特性导致软测量模型性能恶化、需识别漂移样本以有效更新模型等问题,提出一种面向工业过程难测参数建模的双窗口概念漂移检测方法.首先,在离群样本检测窗口采用支持向量回归获得实时过程数据中包含的离群样本;接着,在分布检测窗口计算离群样本与历史样本集间的欧氏距离;最后,结合多种分布检验方法,新定义能够表征离群样本蕴含分布变化的检验漂移度指标,进而实现漂移样本的有效识别.采用合成和真实工业过程数据集验证了所提方法的有效性,表明具有优于已有方法的性能.  相似文献   

13.
基于红外相机图像的野生动物目标检测有利于研究和保护野生动物。由于不同种类的野生动物数量差别大,红外相机采集到的野生动物数据集存在种类数量分布不均的长尾数据问题,进而影响目标检测神经网络模型的整体性能提升。针对野生动物的长尾数据导致的目标检测精度低的问题,提出了一种基于两阶段学习和重加权相结合的长尾数据解决方法,并将该方法用于基于YOLOv4-Tiny的野生动物目标检测。首先,采集、标注并构建了一个新的野生动物数据集,该数据集具有明显的长尾数据特征;其次,采用基于迁移学习的两阶段方法训练神经网络,第一阶段在分类损失函数中采用无加权方式进行训练,而在第二阶段提出了两种改进的重加权方法,并以第一阶段所得权重作为预训练权重进行重加权训练;最后,对野生动物测试集进行测试。实验结果表明,在分类损失采用交叉熵损失函数和焦点损失函数下,所提出的长尾数据解决方法达到了60.47%和61.18%的平均精确率均值(mAP),相较于无加权方法在两种损失函数下分别提高了3.30个百分点和5.16个百分点,相较于所提改进的有效样本加权方法在焦点损失函数下提高了2.14个百分点,说明该方法能提升YOLOv4-Tiny网络对具有长尾数据特征的野生动物数据集的目标检测性能。  相似文献   

14.
基于主要特征抽取的重现概念漂移处理算法   总被引:1,自引:1,他引:0  
针对重现概念漂移检测中的概念表征和分类器选择问题,提出了一种适用于含重现概念漂移的数据流分类的算法——基于主要特征抽取的概念聚类和预测算法(Conceptual clustering and prediction through main feature extraction, MFCCP)。MFCCP通过计算不同批次样本的主要特征及影响因子的差异度以识别重复出现的概念,为每个概念维持且及时更新一个分类器,并依据Hoeffding不等式选择最合适的分类器对当前样本集实施分类,以 提高对概念漂移的反应能力。在3个数据集上的实验表明:MFCCP在含重现概念漂移的数据集上的分类准确率,对概念漂移的反应能力及对概念漂移检测的准确率均明显优于其他4种 对比算法,且MFCCP也适用于对不含重现概念漂移的数据流进行分类。  相似文献   

15.
针对经典k_均值聚类方法只能处理静态数据聚类的问题,本文提出一种能够处理动态数据的改进动态k-均值聚类算法,称为Dynamical K-means算法.该方法在经典k-均值方法的基础上,通过对动态变化的数据集中 新加入样本进行分析和处理,根据聚类目标函数改变的实际情况选择最相似的类别进行局部更新或进行全局经典k_均值聚类,有效检测发生聚类概念漂移和没有发生聚类概念漂移的情况,从而实现了动态数据的在线聚类,避免了经典k_均值方法在动态数据中每次都要对全部数据重新聚类而导致算法速度过慢的问题.标准数据集和人工社会网络数据集上的实验结果表明,与经典k_均值聚类方法相比,本文提出的动态k_均值聚类方法能快速高效地处理动态数据聚类问题,并有效地检测动态数据聚类过程中所产生的概念漂移问题.  相似文献   

16.
为了克服数据流概念漂移现象对分类模型的影响,提高数据流分类准确率,提出了一种基于概念漂移检测算法的数据流分类模型.针对不同概念漂移类型使用不同的方法进行检测,该模型通过对概念漂移进行监控,从而有效控制分类模型的更新频率,做到有的放矢地更新分类器模型,提高分类模型的分类性能.通过使用两种不同的数据集进行实验,并与传统分类模型进行比较,验证了该模型的有效性和正确性.  相似文献   

17.
概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成的不平衡数据流分类方法(incremental weighted ensemble for imbalance learning, IWEIL)。该方法以集成框架为基础,利用基于可变大小窗口的遗忘机制确定基分类器对窗口内最近若干实例的分类性能,并计算基分类器的权重,随着新实例的逐个到达,在线更新IWEIL中每个基分器及其权重。同时,使用改进的自适应最近邻SMOTE方法生成符合新概念的新少数类实例以解决数据流中类不平衡问题。在人工数据集和真实数据集上进行实验,结果表明,相比于DWMIL算法,IWEIL在HyperPlane数据集上的G-mean和recall指标分别提升了5.77%和6.28%,在Electricity数据集上两个指标分别提升了3.25%和6.47%。最后,IWEIL在安卓应用检测问题上表现良好。  相似文献   

18.
概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问题,提出一种基于在线性能测试的概念漂移检测方法(concept drift detection method based on online performance test,简称CDPT).该方法将最新获得的数据集进行均匀分组,在每组子数据集上分别进行在线学习,同时记录每组子数据集训练测试得到的分类精度向量,并计算相邻学习时间单元之间的精度落差,依据测试精度下降阈值得到有效波动位点.然后采用交叉检验的方式整合不同分组中的有效波动位点,以消除流数据在线学习过程中由于训练样本过小导致模型不稳定造成的检测干扰,根据精度波动一致性得到一致波动位点.最后,通过跟踪在线学习分类准确率,得到一致波动位点邻域参照点的测试精度变化,比较一致波动位点邻域参照点对应的模型测试精度下降幅度及收敛情况,以有效检测一致波动位点当中真实的概念漂移位点.实验结果表明,该方法能够有效辨识流数据在线学习过程中发生的真实概念漂移,并能有效避免训练样本过小或者流数据中噪声对检测结果的负面影响,同时提高模型的泛化性能.  相似文献   

19.
近年来,对数据流中概念漂移的检测成为了研究热点.本文依据统计学理论提出基于鞅的数据流概念漂移检测方法(CDDBM),首先综合考虑数据分布质心和半径改变引起概念的漂移,提出有效的相异度量方法,然后对数据流采用双向统计的方法更准确地标识数据分布并映射到均匀分布序列,最后计算双重随机幂鞅的均值,并利用停时定理来判断数据流中是否有概念漂移发生.另外,检测方法中,使用合理的阈值参数控制鞅变化的峰值,从而有效地降低了误报率和失报率,提出适当尺寸的窗口有效地应对数据流的无限性且更准确地推断漂移区间.在人工和真实数据流上的实验结果表明,该方法在数值型数据、分类型数据和混合型数据上都是有效的,并能够有效地控制错误率.  相似文献   

20.
陈小东  孙力娟  韩崇  郭剑 《计算机科学》2016,43(4):219-223, 251
针对数据流中可能出现的概念漂移现象,采用改进的FCM算法进行模糊聚类,提出在大小可变的滑动窗口中通过度量相邻窗口之间的差异性来判断是否发生了概念漂移,并给出了相应的处理方法。实验表明该算法能够有效地检测出数据流中的概念漂移现象,具有很好的聚类效果和很高的时间效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号