首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 51 毫秒
1.
数据流是大数据的重要形式,数据流分类是数据挖掘的重要任务之一,该任务在现实生活中有着巨大的应用前景,因此得到了研究者们的广泛关注.概念漂移和类不平衡是影响数据流分类性能的两个核心问题,但目前大多数算法都只考虑处理两者之一,并且大多数算法过于理想,只能在人工设置的数据流上才能发挥较好的性能,无法适用于复杂的真实数据流.针...  相似文献   

2.
为解决图神经网络(GNN)上不平衡节点的分类问题,提出一种Bagging集成模型,该模型使用图卷积网络(GCN)作为基分类器。在该模型中,先对若干基分类器进行并行训练,然后使用多数投票的方式对这些基分类器的预测结果进行集成,最终完成分类任务。实验结果表明,该文提出的模型显著优于其他现有基线方法,验证了其在不平衡节点分类中的有效性。  相似文献   

3.
基于信息熵差异性度量的数据流增量集成分类算法   总被引:2,自引:0,他引:2  
琚春华  邹江波 《电信科学》2015,31(2):92-102
对分类器之间的差异性进行了研究,提出了一种基于信息熵差异性度量的增量集成分类算法,将信息熵差异性度量方法融入到基分类器选择过程中,通过对训练数据集的基分类结果的信息熵差异度计算,采用循环迭代优化的选择方法,以熵差异性最优化为约束目标,动态调整基分类器个数,实现了分类准确稳定,减少了系统开销。通过实验比对,证明了算法在数据流处理时比其他算法具有更小的开销和较强的适应性。  相似文献   

4.
入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性。在PU学习算法中,仅需标注部分正例样本就可以构造分类器。对此本文提出一种动态的集成PU学习数据流分类的入侵检测方法,只需要人工标注少量的正例样本,就可以构造数据流分类器。在人工数据集和真实数据集上的实验表明,该方法具有较好的分类性能,在处理偏斜数据流上优于三种PU 学习分类方法,并具有较高的入侵检测率。  相似文献   

5.
基于朴素贝叶斯模型的EM算法经常被应用到情感分类中,但是其存在自身的缺点,当训练样本的类别不平衡时,分类器会越来越偏向于某一类,导致结果变差。本文在EM算法的基础上提出了一种改进的算法,来解决这一问题,并且通过实验我们可以发现该算法要优于普通的EM算法,证明了该算法的有效性以及合理性。  相似文献   

6.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对数据挖掘和机器学习领域中常遇到的数据不平衡问题,分析了数据的不平衡性及目前解决不平衡问题的主要策略,提出了一种基于组合的不平衡数据分类方法,该方法将数据重取样与权重润饰结合,以降低分类器对大类别的偏好。实验结果表明,权重润饰能够较好的弥补重取样方法的某些不足,该组合方法可有效提高不平衡数据分类精度。  相似文献   

7.
针对不平衡数据分类问题,在数据层面对不平衡数据集进行预处理,即对多数类数据进行先聚类,后欠采样的方式,减少多数类数据的数目,降低数据集的不平衡度,之后再用KNN算法对其进行分类。实验结果表明,对数据层面的预处理,使少数类数据的分类效果得到了提升。  相似文献   

8.
基于主动检测概念漂移的数据流多分类器方法   总被引:1,自引:0,他引:1  
概念漂移检测技术是数据流分类研究领域的重要组成部分之一,但目前绝大多数数据流多分类器方法并没有明确提出概念漂移的检测方法.依据契比雪夫不等式,提出一种基于主动检测概念漂移检测的多分类器方法.通过实验表明该方法可以有效提高概念漂移的适应能力以及数据流多分类器方法的分类精度.  相似文献   

9.
针对数据流时变性产生的概念漂移问题,在利用L-M算法优化BP神经网络的基础上,引入增量式学习机制,提出了一种具有动态自适应能力的概念漂移流式数据分类算法IBPNN-CDCA.实验结果表明,算法较之传统BP神经网络分类算法等具有更好的抗概念漂移能力,并且大幅度提高了分类准确度,从而为实时分类海量概念漂移数据提供了一种新方法.  相似文献   

10.
在很多真实世界问题中,不同类别的数据样本往往有显著的不平衡性,即大类的样本远多于小类.对类别不平衡样本进行学习,是目前国内外数据挖掘和机器学习领域的研究热点之一.以往对不平衡样本学习的研究主要针对二分类问题进行,由此针对多分类问题,提出一种基于HDDT决策树集成的多类不平衡学习方法.实验表明,该方法可以有效地对多类不平衡问题进行学习.  相似文献   

11.
综合分析了数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率.分析结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法.  相似文献   

12.
Recently, it has been seen that the ensemble classifier is an effective way to enhance the prediction performance. However, it usually suffers from the problem of how to construct an appropriate classifier based on a set of complex data, for example, the data with many dimensions or hierarchical attributes. This study proposes a method to constructe an ensemble classifier based on the key attributes. In addition to its high-performance on precision shared by common ensemble classifiers, the calculation results are highly intelligible and thus easy for understanding. Furthermore, the experimental results based on the real data collected from China Mobile show that the key-attributes-based ensemble classifier has the good performance on both of the classifier construction and the customer churn prediction.  相似文献   

13.
分类是数据挖掘中的一个重要问题。基于数据挖掘分类问题的研究现状,介绍了度量分类器性能的几种主要尺度,详细评述了针对分类准确率的常见评估策略。结合作者的工作给出提高分类准确率的一些方法,指出其可能发展的方向,为进一步研究提供有益的借鉴。  相似文献   

14.
翟云  王树鹏  马楠  杨炳儒  张德政 《电子学报》2014,42(7):1311-1319
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link & Distribution Density-SMOTE,OSLDD-SMOTE).OSLDD-SMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.  相似文献   

15.
频繁闭合模式集可惟一确定频繁模式完全集且数据量要小几个数量级。根据分布式数据流的特点,提出了一种挖掘频繁闭合项集的算法,该算法采用K叉树形结构,以叶子节点接收各条数据流,创建DSFCI_tree结构来存贮各条数据流中的每段闭合模式,然后逐层往上合并更新,从而在根节点可得整个分布式数据流的频繁闭合模式。  相似文献   

16.
Common spatial pattern (CSP) algorithm is a successful tool in feature estimate of brain-computer interface (BCI). However, CSP is sensitive to outlier and may result in poor outcomes since it is based on pooling the covariance matrices of trials. In this paper, we propose a simple yet effective approach, named common spatial pattern ensemble (CSPE) classifier, to improve CSP performance. Through division of recording channels, multiple CSP filters are constructed. By projection, log-operation, and subtraction on the original signal, an ensemble classifier, majority voting, is achieved and outlier contaminations are alleviated. Experiment results demonstrate that the proposed CSPE classifier is robust to various artifacts and can achieve an average accuracy of 83.02%.  相似文献   

17.
Abstract-Common spatial pattern (CSP) algorithm is a successful tool in feature estimate of brain-computer interface (BCI). However, CSP is sensitive to outlier and may result in poor outcomes since it is based on pooling the covariance matrices of trials. In this paper, we propose a simple yet effective approach, named common spatial pattern ensemble (CSPE) classifier, to improve CSP performance. Through division of recording channels, multiple CSP filters are constructed. By projection, log-operation, and subtraction on the original signal, an ensemble classifier, majority voting, is achieved and outlier contaminations are alleviated. Experiment results demonstrate that the proposed CSPE classifier is robust to various artifacts and can achieve an average accuracy of 83.02%.  相似文献   

18.
目前数据流频繁项近似挖掘算法大多采用误差参数控制挖掘的结果,时间与内存开销越高,挖掘结果的正确性越低.针对这样一个问题,提出了渐增最小支持度函数作为误差参数.如果某数据项在滑动窗口中的保存时间越长,则该数据项的出现频率必须相应的增加才能继续保存在滑动窗口中.这样,在滑动窗口中需要保存的数据项的数量将减少,时间开销与内存开销也相应的减少.在此基础上,提出了一种基于渐增最小支持度函数的数据流频繁项挖掘算法GFFPM.该算法能准确的挖掘出滑动窗口中的频繁项.实验结果表明,该算法具有很高的正确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号