首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对现有分类算法通常对不平衡数据挖掘表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,提出一种不平衡数据分类方法。该方法通过一个超球面将两类数据以最大分离比率分离,并且引入类权重因子和样本模糊隶属度,同时考虑了不同类的重要性和不同样本对该类的不同贡献,从而提高了不平衡数据中正类的分类和预测的性能以及整体的推广能力。分别在人造数据和UCI真实数据上进行了实验,结果验证了该方法的有效性。  相似文献   

2.
本文提出了一种基于模糊规则的分类方法。首先介绍了一种新的模糊规则提取方法,然后基于所提取的模糊规则给出了一个采用二级判决的分类算法,并利用IRIS数据对此分类算法进行了仿真测试。结果表明,该算法在训练样本较少的情况下,仍能得到很好的分类效果.  相似文献   

3.
非平衡数据集分类问题研究进展   总被引:3,自引:0,他引:3  
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点.文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题.  相似文献   

4.
近年来.数据挖掘技术已成为国内外研究热点.而数据分类是数据挖掘中最重要的任务之一。本文介绍了一种神经模糊数据分类方法NEFCLASS模型,它通过从数据学习得到模糊分类规则.产生具有良好解释性的分类结果,分析了它的结构、学习算法和修减策略.还讨论了它的实现工具和应用。  相似文献   

5.
非平衡数据集分类方法探讨   总被引:2,自引:1,他引:1  
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。  相似文献   

6.
《微型机与应用》2017,(16):56-59
支持向量机(SVM)作为一种有效的机器学习技术可以很好地处理平衡数据集,然而除了对噪声点和野点敏感以外,SVM在非平衡数据分类时会偏向多数类(负类)样本,从而导致少数类(正类)的分类精度变差。为了克服以上问题,提出了一种改进的模糊支持向量机(FSVM)算法。新算法在设计模糊隶属度时,不仅考虑样本到其所在类中心的距离,还考虑了样本的紧密度特征。实验结果表明,相对于标准SVM及已有的FSVM模型,新方法对于非平衡且含有噪声的数据集有更好的分类效果。  相似文献   

7.
李抒音  刘洋 《计算机工程》2019,45(9):211-215
针对粗糙集分类规则挖掘算法LEM2剪枝条件过于严格的问题,提出一种权重模糊粗糙集的改进规则挖掘算法。在用例带权重的模糊粗糙集理论框架上分析面向混合数据的分类规则挖掘算法,引入粗糙集模型的近似覆盖参数作为挖掘算法的泛化度量参数,实现对规则集数量和规则形式复杂程度的调节。实验结果表明,与LEM2算法和DataSqueezer算法相比,该算法的平均精度和平均召回率更优,分别为81%和80%,且生成规则的平均长度最短。  相似文献   

8.
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。  相似文献   

9.
黄再祥  周忠眉  何田中 《计算机科学》2014,41(2):111-113,122
许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。  相似文献   

10.
介绍了一种基于动态聚类的模糊分类规则的生成方法,这种方法能决定规则数目,隶属函数的位置及形状.首先,介绍了基于超圆雏体隶属函数的模糊分类规则的基本形式;然后,介绍动态聚类算法,该算法能将每一类训练模式动态的分为成簇,对于每簇,则建立一个模糊规则;通过调整隶属函数的斜度,来提高对训练模式分类识别率,达到对模糊分类规则进行优化调整的目的;用两个典型的数据集评测了这篇文章研究的方法,这种方法构成的分类系统在识别率与多层神经网络分类器相当,但训练时间远少于多层神经网络分类器的训练时间.  相似文献   

11.
不平衡数据集的分类方法研究   总被引:2,自引:0,他引:2  
传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对不平衡数据的分类,首先介绍了现有不平衡数据分类的性能评价;然后介绍了现有常用的基于数据采样的方法及现有的分类方法;最后介绍了基于数据采样和分类方法结合的综合方法。  相似文献   

12.
不平衡数据的集成分类算法综述   总被引:1,自引:0,他引:1  
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。  相似文献   

13.
现有分类算法对不平衡数据挖掘通常表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,为此提出一种不平衡数据的分类方法。该方法对不同类引入不同的惩罚参数来灵活控制两类错分率的上界,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能。实验结果表明,该方法可以有效提高不平衡数据的分类性能。  相似文献   

14.
针对网络中存在的对等网络(P2P)流量泛滥导致的流量失衡问题,提出将非平衡数据分类思想应用于流量识别过程。通过引入合成少数类过采样技术(SMOTE)算法并进行改进,提出了均值SMOTE (M-SMOTE)算法,实现对流量数据的平衡化处理。在此基础上分别采用3种机器学习分类器:随机森林(RF)、支持向量机(SVM)、反向传播神经网络(BPNN)对处理后各类流量进行识别。理论分析与仿真结果表明,在不影响P2P流量识别准确率的前提下,与非平衡状态相比,引入SMOTE算法将非P2P流量的识别准确率平均提高了16.5个百分点,将网络流量的整体识别率提高了9.5个百分点;与SMOTE算法相比,M-SMOTE算法将非P2P流量的识别准确率与网络流量的整体识别率分别进一步提高了3.2个百分点和2.6个百分点。实验结果表明,非平衡数据分类思想可有效解决P2P流量过多导致的非P2P流量识别率低的问题,同时所提M-SMOTE算法具有更高的识别准确度。  相似文献   

15.
不平衡数据分类的研究现状*   总被引:9,自引:3,他引:6  
不平衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不平衡数据也成为目前的一个新的研究热点.综述了这一新领域的研究现状,包括该领域最新研究内容、方法及成果.  相似文献   

16.
化学样本数据常为非平衡,用传统方法分析这些数据集时,对于需特别关注的少数类数据,识别能力往往较差。因此,提出建立基于粒计算的分类规则模型(GCCRM),先用改进的自适应共振网络ETM-ART2将性质相近的个体聚合为信息粒,降低样本容量和问题规模,同时又保持较高的纯度;然后将信息粒的属性特征模糊离散化,简化它;最后经关联规则挖掘,得可预测样本的分类规则模型。用于识别玻璃,结果GCCRM能剔除冗余信息,加强关键特征,所提取的分类规则预测正确率高,尤适用于非平衡数据集,其性能比C4.5决策树、支持向量机SVM等算法优良。  相似文献   

17.
代价敏感学习是解决不均衡数据分类问题的一个重要策略,数据特征的非线性也给分类带来一定困难,针对此问题,结合代价敏感学习思想与核主成分分析KPCA提出一种代价敏感的Stacking集成算法KPCA-Stacking.首先对原始数据集采用自适应综合采样方法(ADASYN)进行过采样并进行KPCA降维处理;其次将KNN、LD...  相似文献   

18.
社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。  相似文献   

19.
非均衡数据的支持向量机新方法*   总被引:1,自引:0,他引:1  
为了弥补支持向量机对非均衡样本集分类时倾向于较大类的不足,提出一种平衡策略。基于Fisher判别思想,计算出两类样本在分类超平面法向量上投影后的均值和方差,再依据两类错分概率相等准则,给出新的阈值计算方法对超平面进行调整。该方法可补偿非平衡数据分类的倾向性,提高预测分类精度。最后在非均衡的人工和真实数据集上的数值实验表明了该方法的可行性与有效性。  相似文献   

20.
传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于改进密度峰值聚类的采样算法IDP-SMOTE。首先,采用Box-Cox变换和σ准则对密度峰值聚类算法进行改进,实现了聚类中心和离群点的自动判别;然后,将改进的密度峰值聚类算法与SMOTE升采样算法相结合,去除噪声数据,并基于少数类样本的局部密度和邻近距离,在子类的范围内合成采样数据。该算法有效避免了升采样导致的边界模糊,改善了类内不平衡及边界样本难以学习的问题,同时实现了自动聚类和重采样,防止了人为因素干扰。通过实验对比,验证了提出算法的有效性和自适应性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号