共查询到20条相似文献,搜索用时 109 毫秒
1.
2.
本文提出了一种基于模糊规则的分类方法。首先介绍了一种新的模糊规则提取方法,然后基于所提取的模糊规则给出了一个采用二级判决的分类算法,并利用IRIS数据对此分类算法进行了仿真测试。结果表明,该算法在训练样本较少的情况下,仍能得到很好的分类效果. 相似文献
3.
非平衡数据集分类问题研究进展 总被引:3,自引:0,他引:3
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点.文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题. 相似文献
4.
近年来.数据挖掘技术已成为国内外研究热点.而数据分类是数据挖掘中最重要的任务之一。本文介绍了一种神经模糊数据分类方法NEFCLASS模型,它通过从数据学习得到模糊分类规则.产生具有良好解释性的分类结果,分析了它的结构、学习算法和修减策略.还讨论了它的实现工具和应用。 相似文献
5.
6.
7.
针对粗糙集分类规则挖掘算法LEM2剪枝条件过于严格的问题,提出一种权重模糊粗糙集的改进规则挖掘算法。在用例带权重的模糊粗糙集理论框架上分析面向混合数据的分类规则挖掘算法,引入粗糙集模型的近似覆盖参数作为挖掘算法的泛化度量参数,实现对规则集数量和规则形式复杂程度的调节。实验结果表明,与LEM2算法和DataSqueezer算法相比,该算法的平均精度和平均召回率更优,分别为81%和80%,且生成规则的平均长度最短。 相似文献
8.
《计算机应用与软件》2019,(4)
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。 相似文献
9.
许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。 相似文献
10.
介绍了一种基于动态聚类的模糊分类规则的生成方法,这种方法能决定规则数目,隶属函数的位置及形状.首先,介绍了基于超圆雏体隶属函数的模糊分类规则的基本形式;然后,介绍动态聚类算法,该算法能将每一类训练模式动态的分为成簇,对于每簇,则建立一个模糊规则;通过调整隶属函数的斜度,来提高对训练模式分类识别率,达到对模糊分类规则进行优化调整的目的;用两个典型的数据集评测了这篇文章研究的方法,这种方法构成的分类系统在识别率与多层神经网络分类器相当,但训练时间远少于多层神经网络分类器的训练时间. 相似文献
11.
12.
13.
14.
针对网络中存在的对等网络(P2P)流量泛滥导致的流量失衡问题,提出将非平衡数据分类思想应用于流量识别过程。通过引入合成少数类过采样技术(SMOTE)算法并进行改进,提出了均值SMOTE (M-SMOTE)算法,实现对流量数据的平衡化处理。在此基础上分别采用3种机器学习分类器:随机森林(RF)、支持向量机(SVM)、反向传播神经网络(BPNN)对处理后各类流量进行识别。理论分析与仿真结果表明,在不影响P2P流量识别准确率的前提下,与非平衡状态相比,引入SMOTE算法将非P2P流量的识别准确率平均提高了16.5个百分点,将网络流量的整体识别率提高了9.5个百分点;与SMOTE算法相比,M-SMOTE算法将非P2P流量的识别准确率与网络流量的整体识别率分别进一步提高了3.2个百分点和2.6个百分点。实验结果表明,非平衡数据分类思想可有效解决P2P流量过多导致的非P2P流量识别率低的问题,同时所提M-SMOTE算法具有更高的识别准确度。 相似文献
15.
16.
化学样本数据常为非平衡,用传统方法分析这些数据集时,对于需特别关注的少数类数据,识别能力往往较差。因此,提出建立基于粒计算的分类规则模型(GCCRM),先用改进的自适应共振网络ETM-ART2将性质相近的个体聚合为信息粒,降低样本容量和问题规模,同时又保持较高的纯度;然后将信息粒的属性特征模糊离散化,简化它;最后经关联规则挖掘,得可预测样本的分类规则模型。用于识别玻璃,结果GCCRM能剔除冗余信息,加强关键特征,所提取的分类规则预测正确率高,尤适用于非平衡数据集,其性能比C4.5决策树、支持向量机SVM等算法优良。 相似文献
17.
代价敏感学习是解决不均衡数据分类问题的一个重要策略,数据特征的非线性也给分类带来一定困难,针对此问题,结合代价敏感学习思想与核主成分分析KPCA提出一种代价敏感的Stacking集成算法KPCA-Stacking.首先对原始数据集采用自适应综合采样方法(ADASYN)进行过采样并进行KPCA降维处理;其次将KNN、LD... 相似文献
18.
社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。 相似文献
19.
20.
传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于改进密度峰值聚类的采样算法IDP-SMOTE。首先,采用Box-Cox变换和σ准则对密度峰值聚类算法进行改进,实现了聚类中心和离群点的自动判别;然后,将改进的密度峰值聚类算法与SMOTE升采样算法相结合,去除噪声数据,并基于少数类样本的局部密度和邻近距离,在子类的范围内合成采样数据。该算法有效避免了升采样导致的边界模糊,改善了类内不平衡及边界样本难以学习的问题,同时实现了自动聚类和重采样,防止了人为因素干扰。通过实验对比,验证了提出算法的有效性和自适应性。 相似文献