首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(5):16-23, 74
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数, 然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集, 最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。    相似文献   

2.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于近邻密度改进的SVM(NDSVM)不平衡数据集分类算法.该算法先计算多数类内每个样本的近邻密度值,然后依据该密度值选出多数类中位于边界区域、靠近边界区域的与少数类数目相等的样本分别与少数类完成SVM初始分类,最后用所得的支持向量机和剩余的多数类样本完成初始分类器迭代优化.人工数据集和UCI数据集的实验结果表明,与WSVM、ALSMOTE -SVM和基本SVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

3.
对于平衡数据集支持向量机(support vector machine,SVM)通常具有很好的分类性能和泛化能力,然而对于不平衡数据集,SVM只能得到次优结果,针对该问题提出了一种基于SVM的AS-Ada Boost SVM分类算法.首先,通过使用ADASYN采样,提高少类样本在边界区域的密度;然后,使用基于径向基核支持向量机(radial basis function kernel mapping support vector machine,RBFSVM)模型弱分类器的Ada Boost SVM算法训练得到决策分类器.通过将该算法在各种不平衡数据集上的测试结果与单纯运用ADASYN技术、Ada Boost SVM、SMOTEBoost等其他分类器进行比较,验证了该算法的有效性和鲁棒性.  相似文献   

4.
水下目标识别中训练样本集含有冗余样本、噪声样本及无关样本,且特征提取、特征选择和决策系统设计过程分离而导致系统识别性能的下降,为此提出了基于加权最近邻收缩样本选择的SVM集成算法(SVME-WRNN)和基于加权免疫克隆样本选择的SVM集成算法(SVME-WICISA)。这2种集成方法通过样本选择来构建精度高、差异大的子分类器,并将其集成。利用4类水下目标实测数据进行了分类仿真实验。实验结果表明:SVME-WRNN算法和SVME-WICISA算法与SVME算法(无样本选择)相比较,在识别率相当的情况下,大幅度地降低了训练样本数目,得到的综合分类器具有良好的分类精度。  相似文献   

5.
为了提高卷积神经网络训练的分类器分类准确率,往往需要大量的已标记数据,但有时已标记数据并不容易获得。针对少标记样本图像分类问题,提出基于集成GMM聚类与标签传递思想的解决方案,通过一定的规则给未标记数据赋予标签,将未标记数据转换成已标记数据用于模型的训练。在手写数字识别数据集上进行实验,结果表明新算法在少标记样本的情况下,结合集成GMM聚类的方法比只采用有标记样本训练得到的模型分类准确率有着较大提高,验证了该算法的有效性。  相似文献   

6.
传统过采样算法通过合成少数类样本来改善不平衡问题,但未考虑产生噪点与样本分布不均匀等问题,针对该类问题,提出了一种基于聚类与对改进SMOTE的过采样算法SK-SMOTE。该算法在聚类前,先合成一部分少数样本,以此提高少数类样本数量,同时根据合成的少数类样本的邻居样本的类别和距离赋予权重,通过权重总和是否大于设定的值来决定该样本是否可以被保留。在提高少数类样本数量后,再使用KMeans算法进行聚类,然后保留少数样本较多的簇。在簇内进行过采样,相对稀疏的簇将合成更多的少数类样本。选取UCI和KEEL数据库中的不平衡数据集,将SVM、RF、KNN作为分类算法,并选用几种经典的SMOTE算法与SK-SMOTE进行多组对比实验。实验结果表明,SK-SMOTE算法可有效平衡不平衡数据集,且在不平衡比例较高的数据集上取得了比传统过采样算法更好的结果。  相似文献   

7.
不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构建学习器.但现有的降采样方法往往会破坏原始数据结构特性或造成严重的信息损失.本研究提出一种基于分层抽样的不均衡数据集成分类方法 (简记为EC-SS),通过充分挖掘多数类样本的结构信息,对其进行聚类划分;再在数据块上进行分层抽样来构建集成学习数据成员,以确保单个学习器的输入数据均衡且保留原始数据的结构信息,提升后续集成分类性能.在不均衡数据集Musk1、Ecoli3、Glass2和Yeast6上,对比EC-SS方法与基于随机抽样的不均衡数据集成分类方法、自适应采样学习方法、基于密度估计的过采样方法和代价敏感的大间隔分类器方法的分类性能,结果表明,EC-SS方法能有效提升分类性能.  相似文献   

8.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

9.
时间序列分类是数据挖掘中的重要主题,现有的大部分时间序列分类方法较少考虑到序列形状对分类结果的影响。该文提出了一种基于k-shape的时间序列模糊分类方法。该方法通过使用k-shape聚类算法对时间序列训练数据集各类别的成员进行聚类,获得各类别的聚类中心并形成聚类中心群,将每个类别的聚类中心群作为时间序列数据模糊分类的初始聚类中心,根据隶属度最大原则确定测试时间序列数据的类别标签。在30个时间序列公开数据集上的分类实验结果表明,该方法相较于SVM、Bayes、EAIW和TLCS这4种分类算法具有更好的分类性能,对具有扭曲和位移特征的时间序列数据分类有更好的可用性。  相似文献   

10.
针对不平衡数据集分类,现有的过采样算法更多地解决了类间不平衡问题,而未考虑少数类的类内不平衡,未筛选进行过采样的样本及未去除噪音,且合成过程中存在样本重叠及样本分布"边缘化"等问题,提出一种基于层次聚类和改进SMOTE的过采样算法AGNES-SMOTE.该算法对多数类和少数类样本分别进行层次聚类,并根据获得的多数类簇划...  相似文献   

11.
为了解决传统分类方法对不平衡数据集中少数类的识别率较低的问题,提出一种基于模糊c-均值与核Fisher判别分析相结合的分类方法.该方法首先采用模糊c-均值算法对样本数据进行聚类,将聚类后的样本数据映射到特征空间中,再对映射后的样本数据采用核Fisher判别分析算法对数据进行分类.在UCI上选取8个不平衡数据进行仿真实验,就分类性能上与其他5种算法作了比较和分析.实验结果表明采用模糊c-均值与核Fisher判别相结合的方法可以获得较高的识别率,能有效地处理不平衡数据集的分类.  相似文献   

12.
改进的球结构SVM多分类增量学习算法   总被引:1,自引:0,他引:1  
针对球结构支持向量机(support vector machine,SVM)增量学习算法在训练时间和分类精度上的不足,提出了一种改进的球结构SVM多分类增量学习算法.该算法首先构造一个完全二叉树用于多类分类;分析新增样本的加入对原支持向量集的影响,将新增样本集中部分样本和原始训练集中的支持向量以及分布在球体一定范围内的样本合并做为新的训练集,完成分类器的重构.实现通过减少训练样本缩短训练时间和完善分类器提高分类精度的目的.通过UCI标准数据集实验,结果表明,该算法在所需训练的样本数、训练时间以及准确率3方面都优于球结构SVM增量学习算法,尤其当样本分布不平衡时,该算法有更高的分类准确率.  相似文献   

13.
一种用于多分类问题的改进支持向量机   总被引:14,自引:3,他引:14  
针对非均衡分布的多类分类问题,为提高支持向量机(SVM)算法的性能,提出了一种改进的SVM算法. 将遗传算法(GA)与传统SVM算法结合,构造出一种参数最优的进化SVM(GA-SVM), SVM模型采用径向基函数(RBF)作为核函数,利用格雷码编码方式对SVM算法的模型参数进行遗传编码和优化搜索,将搜索到的优化结果作为SVM的最终模型参数. 在两个不同特性的数据集上进行仿真测试,结果表明,与使用交叉验证策略的简单SVM相比,改进后的GA-SVM算法在多类非均衡问题上明显提高了分类正确率,学习速度也有提高.  相似文献   

14.
针对单一聚类算法存在的不能泛化的问题,将集成学习技术应用于聚类算法中,集成学习技术可以显著提高学习系统的泛化能力。提出了1种基于粒子群和遗传算法的协同进化聚类集成算法,粒子群算法保证算法快速收敛,遗传算法全局搜索扩大搜索范围,提高了聚类的性能和收敛速度。将本研究提出的算法在多个UCI数据集上进行试验验证,结果表明该算法是有效的。  相似文献   

15.
为了提高分类正确率和减少训练时间,将特征抽取技术与分类算法结合,提出了一种基于KFDA-SVM的入侵检测技术。采用KFDA抽取最佳鉴别矢量,运用SVM对投影后的数据分类。同时根据入侵数据高维异构小样本的特性,提出一种基于HVDM的混和核函数。采用KDD 99数据集进行试验,验证了该算法的有效性。  相似文献   

16.
将核学习方法的思想和改进的选择C-均值聚类算法相结合,提出了一种改进的模糊核聚类算法,使其能对非超球体、含有噪音和离群点及样本不均衡的数据进行有效的聚类.通过引入高斯核函数,原样本的特征被非线性变换到高维核空间,提高了聚类性能.实验结果表明,该改进算法具有有效性.  相似文献   

17.
核模糊C均值聚类算法(Kernel-based fuzzy C-means clustering method,KFCM)的性能受核参数的影响很大,然而实践中核参数的选择是极其困难的。为了解决这个问题,本文基于样本在高维空间中的类内距离近、而类间距离远这一思路,提出了一种优化核参数的模糊C均值算法(Parameter optimation-based KFCM,POKFCM)。该算法首先利用K均值方法对样本集进行初始聚类,再通过比较实际核函数矩阵与理想核函数矩阵的相似性距离来确定最优核参数,最后将优化的核参数应用于核模糊C均值聚类算法。在6组UCI数据集上进行对比实验,结果表明POKFCM能有效地改善KFCM的聚类性能。  相似文献   

18.
空间域减法聚类粒子滤波算法   总被引:1,自引:1,他引:0  
针对粒子滤波计算复杂度高的问题,为降低滤波中所需的样本数目,提出了一种基于减法聚类的粒子滤波算法,算法将样本及对应权重进行映射构成聚类向量,在设定的聚类半径下,采用改进的减法聚类算法对向量进行分类,得到若干在空间中分离的子类中心,然后用子类中心代替整个向量集,并利用产生的新向量集重构样本集和权重.仿真实验表明该算法在保持了粒子滤波估计精度的同时,有效降低了样本数目,提高了计算效率.  相似文献   

19.
针对传统分类方法的局限性,提出了一种深度学习结合知识挖掘的零样本图像自适应控制图像分类算法.利用对图像属性的深度学习来实现图像深层次特征及属性的学习和预测,基于图像的属性-类别映射使分类器性能有较大差异,通过稀疏表示模型挖掘图像类别和属性之间的关系并设计自适应控制的属性分类器实现对图像的分类操作.结果表明,与DBN和SVM算法相比,在监督模式和零样本模式下,该算法具有较高的属性预测准确度.在零样本情况下对Shoes数据集进行分类时,该算法具有最高的准确分类识别率,比其他算法的分类识别率提高了15%.  相似文献   

20.
为提高半监督分类的性能,提出一种基于SOM神经网络的半监督分类算法SSC-SOM。结合SOM的聚类特性,基于先聚类后标记的思想,充分利用有标记样本和未标记样本训练SOM分类器;将聚类的形成和有标记样本分配到各个聚类中同时进行,并根据有标记样本计算各个聚类的聚类中心;在整个未标记样本的范围内,根据聚类中心,使用K近邻算法对未标记样本进行标记,挖掘未标记样本的隐含信息。在UCI数据集中进行分类实验,其结果表明,SSC-SOM的分类率比SSOM提高2.22%,且收敛性较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号