首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为提高半监督分类的性能,提出一种基于SOM神经网络的半监督分类算法SSC-SOM。结合SOM的聚类特性,基于先聚类后标记的思想,充分利用有标记样本和未标记样本训练SOM分类器;将聚类的形成和有标记样本分配到各个聚类中同时进行,并根据有标记样本计算各个聚类的聚类中心;在整个未标记样本的范围内,根据聚类中心,使用K近邻算法对未标记样本进行标记,挖掘未标记样本的隐含信息。在UCI数据集中进行分类实验,其结果表明,SSC-SOM的分类率比SSOM提高2.22%,且收敛性较好。  相似文献   

2.
针对高光谱数据维数高、有标签样本少等特点,采用半监督分类利用未标记样本信息提高高光谱图像分类精度。主动学习研究训练样本的选择方法,以少量的标记样本得到尽可能好的泛化能力。本文提出了一种结合主动学习算法的半监督分类算法。该方法使用支持向量机作为基本的学习模型,通过主动学习方法选取训练样本,以伪标记的形式加入到分类器的训练中,结合验证分类器迭代选出置信度较高的伪标记样本,通过差分进化算法交叉变异伪标记样本扩充标记样本群。在两个数据集上进行仿真实验,与传统分类算法相比,所提算法的总体分类精度分别提高了1.97%、0.49%,表明该算法能够有效地提升主动学习样本选择的效率,在有限带标记样本情况下提高了分类器精度。  相似文献   

3.
针对流量分类中样本标注瓶颈和类不均衡问题,提出一种基于K均值和k近邻的半监督流量分类算法。采用K均值聚类算法将混有少量标记样本和大量未标记样本的数据聚成若干个簇,然后采用k近邻算法利用簇中标记样本对未标记样本进行分类。在分类过程中根据簇中标记样本分布调整参与分类的最近邻居数,从而克服了类不均衡对识别小类流的不利影响。理论分析和实验结果都表明,算法在面对非均衡协议流时提高了小类流的识别率。  相似文献   

4.
为了准确识别潜在换网电信用户,建立一种电信用户网别更换预测模型。根据用户历史数据生成网别更换标签,确定其多数类和少数类样本。利用具有噪声的密度聚类欠采样方法对多数类样本进行聚类,删除聚类后的噪声样本和各簇的边界样本,并选择各簇核心样本点进行随机欠采样;结合人工合成少数类过采样方法对少数类样本进行过采样。将构成混合采样后的平衡样本集合,输入到两层的Stacking集成学习算法中训练,得出分类结果。实验结果表明,该模型具有较好的数据集均衡性能,且预测准确率高,能够更好地识别潜在的网别更换用户。  相似文献   

5.
高光谱数据维数高,有标签的样本数量少,给高光谱图像分类带来困难。本文针对传统三重训练(tri-training)算法在初始有标签样本数量较少的情况下分类器间差异性不足的问题提出了一种基于改进三重训练算法的半监督分类框架。该方法首先通过边缘采样策略(margin Sampling,MS)选取最富含信息量的无标签样本,然后在训练每个分类器之前通过差分进化算法(differential evolution,DE)利用所选取的无标签样本产生新的样本。这些新产生的样本将被标记并且加入训练样本集来帮助初始化分类器。实验结果表明,该方法不仅能够有效地利用无标签样本,而且在有标签数据很少的情况下能够有效地提高分类精度。  相似文献   

6.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

7.
针对传统SVM算法在失衡数据集下的分类性能不理想的问题,提出一种基于核聚类集成SVM算法.该算法首先在核空间中对多数类样本集进行聚类,然后随机选择出具有代表意义的聚类信息点,实现在减少多数类样本数的同时将分类界面向多数类样本方向偏移.并利用AdaBoost集成手段对基于核聚类的欠取样SVM算法进行集成,最终提高SVM算法在失衡数据下的泛化性能.将提出的算法同其他失衡数据预处理集成方法进行比较,实验结果表明该算法能够有效提高SVM算法在失衡数据中少数类的分类性能,且总体分类性能及运行效率都有明显提高.  相似文献   

8.
针对高光谱数据波段多,地物标签获取代价高,带标记的样本数量少,分类过程中容易引起Hudges现象。本文提出一种基于改进的局部全局一致性(learning with local and global consistency,LLGC)算法的半监督分类方法。通过边缘采样法(margin sampling,MS)选取最富含信息量的无标签样本,加入到训练集来扩充训练样本;用KNN算法计算相似度进一步优选无标签样本,去除噪声点和存在的野值点;使用改进的局部全局一致性算法对无标签样本集进行分类标记,得到各类别的分类结果。实验结果表明,本文方法在充分利用无标签样本的情况下,有效地提高了带有少量标签样本的高光谱图像的分类精度。  相似文献   

9.
针对不平衡数据中特征维数高、标记样本缺乏问题,提出一种基于遗传算法和BiasedSVM的不平衡数据半监督特征选择算法。该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,得到新标记样本集,最后采用基于遗传算法的不平衡数据特征选择方法选出最优的特征子集。实验结果表明,所提方法在不同的标记样本率下均具有较高的平均特征子集缩减率和平均小类识别率。  相似文献   

10.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(5):16-23, 74
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数, 然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集, 最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。    相似文献   

11.
为改善大多数异常检测算法仅通过正常样本训练模型,缺乏异常样本,将会造成一定程度的误判问题,提出了一种基于有效异常样本构造的异常检测算法。通过K-means聚类算法得到代表不同类型正常事件的聚类簇,然后,基于异常事件的时序关系构造异常样本,再结合本文构造的异常样本,利用二分类支持向量机算法训练分类器,将检测任务转化为分类任务,从而提高检测准确率。本文在经典数据集(Avenue数据集)上进行了算法有效性验证,发现本文算法的检测准确度优于一些领域内的先进算法。因此,充分利用视频的时序关系进行异常样本的构造能有效提高异常检测的有效性。  相似文献   

12.
为了提高机器学习在大数据集中的学习性能,提出了一种基于局部敏感Hash的半监督支持向量机增量学习算法.首先利用局部敏感Hash能快速查找相似数据特性的能力,筛选出第一次增量中与有标签样本相似的样本,通过TSVM(Transductive support vector machine)得到支持向量并筛选出再次增量中有可能成为支持向量的无标记样本,然后与已有支持向量和有标签样本一起作为后续训练的基础,最后使用多个数据集对算法进行验证.实验表明:提出的半监督TSVM增量学习算法能有效地提高训练学习的速度和分类准确率.  相似文献   

13.
为充分利用分类器的差异性来提高分类器集成的准确率,提出一种分类器选择方法。基本思想是构造所有基分类器的混淆矩阵作为聚类算法的数据对象,根据各聚类中样本的分布选择出一定数量的分类器作为代表,构成新的待集成分类器集合。将该方法应用于Bagging算法的训练过程,通过实验对比,验证了该方法确实可以提高分类器集成性能。  相似文献   

14.
未确知均值聚类   总被引:1,自引:0,他引:1  
利用未确知系统理论分析特征对样本分类所作贡献,定义特征的分类权重,并作为启发性知识用于确定样本与各类间的加权距离及样本属于各类的隶属度,建立未确知均值聚类算法。IRIS数据检验表明,未确知均值聚类算法误判样本数少、收敛速度快、鲁棒性好,是一种实用、有效的无监督聚类算法。  相似文献   

15.
未确知均值聚类   总被引:2,自引:0,他引:2  
利用未确知系统理论分析特征对样本分类所作贡献,定义特征的分类权重,并作为启发性知识用于确定样本与各类间的加权距离及样本属于各类的隶属度,建立未确知均值聚类算法。IRIS数据检验表明,未确知均值聚类算法误判样本数少、收敛速度快、鲁棒性好,是一种实用、有效的无监督聚类算法。  相似文献   

16.
为了增强集成系统中各分类器之间的差异性,提出了一种使用旋转森林策略集成两种不同模型分类器的方法,即异构多分类器集成学习算法.首先采用旋转森林对原始样本集进行变换划分,获得新的样本集;然后通过特定比例选择分类精度高的支撑矢量机或分类速度较快的核匹配追踪作为基本的集成个体分类器,并对新样本集进行分类,获得其预测标记;最后结合两种模型下的预测标记.该算法通过结合两种不同分类器模型,实现了精度和速度互补,将二者混合集成后改善了集成系统泛化误差,相比单个模型集成提高了系统分类性能.对UCI数据集和遥感图像数据集的仿真实验结果表明,文中算法相比单一分类器集成缩短了运行时间,同时提高了系统的分类准确率.  相似文献   

17.
针对在说话人识别过程中经典的高斯混合模型(Gaussian Mixture Model,GMM)阶数的确定具有很大随意性的问题,提出采用吸引子传播聚类方法(AP聚类)自动获取GMM的阶数,进而实现说话人识别的方法.首先,采用Mel频率倒谱系数法(MFCC)与差分倒谱相结合的方法,提取语音特征参数;其次,采用吸引子传播聚类方法(AP聚类)对语音特征参数进行聚类处理,从而自动获得GMM的阶数;在此基础上进行GMM模型的训练;最后,采用训练好的GMM模型对Timit标准语音库以及自制网络志愿者语音库进行说话人识别测试实验.实验结果为:使用了AP聚类算法获取GMM阶数的情况下,对Timit标准语音库的测试结果为100%;在自制网络志愿者语音库中,训练样本为168个,其中潮汕话样本10个,湖南话样本10个,测试样本为42个,测试结果为97.6%.实验结果表明,引入AP聚类自动获取GMM的阶数,可以显著提高说话人识别的精度和效率.  相似文献   

18.
基于LS-SVM的多标签分类算法   总被引:2,自引:0,他引:2  
多标签分类是指部分样本同时归属多个类别.基于数据分解的算法因训练速度快、性能良好而得到广泛的应用.本文采用一对一分解策略,将k标签数据集分解为k(k-1)/2个两类单标签和两类双标签的数据子集.对每一训练子集统一用LS-SVM模型建立子分类器,当出现双标签样本时将其函数值设为0,并确定适当的分类阈值.对情感、景象和酵母数据集的实验结果表明,本文算法的某些性能指标优于现有一些常用的多标签分类方法.  相似文献   

19.
针对BING算法对物体建模的不足,提出了multi-BING算法。该算法计算训练样本的CS-LBP特征,并对其进行聚类,对聚类后的数据建立BING模型。在物体检测过程中,融合了多个模型结果进行候选框判别,将多标签图像分类问题转化为多个单标签分类问题。以Fast R-CNN模型为基础,将采用本文物体检测方法得到的候选框作为模型输入。同时,采用LReLU函数作为Fast R-CNN模型的激活函数,从而在几乎不增加计算复杂度的情况下,提高模型的平均准确率(AP)。实验表明,本文方法优于BING算法和OBN算法。  相似文献   

20.
为了提高模糊支持向量机在大规模数据集上的训练效率,提出了一种基于聚类粒度的模糊支持向量机算法.首先在每类训练样本上执行无监督聚类算法,产生聚类颗粒.在综合考虑了聚类中心、半径和聚类中的样本数目等聚类信息基础上,找到每个聚类内部的边缘点和交叉点集合,去除对分类贡献很小的聚类内部点,最终形成了新的用于模糊支持向量机训练的样本集合.随后的试验结果表明,由聚类颗粒生成的约简样本集合,很好的表示了原有样本的分布,不仅提高了训练效率,同时保持了较好的分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号