首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
原始Tri-training算法对有标记的数据集通过随机采样方法,形成3个训练集去训练3个分类器。但是由这种随机采样形成的训练集中,可能出现有标记数据集中的不同类别数据数量相差较大,从而导致训练集中样本类别不平衡问题,影响分类器的分类正确率。本文通过分类采样对Tri-training算法的随机采样方法进行改进,根据该改进的Tri-training算法,建立分类模型,并利用其对哈工大中文问句集和本文扩展问句集进行分类实验。结果表明,本文算法有良好的适应性,且分类正确率明显提高;适当增大训练集和未标记样本数据可以增强分类器的泛化能力,从而使分类正确率提高。  相似文献   

2.
针对高光谱数据维数高、有标签样本少等特点,采用半监督分类利用未标记样本信息提高高光谱图像分类精度。主动学习研究训练样本的选择方法,以少量的标记样本得到尽可能好的泛化能力。本文提出了一种结合主动学习算法的半监督分类算法。该方法使用支持向量机作为基本的学习模型,通过主动学习方法选取训练样本,以伪标记的形式加入到分类器的训练中,结合验证分类器迭代选出置信度较高的伪标记样本,通过差分进化算法交叉变异伪标记样本扩充标记样本群。在两个数据集上进行仿真实验,与传统分类算法相比,所提算法的总体分类精度分别提高了1.97%、0.49%,表明该算法能够有效地提升主动学习样本选择的效率,在有限带标记样本情况下提高了分类器精度。  相似文献   

3.
自动分类是数据挖掘和机器学习中非常重要的研究领域.针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯分类,给出增量式贝叶斯分类机理参数计算及其算法.对算法分两种情况处理:第一种情况是新增样本有类别标签,则利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器.实验结果表明,该算法是可行有效的,比简单贝叶斯分类算法有更高的精度.增量式贝叶斯分类算法的提出为分类器的更新提供了一条新途径.  相似文献   

4.
针对复杂交通场景车辆检测算法自适应能力差的问题,提出了基于Co-training半监督学习方法的车辆鲁棒检测算法.首先,针对手工标记的少量样本,分别训练基于Haar-like特征的AdaBoost分类器和基于HOG(histograms of oriented gradients)特征的SVM(support vector machines)分类器,使其具有一定的识别能力;然后,基于Co-training半监督学习框架,将利用2种算法进行分类得到的新样本分别加入到对方的样本库中,增加训练样本数量,再次进行分类器的训练.由于这2类特征具有冗余性,各自检测出的正负样本包含对方漏检和误检的图像.由于样本数的增加,再次训练所得到的新分类器的鲁棒性得到了很大提高,能更加准确地检测出车辆,而且由算法对未标记样本进行分类标记,不再需要人为标记,提高了车辆检测算法的自适应能力.  相似文献   

5.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

6.
改进的球结构SVM多分类增量学习算法   总被引:1,自引:0,他引:1  
针对球结构支持向量机(support vector machine,SVM)增量学习算法在训练时间和分类精度上的不足,提出了一种改进的球结构SVM多分类增量学习算法.该算法首先构造一个完全二叉树用于多类分类;分析新增样本的加入对原支持向量集的影响,将新增样本集中部分样本和原始训练集中的支持向量以及分布在球体一定范围内的样本合并做为新的训练集,完成分类器的重构.实现通过减少训练样本缩短训练时间和完善分类器提高分类精度的目的.通过UCI标准数据集实验,结果表明,该算法在所需训练的样本数、训练时间以及准确率3方面都优于球结构SVM增量学习算法,尤其当样本分布不平衡时,该算法有更高的分类准确率.  相似文献   

7.
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。  相似文献   

8.
针对计算机辅助诊断(CAD)中标记病例样本难以收集所引起的小样本学习问题,提出基于混合类别标记新技术(HCLT)的小样本学习算法.该算法分别基于几何距离、概率分布及语义概念对大量存在的未标记样本进行差异化标记,将有一致标记结果的样本加入样本集,以此扩大训练样本集.为了减少错误标记样本对学习过程造成的不利影响,提出样本伪标记隶属度并引入模糊支持向量机(FSVM)学习中,由隶属度控制样本对学习过程的贡献程度.基于UCI数据集的实验结果表明,采用该算法能够解决小样本学习问题的有效性.与单一类别标记技术相比,该算法产生的错误标记样本显著减少、学习性能显著改善.  相似文献   

9.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(6):53-57
为提高网络入侵检测的分类效率,提出一种结合主动学习和半监督学习的入侵检测算法。结合入侵检测实际,对主动学习算法进行简化,用有标记样本训练生成2个分类器,实现对未标记样本的预测;将2个分类器预测不一致的未标记样本作为信息量丰富的样本,使用半监督学习算法进行标记;最后, 把新增加的新标记样本添加到主动学习和半监督学习的训练集中,训练各自分类器, 反复迭代直到未标记样本集为空, 并用最新的有标记样本集训练形成最终的分类器。使用KDD CUP 99数据集进行入侵检测实验,其结果表明,与SVM方法相比,其分类率提高了4.3%,且较好地缩减了问题规模。    相似文献   

10.
大规模的训练集中通常含有许多相似样本和大量对分类器模型构造“无用”的冗余信息,利用全部样本进行训练不但会增加训练时间,还可能因为出现“过拟合”现象而导致泛化能力下降。针对这一问题,本文从最具代表性样本与最近边界样本两个角度综合考虑,提出一种基于改进加权压缩近邻与最近边界规则SVM训练样本约减选择算法。该算法考虑到有价值训练样本对SVM分类器性能的重要影响,引进减法聚类利用改进的加权压缩近邻方法选择最具代表性的样本进行训练,在此基础上利用最近边界规则在随机小样本池中选择边界样本提高分类精度。在UCI和KDD Cup 1999数据集上的实验结果表明,本文的算法能够有效地去除大训练集中的冗余信息,以较少的样本获得更好的分类性能。  相似文献   

11.
为了避免倾向于高频词的信息增益(information gain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectation maximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能.  相似文献   

12.
根据最优超平面和类电磁机制算法的思想,提出了一种组合优化线性分类方法.该方法利用样本训练提取样本个体的类别特征,寻找到将类别分类的最优超平面,设计并实现了一种采用改进的类电磁机制算法的组合优化线性分类方法.试验取得了很好的分类效果,证实了组合优化线性分类方法的可行性.  相似文献   

13.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

14.
针对高光谱遥感图像分类中带标记训练样本较少、导致分类正确率偏低的问题,提出用于高光谱图像分类的空间约束半监督高斯过程方法.由于高光谱图像的特征空间满足流形分布假设,大量未标记样本可以使数据空间变得更加稠密,从而有助于更加准确地刻画局部空间特性,提高分类的精度和普适性.通过对高斯过程模型中的核函数施加空间近邻约束,建立未标记样本与带标记样本之间的空间联系.该半监督高斯过程分类器不仅可以提升高光谱遥感图像的分类性能,而且构造简单,实现方便.实验结果表明,在仅有少量带标记的训练样本情况下,半监督高斯过程分类方法对高光谱图像有较高的分类精度和稳定性.  相似文献   

15.
基于改进Fisher准则的深度卷积神经网络识别算法   总被引:1,自引:0,他引:1  
为了有效利用深度学习技术自动提取特征的能力,并解决当训练样本量减少或者迭代次数降低时识别性能急速下降的问题,提出了基于Fisher准则的深度学习算法.该方法在前馈传播时,采用卷积神经网络自动提取图像的结构信息等特征,同时利用卷积网络共享权值和池化、下采样等方法减少了权值个数,降低了模型复杂度;在反向传播权值调整时,采用了基于Fisher的约束准则.在权值的迭代调整时既考虑误差的最小化,又同时让样本保持类内距离小,类间距离大,从而使权值能更加快速地逼近有利于分类的最优值,当样本量不足或训练迭代次数不多时可有效地提高系统的识别率.大量的实验结果证明:该基于Fisher准则的混合深度学习算法在标签样本不足或者较少训练次数的情况下依然能达到较好的识别效果.  相似文献   

16.
为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升.  相似文献   

17.
为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。    相似文献   

18.
基于类别加权和方差统计的特征选择方法   总被引:1,自引:0,他引:1  
为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后,将2种策略相融合,实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法.  相似文献   

19.
为缓解基于半监督学习的水面目标检测对有限标注样本过拟合的问题,提高无标注样本中目标提取的有效性,提出了基于多视图交叉一致性学习的半监督水面目标检测算法。首先,该算法通过数据增强的方式为训练样本生成不同的视图以丰富数据集的多样性;然后,利用所提出的多视图目标判别器为无标注样本在线生成伪标签,有助于提取无标注样本的有效信息;最后,利用所提出的多视图交叉一致性学习使同一目标实例的不同视图的输出实现交叉一致性正则化,以促进检测模型学习判别性的特征从而降低过拟合的风险。在海上和内河数据集上的实验结果表明:文中所提算法能够提高特征提取的判别性,对多类别的水面目标检测精度达到91.0%,比全监督检测算法提高了18.7%,比其他半监督检测算法提高了3.8%以上;在检测速度上,该算法达到13.1帧/s,基本满足实时性要求。所提算法通过多视图交叉一致性学习提高特征的判别性和缓解检测模型的过拟合风险,有助于提高半监督水面目标检测的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号