首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 62 毫秒
1.
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。  相似文献   

2.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

3.
刘杨磊    梁吉业    高嘉伟    杨静   《智能系统学报》2013,8(5):439-445
传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性.  相似文献   

4.
将支持向量机与半监督学习理论相结合,提出基于支持向量机协同训练的半监督回归模型,使用两个支持向量机回归模型相互影响,协同训练。利用实验数据集进行实验,并与监督支持向量机回归模型、半监督自训练支持向量机回归模型作比较。实验结果表明,基于支持向量机协同训练的半监督回归模型在缺少标记样本的情况下,提高了回归估计的精度。  相似文献   

5.
基于SVM的监督学习方法一般是通过采用标记样本去训练SVM回归模型,从而得到支持向量,且只有这些支持向量对模型的估计才有贡献。然而在实际应用中,通过取样分析获得的标记样本一般数量较少,且难以覆盖整个样本空间,所以训练出来的SVM回归模型的支持向量也不够完整,影响模型的估计精度和泛化能力。针对该问题,本文利用未标记样本中信息较为丰富的可能支持向量,采用本文提出的判定准则和标记方法后用于SVM回归模型的学习,仿真结果表明,随着未标记样本中支持向量的增加,SVM回归模型的估计精度和泛化能力得到改善。  相似文献   

6.
半监督的双协同训练要求划分出的2个数据向量相互独立,不符合真实的网络入侵检测数据特征。为此,提出一种基于三协同训练(Tri-training)的入侵检测算法。使用大量未标记数据,通过3个分类器对检测结果进行循环迭代训练,避免交叉验证。仿真实验表明,在少量样本情况下,该算法的检测准确度比SVM Co-training算法提高了2.1%,并且随着循环次数的增加,其性能优势更加明显。  相似文献   

7.
蒋润  顾春华  阮彤 《计算机应用》2014,34(4):1099-1104
评价单元的识别是情感倾向性分析中重要的一步,但由于标注语料匮乏,大多数研究集中在用人工构建规则、模板来识别评价单元的方法上。为了减轻标注训练语料的工作,同时进一步挖掘未标记样本的信息,提出一种基于协同训练机制的评价单元识别算法,以利用少量的已标记样本和大量的未标记样本来提高识别性能。该算法利用Tri-training的思想,将支持向量机(SVM)、最大熵(MaxEnt)以及条件随机场(CRF)三个不同分类器组合成一个分类体系,对生成的评价单元候选集进行分类。将Tri-training的算法思想应用于实验来对比采用单一分类器的方法,结果表明,该算法能够有效地识别主观句中的评价单元。  相似文献   

8.
基于半监督学习思想,采用支持向量机算法来构建分类器,用大量未标识样本来改善分类器性能。标记后的未标识样本可能存在标记错误,采用信息熵加权的欧氏距离去噪方法,减少噪声样本对最优分类面构建的影响,并且对测试错误的数据进行人工反馈提高分类器精度。实验证明了该方法的有效性,去噪提高了分类器的准确率。  相似文献   

9.
本文提出了基于半监督学习的行人检测方法,用以解决大量的无标记样本问题。在集成分类器的训练过程中,选择BP神经网络分类器、SVM分类器和KNN分类器作为3个子分类器,利用协同训练机制对各个子分类器进行协同训练。针对半监督学习中误标记样本问题,引入富信息策略和辅助学习策略消除训练过程引入的噪声,同时充分利用无标记样例,进而提高分类器的分类精度。通过对测试集和实时视频进行的行人检测实验,证明了本文方法的可行性和有效性。  相似文献   

10.
针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题,提出一种支持向量机(SVM)的半监督网络流量分类方法。该方法在SVM训练中,使用增量学习技术在初始和新增样本集中动态地确定支持向量,避免不必要的重复训练,改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况;改进半监督Tri-training方法对分类器进行协同训练,同时使用大量未标记和少量已标记样本对分类器进行反复修正, 减少辅助分类器的噪声数据,克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明,该方法可明显提高网络流量分类的准确率和效率。  相似文献   

11.
在对两种SVM学习算法(SMO和SVMlight)进行分析的基础上,提出了一种改进的基于集合划分和SMO的算法SDBSMO。该算法根据样本违背最优化条件的厉害程度将训练集划分为多个集合,每次迭代后利用集合信息快速更新工作集和相关参数,从而减少迭代开销,提高训练速度。实验结果表明该算法能很好地提高支持向量机的训练速度。  相似文献   

12.
协同训练可以提高半监督分类器的分类精度,而如何构建具有冗余特性的训练集是其关键所在。依据遥感影像的纹理特征,提出了基于纹理特征值及像素灰度值构建的两个训练集上协同训练支持向量机的算法CTSVMTRS。仿真实验比较了在不同训练集上CTSVMTRS的分类效果,在叠代训练过程中,两类数据集的所有过程的测试结果都存在的明显差异验证了提出的观念。  相似文献   

13.
基于支持向量机方法的中文组织机构名的识别   总被引:2,自引:1,他引:1  
在应用基本的支持向量机算法的基础上,提出了一种分步递增式学习的方法,利用主动学习的策略对训练样本进行选择,逐步增大提交给学习器训练样本的规模,以提高学习器的识别精度.实验表明,采用主动学习策略的支持向量机算法是有效的,在实验中,中文机构名识别的正确率和召回率分别达到了81.7%和86.8%.  相似文献   

14.
利用SVM对大规模数据进行训练时,需要占用很大的内存空间,甚至会因内存不够而无法训练。为此,提出了将大规模数据分块求解,然后将分块求解的结果进行信息融合的新方法。首先训练得到各模块的支持向量,将所有支持向量进行融合,得到决策模型和一组支持向量。当有新的数据加入时,将其作为一个子模块,训练得到该模块的支持向量,与原模型中获得的支持向量进行融合,训练得到新的决策模型。利用KDDCUP99数据进行实验,结果表明该方法的测试精度与在所有数据集上训练的精度相当,花费时间少,适用于增量学习。  相似文献   

15.
提出了一种新的多类支持向量机算法OC-K-SVM.对k类分类问题,该方法构造了k个分类器,每一个分类器只对一类样本进行训练.使用Benchmark的数据集进行了初步的实验,实验结果验证了算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号