首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
当前机器学习面临的主要问题之一是如何有效地处理海量数据,而标记训练数据是十分有限且不易获得的。提出了一种新的半监督SVM算法,该算法在对SVM训练中,只要求少量的标记数据,并能利用大量的未标记数据对分类器反复的修正。在实验中发现,Tri-training的应用确实能够提高SVM算法的分类精度,并且通过增大分类器间的差异性能够获得更好的分类效果,所以Tri-training对分类器的要求十分宽松,通过SVM的不同核函数来体现分类器之间的差异性,进一步改善了协同训练的性能。理论分析与实验表明,该算法具有较好的学习效果。  相似文献   

2.
为了处理半监督支持向量机优化中的非凸非光滑问题,引入一个多项式光滑函数来逼近非凸的目标函数,给出的多项式函数在样本的高密度区逼近精度高,逼近精度低时出现在样本的低密度区.采用共轭梯度法求解模型.在人工数据和UCI数据库中的4个数据集上的实验结果显示,算法不仅能保证标号数据很少时的分类精度,而且不因标号数据的增多而明显提高分类性能,因此给出的分类器性能是稳定的.  相似文献   

3.
为了解决半监督支持向量分类优化模型中的非凸非光滑问题,基于分段逼近的思想提出了一个分段函数,并以此逼近非凸非光滑的目标函数。给出的分段函数可以根据不同的精度要求选择不同的逼近参数,同时构造出基于上述分段函数的光滑半监督支持向量机模型。采用了LDS(Low Density Separation)算法求解模型,分析了其对对称铰链损失函数的逼进精度。理论分析和数值实验结果都证明分段光滑的半监督支持向量机的分类性能和效率优于以往提出的光滑模型。  相似文献   

4.
针对半监督支持向量分类优化中的非凸非光滑化问题,建立光滑半监督支持向量机模型,提出基于分段多项式函数和插值思想构造一个新的三次样条光滑函数,从而可以更好地逼近对半监督支持向量机中非光滑的对称铰链损失函数部分,构造出基于此光滑函数的具有二阶光滑的半监督支持向量机模型。进而可以用优化中的光滑算法来求解该模型,并分析所构造的三次样条函数对对称铰链损失函数的逼近精度。通过数据实验证明所构造的新的光滑半监督模型具有较好的分类效果和效率。  相似文献   

5.
基于SVM的监督学习方法一般是通过采用标记样本去训练SVM回归模型,从而得到支持向量,且只有这些支持向量对模型的估计才有贡献。然而在实际应用中,通过取样分析获得的标记样本一般数量较少,且难以覆盖整个样本空间,所以训练出来的SVM回归模型的支持向量也不够完整,影响模型的估计精度和泛化能力。针对该问题,本文利用未标记样本中信息较为丰富的可能支持向量,采用本文提出的判定准则和标记方法后用于SVM回归模型的学习,仿真结果表明,随着未标记样本中支持向量的增加,SVM回归模型的估计精度和泛化能力得到改善。  相似文献   

6.
如何有效利用海量的数据是当前机器学习面临的一个重要任务,传统的支持向量机是一种有监督的学习方法,需要大量有标记的样本进行训练,然而有标记样本的数量是十分有限的并且非常不易获取.结合Co-training算法与Tri-training算法的思想,给出了一种半监督SVM分类方法.该方法采用两个不同参数的SVM分类器对无标记样本进行标记,选取置信度高的样本加入到已标记样本集中.理论分析和计算机仿真结果都表明,文中算法能有效利用大量的无标记样本,并且无标记样本的加入能有效提高分类的正确率.  相似文献   

7.
胡庆辉  丁立新  何进荣 《软件学报》2013,24(11):2522-2534
在机器学习领域,核方法是解决非线性模式识别问题的一种有效手段.目前,用多核学习方法代替传统的单核学习已经成为一个新的研究热点,它在处理异构、不规则和分布不平坦的样本数据情况下,表现出了更好的灵活性、可解释性以及更优异的泛化性能.结合有监督学习中的多核学习方法,提出了基于Lp范数约束的多核半监督支持向量机(semi-supervised support vector machine,简称S3VM)的优化模型.该模型的待优化参数包括高维空间的决策函数fm和核组合权系数θm.同时,该模型继承了单核半监督支持向量机的非凸非平滑特性.采用双层优化过程来优化这两组参数,并采用改进的拟牛顿法和基于成对标签交换的局部搜索算法分别解决模型关于fm的非平滑及非凸问题,以得到模型近似最优解.在多核框架中同时加入基本核和流形核,以充分利用数据的几何性质.实验结果验证了算法的有效性及较好的泛化性能.  相似文献   

8.
针对个人信用评估中未标号数据获取容易而已标号数据获取相对困难,以及普遍存在的数据不对称问题,提出了基于改进图半监督学习技术的个人信用评估模型。该模型采用了半监督学习技术,一方面能从大量的未标号数据中学习,避免了个人信用评估中已标号数据相对缺乏造成的泛化能力下降问题;另一方面,通过改进图半监督学习技术,对图半监督迭代结果进行归一化及修改决策边界,有效减小了数据不对称的影响。在UCI的三个信用审核数据集上的评测结果表明,该模型具有明显优于支持向量机和改进前方法的评估效果。  相似文献   

9.
基于半监督学习思想,采用支持向量机算法来构建分类器,用大量未标识样本来改善分类器性能。标记后的未标识样本可能存在标记错误,采用信息熵加权的欧氏距离去噪方法,减少噪声样本对最优分类面构建的影响,并且对测试错误的数据进行人工反馈提高分类器精度。实验证明了该方法的有效性,去噪提高了分类器的准确率。  相似文献   

10.
针对基于拉普拉斯支持向量机(LapSVM)的半监督分类方法需要将全部无标记样本加入训练样本集中训练得到分类器,算法需要的时间和空间复杂度高,不能有效处理大规模图像分类的问题,提出了模糊C-均值聚类(FCM)预选取样本的LapSVM图像分类方法。该方法利用FCM算法对无标记样本聚类,根据聚类结果选择可能在最优分类超平面附近的无标记样本点加入训练样本集,这些样本可能是支持向量,携带对分类有用的信息,其数量只是无标记样本的一少部分,因此使训练样本集减小。计算机仿真结果表明该方法充分利用了无标记样本所蕴含的判别信息,有效地提高了分类器的分类精度,降低了算法的时间和空间复杂度。  相似文献   

11.
李妍妍  李媛媛  叶世伟 《计算机仿真》2007,24(10):107-110,135
利用流形正则化的思想,围绕半监督学习,提出了一种针对流形正则化的模式分类和回归分析的新算法.该算法基于流形上的正则化项和传统的正则化项相结合的方法,利用支持向量机分类与回归已有的结果,解决半监督学习的分类与回归问题,提高了泛化能力.该算法实现简单,无需调用其他程序.通过数值试验,验证了该算法具有较好的泛化能力,对噪音具有较强的鲁棒性.且在分类问题上,该算法在输入极少数有标签样本时,也能保持较好的分类效果;在回归问题上,也具有较好的学习精度,尤其在输入带有噪音的流形数据上时,表现就更为突出.  相似文献   

12.
在交互式图像检索中,基于支持向量机((Support Vector Machines,SVM)理论的主动反馈技术扮演着重要角色。然而,现有的SVM主动反馈方法普遍受到小样本问题、不对称分布问题以及样本冗余性等问题的制约。提出两种新颖策略以应对上述问题:(1)针对相关反馈的技术特点,提出了非对称半监督学习框架,该框架采用不同的学习方法为语义相关类和无关类挑选未标记图像,以有效增强SVM的泛化能力;(2)设计了基于代表性度量的主动采样方法,该方法不仅能够从未标记数据中鉴别出富有信息(most informative)图像,而且确保了待标记图像之间具有较大的差异性。实验结果及对比分析表明,所提方案明显优于其它同类算法。  相似文献   

13.
姜小燕  孙福明  李豪杰 《计算机科学》2016,43(7):77-82, 105
非负矩阵分解是在矩阵非负约束下的分解算法。为了提高识别率,提出了一种基于稀疏约束和图正则化的半监督非负矩阵分解方法。该方法对样本数据进行低维非负分解时,既保持数据的几何结构,又利用已知样本的标签信息进行半监督学习,而且对基矩阵施加稀疏性约束,最后将它们整合于单个目标函数中。构造了一个有效的更新算法,并且在理论上证明了该算法的收敛性。在多个人脸数据库上的仿真结果表明,相对于NMF、GNMF、CNMF等算法,GCNMFS具有更好的聚类精度和稀疏性。  相似文献   

14.
在多示例学习中引入利用未标记示例的机制,能降低训练的成本并提高学习器的泛化能力。当前半监督多示例学习算法大部分是基于对包中的每一个示例进行标记,把多示例学习转化为一个单示例半监督学习问题。考虑到包的类标记由包中示例及包的结构决定,提出一种直接在包层次上进行半监督学习的多示例学习算法。通过定义多示例核,利用所有包(有标记和未标记)计算包层次的图拉普拉斯矩阵,作为优化目标中的光滑性惩罚项。在多示例核所张成的RKHS空间中寻找最优解被归结为确定一个经过未标记数据修改的多示例核函数,它能直接用在经典的核学习方法上。在实验数据集上对算法进行了测试,并和已有的算法进行了比较。实验结果表明,基于半监督多示例核的算法能够使用更少量的训练数据而达到与监督学习算法同样的精度,在有标记数据集相同的情况下利用未标记数据能有效地提高学习器的泛化能力。  相似文献   

15.
基于支持向量机的商业银行信用风险评估   总被引:5,自引:1,他引:5  
支持向量机(SupportVectorMachine,简称SVM)是在经验风险最小化原理上发展出的一种新的机器学习技术,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。论文首先详细介绍了支持向量机的线性和非线性分类算法,然后将支持向量机非线性分类器应用于银行信用风险的评估中,最后分析对比了选用不同核函数和参数的实验结果。  相似文献   

16.
There are two well-known characteristics about text classification.One is that the dimension of the sample space is very high,while the number of examples available usually is very small.The other is that the example vectors are sparse.Meanwhile,we find existing support vector machines active learning approaches are subject to the influence of outliers.Based on these observations,this paper presents a new hybrid active learning approach.In this approach,to select the unlabelled example(s) to query,the learner takes into account both sparseness and high-di-mension characteristics of examples as well as its uncertainty about the examples‘‘ categorization.This way, the active learner needs less labeled examples,but still can get a good generalization performance more quickly than competing methods.Our empirical results indicate that this new approach is effective.  相似文献   

17.
正则化路径上三步式SVM贝叶斯组合   总被引:1,自引:0,他引:1  
模型组合旨在整合并利用假设空间中多个模型提高学习系统的稳定性和泛化性.针对支持向量机(support vector machine,SVM) 模型组合多采用基于样本采样方法构造候选模型集的现状,研究基于正则化路径的SVM模型组合.首先证明SVM模型组合Lh-风险一致性,给出SVM模型组合基于样本的合理性解释.然后提出正则化路径上的三步式SVM贝叶斯组合方法.利用SVM正则化路径分段线性性质构建初始模型集,并应用平均广义近似交叉验证(generalized approximate cross-validation, GACV)模型集修剪策略获得候选模型集.测试或预测阶段,应用最小近邻法确定输入敏感的最终组合模型集,并实现贝叶斯组合预测.与基于样本采样方法不同,三步式SVM贝叶斯组合方法基于正则化路径在整个样本集上构造模型集,训练过程易于实现,计算效率较高.模型集修剪策略可减小模型集规模,提高计算效率和预测性能.实验结果验证了正则化路径上三步式SVM模型组合的有效性.  相似文献   

18.
提出基于K均值集成和支持向量机相结合的P2P流量识别模型,以保证流量识别精度和稳定性,克服聚类识别模型中参数值难以确定、复杂性高等缺点。对少量标签样本采用随机簇中心的K均值算法训练基聚类器,按最大后验概率分配簇标签,无标签样本与其最近簇标签一致;按投票机制集成无标签样本标签信息,并结合原标签样本训练支持向量机识别模型。该模型利用了集成学习稳定性和SVM在小样本集上的良好泛化性能。理论分析和仿真实验结果证明了方案的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号