共查询到19条相似文献,搜索用时 437 毫秒
1.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价. 相似文献
2.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。 相似文献
3.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。 相似文献
4.
为了解决大样本集标记工作问题和分类器对新样本分类适应能力差的问题,结合球结构支持向量机,提出了一种主动学习自适应性分类方法。该方法根据主动学习思想,以边界近邻策略迭代选取最有价值的样本,初始训练分类器,再依据增量学习方法选取包含新信息的样本,以阶段跟新方式重新训练分类器,并根据余弦相似度对内存中支持向量进行控制。实验结果表明,该方法既减少了标记开销,又保持了分类器分类性能的稳定性和延续性。 相似文献
5.
6.
具有概念漂移的数据流分类应用场景逐渐增多,如何解决该类问题成为研究热点.文中根据数据流概念漂移特征,结合增量学习原理实现基于样本不确定性选择策略的增量式数据流分类(IDSCBUC)模型.分类模型用支持向量机作为训练器,基于当前分类器从相邻训练集中按照样本不确定性值选择出"富信息"样本代表新概念样本集,把新概念样本集与支持向量集合并更新分类器,形成新的分类模型.理论分析和实验结果表明该方案是可行的,且具备抗噪声能力. 相似文献
7.
针对经典支持向量机在增量学习中的不足,提出一种基于云模型的最接近支持向量机增量学习算法。该方法利用最接近支持向量机的快速学习能力生成初始分类超平面,并与k近邻法对全部训练集进行约简,在得到的较小规模的精简集上构建云模型分类器直接进行分类判断。该算法模型简单,不需迭代求解,时间复杂度较小,有较好的抗噪性,能较好地体现新增样本的分布规律。仿真实验表明,本算法能够保持较好的分类精度和推广能力,运算速度较快。 相似文献
8.
刘成忠 《计算机技术与发展》2011,21(11)
为了克服支持向量机方法对于噪声或孤立野值点敏感的问题,通过引入模糊理论与粗糙集方法,可以分别得到两种不确定支持向量机模型.文中通过分析和比较模糊支持向量机和粗糙支持向量机分类模型构造方法,解释了这两种不确定支持向量机模型克服噪声影响的原理.同时通过一个合成数据集和一组标准数据集对这两种不确定支持向量机的泛化性能进行了对比验证.实验结果表明,相比传统支持向量机,两种不确定支持向量机都能不同程度地提高分类精度,并且模糊支持向量机算法整体表现出了更好的泛化性能. 相似文献
9.
为了提高孪生支持向量机的泛化能力,提出一种新的孪生大间隔分布机算法,以增加间隔分布对于训练模型的影响.理论研究表明,间隔分布对于模型的泛化性能有着非常重要的影响.该算法在标准孪生支持向量机优化目标函数上增加了间隔分布的影响,间隔分布通过一阶和二阶数据统计特征来体现.在标准数据集上的实验结果表明,所提出的算法比SVM、TWSVM、TBSVM算法的分类精确度更高. 相似文献
10.
模糊支持向量机具有很好的抗噪声能力,受到很多专家的重视。然而模糊支持向量机上的主动学习算法却一直鲜有研究。提出一种针对模糊支持向量机的主动学习算法,该算法首先在训练集合上利用模糊支持向量机得到决策超平面,然后选取间隔内的未标记样本进行标记,并计算相应的模糊权重,以及更新原有训练样本的模糊权重。最后结合赋予模糊权重的新标记样本重新进行学习,直到未标记样本集为空或者分类性能满足要求。在UCI标准数据集和语音识别数据集上的实验充分验证了该算法的有效性。 相似文献
11.
当未标记数据与有标记数据类别比例偏移较大时,半监督支持向量机性能不佳.基于此情况,文中提出面向类别比例偏移的半监督支持向量机方法.首先估计未标记数据类中心,然后对多个类别比例下的类中心进行最坏情况集成,从而提升半监督支持向量机的性能保障.实验表明,文中方法有效提升半监督支持向量机在类别比例偏移时的性能保障. 相似文献
12.
为解决传统支持向量机易出现学习“过拟合”和丢失数据统计特征等问题,通过引入模糊隶属度和总间隔思想,提出一种基于总间隔的最大间隔最小包含模糊球形学习机(TMF-SSLM),使得一类(正类)被包含于一个最小包含超球内,而另一类(负类)与该超球间隔最大化,从而同时实现类间间隔的增大和正负两类类内体积的缩小。通过使用差异成本,解决不平衡训练样本问题。引入总间隔和模糊性惩罚,克服传统软间隔分类机的过拟合问题,显著提升球形学习机的泛化能力。采用UCI实际数据集分别对二类和一类模式分类进行实验,结果显示TMF-SSLM具有优于相关方法的稳定分类性能。 相似文献
13.
虽然孪生支持向量机(Twin Support Vector Machine,TSVM)的处理速度优于传统的支持向量机,但其并没有考虑输入样本点对最优分类超平面所产生的不同影响。通过为每个训练样本赋予不同的样本重要性,以及减少样本点对非平行超平面的影响,提出了模糊加权孪生支持向量机(Fuzzy TSVM,FTSVM)。在UCI标准数据集上,对FTSVM进行了实验研究并与TSVM、FSVM和SVM方法进行了比较,实验结果表明FTSVM方法是有效的。 相似文献
14.
针对传统的半监督SVM训练方法把大量时间花费在非支持向量优化上的问题,提出了在凹半监督支持向量机方法中采用遗传FCM(Genetic Fuzzy C Mean,遗传模糊C均值)进行工作集样本预选取的方法。半监督SVM优化学习过程中,在原来训练集上(标签数据)加入了工作集(无标签数据),从而构成了新的训练集。该方法首先利用遗传FCM算法将未知数据划分成某个数量的子集,然后用凹半监督SVM对新数据进行训练得到决策边界与支持矢量,最后对无标识数据进行分类。这样通过减小工作样本集,选择那些可能成为支持向量的边界向量来加入训练集,减少参与训练的样本总数,从而减小了内存开销。并且以随机三维数据为例进行分析,实验结果表明,工作集减小至原工作集的一定范围内,按比例减少工作集后的分类准确率、支持向量数与用原工作集相比差别不大,而分类时间却大为减少,获得了较为理想的样本预选取效果。 相似文献
15.
林秋虾 《电脑与微电子技术》2011,(19):11-13
中文分词是中文信息处理的基础,也是很多中文应用首先要面对的问题。目前效果最好的分词模型是词位标注法,该方法需要使用一个分类器对每个汉字的位置进行判定。基于统计学习理论的支持向量机较好地解决小样本、非线性、高维数和局部极小点等实际问题,被公认为是优秀的机器学习方法和分类算法。实现一个基于支持向量机的中文分词系统,并在实验中取得较好的结果,证明支持向量机适用于中文分词时的词位标注问题。 相似文献
16.
中文分词是中文信息处理的基础,也是很多中文应用首先要面对的问题。目前效果最好的分词模型是词位标注法,该方法需要使用一个分类器对每个汉字的位置进行判定。基于统计学习理论的支持向量机较好地解决小样本、非线性、高维数和局部极小点等实际问题,被公认为是优秀的机器学习方法和分类算法。实现一个基于支持向量机的中文分词系统,并在实验中取得较好的结果,证明支持向量机适用于中文分词时的词位标注问题。 相似文献
17.
18.