共查询到20条相似文献,搜索用时 62 毫秒
1.
针对协同训练算法对无标记数据挑选效率较低,导致噪声数据引入问题,提出了基于图的置信度估计半监督协同训练算法(CESL).利用样本数据自身的结构信息,显式计算无标记样本所属类别概率.同时,采用了多分类器隐式对无标记数据进行置信度估计,以提高无标记数据挑选标准.将显示计算和隐式估计结合对无标记数据进行选择,减低噪音数据的引入,更新分类器.在UCI数据集上的对比实验表明了该算法的有效性. 相似文献
2.
3.
4.
武永成 《电脑与微电子技术》2012,(20):8-11,16
半监督学习,与传统的监督学习不同,能同时在少量的已标记数据和大量的未标记数据上进行学习,从而提高性能。协同训练是一种流行的半监督学习算法,已成为目前机器学习和模式识别领域中的一个研究热点。综述半监督学习协同训练的基本思想、研究现状、常用算法,分析目前存在的主要困难,并指出需进一步研究的几个问题。 相似文献
6.
半监督算法作为一种能有效利用大量的未标签数据来改善少量的标签数据训练出来的分类器性能的算法,无论在理论上还是实践上都很有意义。提出一种基于密度敏感距离的协同训练算法,通过引入一种能有效描述数据的内在聚类分布的距离度量,来改善用组合分类器在少量数据集上得到的弱分类器,实验表明该方法是有效的。 相似文献
7.
8.
传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题.半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题.由于半监督的学习需要较少的人工介入,而精确率又较高,因此无论在理论上还是实践上都具有意义.本文在对已有的半监督学习算法进行研究的基础上,针对有标签数据相当少时,无法使用统计方法进行标注置信度评价的情况,提出了基于kNN和SVM的二阶段协同学习,实验证实该方法是有效的. 相似文献
10.
将支持向量机与半监督学习理论相结合,提出基于支持向量机协同训练的半监督回归模型,使用两个支持向量机回归模型相互影响,协同训练。利用实验数据集进行实验,并与监督支持向量机回归模型、半监督自训练支持向量机回归模型作比较。实验结果表明,基于支持向量机协同训练的半监督回归模型在缺少标记样本的情况下,提高了回归估计的精度。 相似文献
11.
12.
本文意在提高文本分类的准确度和速度。利用tf 算法对特征项进行初步赋予权值,再使用屏蔽词对特殊非实
意词进行屏蔽。本文独创概率论分布法,使用L-E 算子进行加权,使得特殊位置与分布广泛的特征项,呈指数形式加权,较优
结果能更快收敛。本文利用遗传算法,采用交叉算子和变异算子,采用适宜的目标函数,加快了检索速度,并有更大概率得到
最优结果。采用混合算法,可以排除同义词和非特征项的干扰。 相似文献
13.
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。 相似文献
14.
15.
随着Internet技术的发展,万维网上的文档数目成指数级增长。在如此浩瀚的信息库中,用户很难找到自己所需要的信息,如何自动且高效地处理这些海量文档信息成为了目前重要的研究课题。文章通过对抽取到的数据集文档中的标题,超连接和标记等超文本信息,以及文档内容本身分别建立分类模型。然后根据神经网络集成各个分类模型得出判别结果,提出了一种基于元信息的超文本集成分类算法,该算法能更好的综合利用超文本的多元结构化信息。实验结果表明,相对于单独利用某种超文本结构信息进行分类的方法。基于元信息的超文本集成分类算法具有更好的分类性能。 相似文献
16.
孙荣宗 《数字社区&智能家居》2010,(1)
KNN(K-Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率就会大大降低。该文提出了一种提高KNN分类效率的改进算法。算法在训练过程中计算出各类文本的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验表明改进的算法可以在保持KNN分类性能基本不变的情况下,显著提高分类效率。 相似文献
17.
18.
19.
根据优化理论中的Hooke-Jeeves模式搜索(pattern search)法提出了多层前馈式神经网络快速训练算法HJPS.该算法由“探测搜索”和“模式移动”两个步骤交替进行.其基本思想是探测搜索依次沿各个坐标轴进行,用以确定新的基点和有利于网络误差函数值下降的方向.模式移动沿相邻两个基点的连线方向前进,从而进一步减小误差函数值,达到更快收敛.实验结果表明,同BP算法以及其他几种快速算法相比,HJPS算法在收敛速度和运算时间上都有非常显著的提高.同时HJPS算法的泛化能力很强. 相似文献
20.
一种基于EM非监督训练的自组织分词歧义解决方案 总被引:13,自引:1,他引:12
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想,每个句子所对应的所有(或一定范围内)的分词结果构成训练集,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法,对于每个句子至少带有一个歧义的测试集的正确切分精度达到85.36%(以句子为单位) 。 相似文献