首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
在实际的分类任务中,无标记样本数量充足而有标记样本数量稀少的情况经常出现,目前处理这种情况的常用方法是半监督自训练分类算法。提出了一种基于数据密度的半监督自训练分类算法,该算法首先依据数据的密度对数据集进行划分,从而确定数据的空间结构;然后再按照数据的空间结构对分类器进行自训练的迭代,最终得到一个新的分类器。在UCI中6个数据集上的实验结果表明,与三种监督学习算法以及其分别对应的自训练版本相比,提出的算法分类效果更好。  相似文献   

2.
蔡月红  朱倩  孙萍  程显毅 《计算机应用》2010,30(4):1015-1018
针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性假设条件;借助集成学习,以具有一定差异性的分类器组去估计初始值,并以多数投票策略去分类未标注语料集,以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验,证明了该方法能有效利用大量未标注语料提高算法的泛化能力。  相似文献   

3.
为降低数据标注的成本并提高投诉文本分类的准确率,本文提出基于半监督协同训练的多标签文本分类模型。该模型通过构建多个基分类器组的方式进行训练,其中每个基分类器组都由随机森林和支持向量机组成,并通过打伪标签的方式扩充有标签数据集进行循环训练至模型收敛,最终整合分类结果,充分发挥各学习器在不同特征上的分类优势,并在实验中验证该模型的有效性。  相似文献   

4.
半监督文本分类综述   总被引:3,自引:0,他引:3       下载免费PDF全文
文本分类是人们日常工作中经常遇到的问题,也是机器学习的重要研究内容.半监督学习算法同时考虑有标记和无标记数据,能显著提升学习效果.给出了文本分类的定义和特点,介绍了传统的监督学习分类算法和评价指标,对半监督文本分类的特点和基础理论进行了分析,并具体介绍了一些半监督文本分类算法,如贝叶斯方法和正则化方法.  相似文献   

5.
传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题.半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题.由于半监督的学习需要较少的人工介入,而精确率又较高,因此无论在理论上还是实践上都具有意义.本文在对已有的半监督学习算法进行研究的基础上,针对有标签数据相当少时,无法使用统计方法进行标注置信度评价的情况,提出了基于kNN和SVM的二阶段协同学习,实验证实该方法是有效的.  相似文献   

6.
针对现有文本分类方法在即时性文本信息上面临的挑战,考虑到即时性文本信息具有已标注数据规模小的特点,为了提高半监督学习的分类性能,该文提出一种基于优化样本分布抽样集成学习的半监督文本分类方法。首先,通过运用一种新的样本抽样的优化策略,获取多个新的子分类器训练集,以增加训练集之间的多样性和减少噪声的扩散范围,从而提高分类器的总体泛化能力;然后,采用基于置信度相乘的投票机制对预测结果进行集成,对未标注数据进行标注;最后,选取适量的数据来更新训练模型。实验结果表明,该方法在长文本和短文本上都取得了优于研究进展方法的分类性能。  相似文献   

7.
沈海龙  盛晓辉 《计算机应用研究》2023,40(4):1019-1023+1051
为了减少对有标记数据的依赖,充分利用大量无标记数据,提出了一个基于数据增强和相似伪标签的半监督文本分类算法(semi-supervised text classification algorithm with data augmentation and similar pseudo-labels, STAP)。该算法利用EPiDA(easy plug-in data augmentation)框架和自训练对少量有标记数据进行扩充,采用一致性训练和相似伪标签考虑无标记数据及其增强样本之间的关系和高置信度的相似无标记数据之间的关系,在有监督交叉熵损失、无监督一致性损失和无监督配对损失的约束下,提高无标记数据的质量。在四个文本分类数据集上进行实验,与其他经典的文本分类算法相比,STAP算法有明显的改进效果。  相似文献   

8.
9.
李亚娥  汪西莉 《微机发展》2013,(2):112-114,118
基于局部和全局一致性算法本身带有一定数量的参数,而参数delta的选取对算法迭代过程的迭代次数和分类结果很敏感,通常是通过实验手动设置,这种做法相对比较耗时。为了解决该问题,提高算法分类效率,文中针对该问题将算法应用到图像分类中提出了一种自适应的参数设置方法,确定参数delta的最佳取值范围。通过实验结果可以看出,确定的参数范围的取值能使算法的分类正确率最高、迭代过程所用的时间最短。因此本方法能有效地提高算法的分类效率。  相似文献   

10.
一种半监督局部线性嵌入算法的文本分类方法*   总被引:3,自引:0,他引:3  
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性嵌入算法;最后通过仿真实验验证了改进算法的有效性。  相似文献   

11.
波段选择是数据降维的有效手段,但有限的标记样本影响了监督波段选择的性能。提出一种利用图Laplacian和自训练策略实现半监督波段选择的方法。该方法首先定义基于图的半监督特征评分准则以产生初始波段子集,接着在该子集基础上进行分类,采用自训练策略将部分可信度较高的非标记样本扩展至标记样本集合,再用特征评分准则对波段子集进行更新。重复该过程,获得最终波段子集。高光谱波段选择与分类实验比较了多种非监督、监督和半监督方法,实验结果表明所提算法能选择出更好的波段子集。  相似文献   

12.
针对蚁群算法搜索初期收敛速度慢和容易陷入局部最优的问题,对蚁群算法进行改进.在初始化阶段,采用贪心策略构造次优路径并增加该路径上的信息素浓度,实现不同路径上信息素的初始分配,使信息素在搜索初期就能发挥指导性作用,让蚂蚁更快地趋向于最优解的附近;在迭代寻优过程中,引入遗传变异操作,对每次迭代后的最优路径作变异操作,尝试寻...  相似文献   

13.
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tri-training的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。  相似文献   

14.
基于蚁群算法的文本聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

15.
针对蚁群算法应用于自动导引小车路径规划收敛速度慢、极易陷入局部最优的缺点,提出一种基于信息素负反馈的超启发式蚁群优化(ACONhh)算法。该算法充分利用历史搜索信息和持续获得错误经验,较快引导蚁群探索最优路径;分层化选择可行节点,加快算法初期收敛速度;设置挥发因子呈类抛物线变化以及调整信息素更新机制,改善路径全局的随机搜索特性。通过严格的数学方式证明了ACONhh算法具有收敛性。仿真和实验结果表明,该算法的收敛速度以及全局搜索性能显著优于目前流行的ACO、ACOhh和ACOihh算法。  相似文献   

16.
在实际应用中,容易获取大量的未标记样本数据,而样本数据是有限的,因此,半监督分类算法成为研究者关注的热点.文中在协同训练Tri-Training算法的基础上,提出了采用两个不同的训练分类器的Simple-Tri-Training方法和对标记数据进行编辑的Edit-Tri-Training方法,给出了这三种分类方法与监督分类SVM的分类实验结果的比较和分析.实验表明,无标记数据的引入,在一定程度上提高了分类的性能;初始训练集和分类器的选取以及标记过程中数据编辑技术,都是影响半监督分类稳定性和性能的关键点.  相似文献   

17.
针对基本蚁群算法的不能更好地模拟真实蚂蚁觅食和局部收敛等现象,提出一种用于求解旅行商问题(TSP)的改进蚁群算法,该算法将信息素的更新与挥发算法做了改进,从而能够更好的模拟真实蚂蚁,并且有效的提高了搜索效率。仿真结果证明了该算法的有效性和可行性。  相似文献   

18.
针对蚁群算法收敛速度慢,容易陷入局部最优的问题,提出了一种基于聚度的自适应动态混沌蚁群算法(A_ACS)。在迭代前期利用聚度来衡量解的多样性,自适应调节局部信息素分布,同时引入混沌算子来增加种群多样性,避免算法陷入局部最优,从而提高解的精度;在迭代后期去掉混沌算子,减少混沌扰动性,来提高算法的收敛速度。将A_ACS用于TSP问题,仿真结果表明,该算法较ACS和MMAS算法减少了搜索时间,并且提高了解的质量,其平衡了多样性与收敛性之间的矛盾,整体性能优于其他两种算法。  相似文献   

19.
常晓磊  闫仁武 《微机发展》2007,17(7):114-116
Parepinelli等提出了基于ACO的分类算法。文中提出了一种基于自适应蚁群算法的分类规则挖掘算法,该算法采用了与Parepinelli算法不同的启发式函数及信息素改变方法,引入了自适应机制与变异策略,从而达到缩短蚁群算法计算时间、加快算法收敛速度、提高预测准确率的目的。实验结果验证了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号