首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
提出一种针对弱标记的多标记数据集成学习分类方法,它通过采用基于相似性成对约束投影的方法来处理数据,更好地利用了弱标记样本的特征,从而提高了分类性能。  相似文献   

2.
多标记学习主要用于解决单个样本同时属于多个类别的问题.传统的多标记学习通常假设训练数据集含有大量有标记的训练样本.然而在许多实际问题中,大量训练样本中通常只有少量有标记的训练样本.为了更好地利用丰富的未标记训练样本以提高分类性能,提出了一种基于正则化的归纳式半监督多标记学习方法——MASS.具体而言,MASS首先在最小化经验风险的基础上,引入两种正则项分别用于约束分类器的复杂度及要求相似样本拥有相似结构化多标记输出,然后通过交替优化技术给出快速解法.在网页分类和基因功能分析问题上的实验结果验证了MASS方法的有效性.  相似文献   

3.
为解决多标记数据的分类问题,提出基于稀疏表示的多标记学习算法.首先将待分类样本表示为训练样本集上的稀疏线性组合,基于l1-最小化方法求得最稀疏的系数解.然后利用稀疏系数的判别信息提出一个计算待分类样本对各标记的隶属度的方法.最后根据隶属度对标记进行排序,进而完成分类.在Yeast基因功能分析、自然场景分类和web页面分类上的实验表明,该算法能够有效解决多标记数据的分类问题,与其它方法相比取得更好的结果.  相似文献   

4.
一种直推式多标记文档分类方法   总被引:3,自引:0,他引:3  
真实世界的文档往往同时属于多个类别,因此,利用多标记学习技术进行文档分类是一个重要的研究方向,现有多标记文档分类方法需要利用大量有正确分类标记的文档才能获得好的分类性能,然而,在实际应用中往往只能得到少量的有标记文档作为分类所需的训练文档.出于利用未标记文档的想法,提出一种基于随机游走的直推式多标记文档分类方法,可以利用大量的未标记文档来辅助提高分类性能,实验结果表明,该方法的性能优于现有直推式多标记分类方法CNMF.  相似文献   

5.
在多标记分类问题中,每个样本可以同时与多个标记类别相关,其中一些标记之间可能具有相关性,充分利用这些标记相关性,可优化分类性能.因此,文中利用标记的频繁项集对标记相关性进行挖掘,提出针对基于邻域粗糙集的多标记属性约简算法进行改进的特征选择算法,并进一步将训练样本根据特征之间的相似性进行聚类,结合局部样本上的标记相关性,进行属性约简及分类.在5个多标记分类数据集上的实验验证文中算法的有效性.  相似文献   

6.
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tri-training的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。  相似文献   

7.
在多标记学习的任务中,多标记学习的每个样本可被多个标签标记,比单标记学习的应用空间更广关注度更高,多标记学习可以利用关联性提高算法的性能。在多标记学习中,传统特征选择算法已不再适用,一方面,传统的特征选择算法可被用于单标记的评估标准。多标记学习使得多个标记被同时优化;而且在多标记学习中关联信息存在于不同标记间。因此,可设计一种能够处理多标记问题的特征选择算法,使标记之间的关联信息能够被提取和利用。通过设计最优的目标损失函数,提出了基于指数损失间隔的多标记特征选择算法。该算法可以通过样本相似性的方法,将特征空间和标记空间的信息融合在一起,独立于特定的分类算法或转换策略。优于其他特征选择算法的分类性能。在现实世界的数据集上验证了所提算法的正确性以及较好的性能。  相似文献   

8.
谭桥宇  余国先  王峻  郭茂祖 《软件学报》2017,28(11):2851-2864
弱标记学习是多标记学习的一个重要分支,近几年已被广泛研究并被应用于多标记样本的缺失标记补全和预测等问题.然而,针对特征集合较大、更容易拥有多个语义标记和出现标记缺失的高维数据问题,现有弱标记学习方法普遍易受这类数据包含的噪声和冗余特征的干扰.为了对高维多标记数据进行准确的分类,提出了一种基于标记与特征依赖最大化的弱标记集成分类方法EnWL.EnWL首先在高维数据的特征空间多次利用近邻传播聚类方法,每次选择聚类中心构成具有代表性的特征子集,降低噪声和冗余特征的干扰;再在每个特征子集上训练一个基于标记与特征依赖最大化的半监督多标记分类器;最后,通过投票集成这些分类器实现多标记分类.在多种高维数据集上的实验结果表明,EnWL在多种评价度量上的预测性能均优于已有相关方法.  相似文献   

9.
针对现有的大部分多示例多标记(MIML)算法都没有考虑如何更好地表示对象特征这一问题,将概率潜在语义分析(PLSA)模型和神经网络(NN)相结合,提出了基于主题模型的多示例多标记学习方法。算法通过概率潜在语义分析模型学习到所有训练样本的潜在主题分布,该过程是一个特征学习的过程,用于学习到更好的特征表达,用学习到的每个样本的潜在主题分布作为输入来训练神经网络。当给定一个测试样本时,学习测试样本的潜在主题分布,将学习到的潜在主题分布输入到训练好的神经网络中,从而得到测试样本的标记集合。与两种经典的基于分解策略的多示例多标记算法相比,实验结果表明提出的新方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。  相似文献   

10.
在基于内容的图像检索中,图像标记具有十分重要的作用.由于为图像加标注代价昂贵,研究者通过利用大量的未标记数据来提高分类性能,标记传播是其中的一类有效方法.随着数据采集、存储技术的发展,数字图像的积累越来越容易,但现有的标记传播方法难以处理真实世界中的大规模数据.因此,针对大规模图像标记,融合标记传播和随机森林技术,提出一种新方法RFLP.它使用随机决策树进行样本压缩,使得传统的标记传播方法能够在压缩过的示例上高效执行,以利用未标记数据提高分类性能,然后利用随机森林将标记传播的结果推广到所有未标记示例上.实验结果表明,新方法RFLP的可扩展性明显优于传统标记传播方法,且其分类性能良好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号