首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 47 毫秒
1.
付治  王红军  李天瑞  滕飞  张继 《软件学报》2020,31(4):981-990
聚类是机器学习领域中的一个研究热点,弱监督学习是半监督学习中一个重要的研究方向,有广泛的应用场景.在对聚类与弱监督学习的研究中,提出了一种基于k个标记样本的弱监督学习框架.该框架首先用聚类及聚类置信度实现了标记样本的扩展.其次,对受限玻尔兹曼机的能量函数进行改进,提出了基于k个标记样本的受限玻尔兹曼机学习模型.最后,完成了对该模型的推理并设计相关算法.为了完成对该框架和模型的检验,选择公开的数据集进行对比实验,实验结果表明,基于k个标记样本的弱监督学习框架实验效果较好.  相似文献   

2.
多标记学习不同于传统的监督学习,它是为了解决客观世界中多义性对象的建模问题而提出的一种学习框架。在该框架下,一个示例可以同时隶属于多个标记。经过十多年的发展,机器学习界已经出现了大量关于多标记学习的研究成果,并得到了广泛的应用。本文对多标记学习问题进行系统而详细的阐述,给出多标记学习的问题定义和评价指标,重点介绍多标记学习算法,并提出多标记学习进一步的研究方向。   相似文献   

3.
偏标记学习是一种重要的弱监督学习框架。在偏标记学习中,每个实例与一组候选标记相关联,它的真实标记隐藏在候选标记集合中,且在学习过程中不可获知。为了消除候选标记对学习过程的影响,提出了一种融合实例语义差别最大化和流型学习的偏标记学习方法(partial label learning by semantic difference and manifold learning, PL-SDML)。该方法是一个两阶段的方法:在训练阶段,基于实例的语义差别最大化准则和流型学习方法为训练实例生成标记置信度;在预测阶段,使用基于最近邻投票的方法为未知实例预测标记类别。在四组人工改造的UCI数据集中,在平均70%的情况下优于其他对比算法。在四组真实偏标记数据集中,相比其他对比算法,取得了0.3%~13.8%的性能提升。  相似文献   

4.
针对传统机器学习方法在完成分类任务时多数存在人工标记成本较高、泛化能力较弱的问题,提出一种标记组合半监督学习算法。基于集成学习的思想,利用有标记数据训练多个弱模型并进行组合,增强模型的泛化能力。对无标记数据进行预测,生成有噪声的标记并组合建模。在风险最小化的框架下,使模型收敛达到最优。实验结果表明,在2种有监督场景下与现有的支持向量机、分类与回归树、神经网络等算法相比,该算法具有较优的泛化能力。  相似文献   

5.
多标记学习考虑一个对象与多个类别标记相关联的情况,是当前国际机器学习领域研究的热点问题之一。多标记学习的研究主要围绕降低特征空间和标记空间的复杂性,提高多标记学习算法的精度而展开。针对这一特点,从多标记分类、标记排序、多标记维度约简和标记相关性分析四个方面,对多标记学习的研究进展进行了归纳与阐述,分析了当前多标记学习存在的问题。最后指出了目前多标记学习若干发展方向,为该领域的进一步研究提供参考。  相似文献   

6.
胡峰  刘鑫  邓维斌  代劲  刘群 《控制与决策》2023,38(6):1753-1760
偏标记学习是一种弱监督学习框架,它试图从样本的多个候选标签中选择唯一正确的标签.消歧是偏标记学习中的一种重要手段,主要通过算法判别潜在的真实标签.目前,人们普遍采用单一的特征空间或者标签空间进行消歧,容易导致算法受到不准确先验知识的引导而陷入鞍点.针对消歧过程中特征相似样本易受到异类样本影响从而影响消歧效果这一问题,定义了样本离异点和离异图;在此基础上,提出一种离异图引导消歧的偏标记学习方法.该方法利用标签空间的差异构建离异图,可以有效结合特征空间的相似性和标签空间的差异性,降低离异点为消歧过程带来的潜在风险.实验结果表明,与PLKNN、IPAL、SURE、PL-AGGD、SDIM、PL-BLC、PRODEN等方法相比较,所提出的算法在偏标签学习方法中表现更好,能够取得良好的消歧效果.  相似文献   

7.
多示例多标记是一种新的机器学习框架,在该框架下一个对象用多个示例来表示,同时与多个类别标记相关联。MIMLSVM+算法将多示例多标记问题转化为一系列独立的二类分类问题,但是在退化过程中标记之间的联系信息会丢失,而E-MIMLSVM+算法则通过引入多任务学习技术对MIMLSVM+算法进行了改进。为了充分利用未标记样本来提高分类准确率,使用半监督支持向量机TSVM对E-MIMLSVM+算法进行了改进。通过实验将该算法与其他多示例多标记算法进行了比较,实验结果显示,改进算法取得了良好的分类效果。  相似文献   

8.
多示例多标记学习(Multi-Instance Multi-Label,MIML)是一种新的机器学习框架,基于该框架上的样本由多个示例组成并且与多个类别相关联,该框架因其对多义性对象具有出色的表达能力,已成为机器学习界研究的热点.解决MIML分类问题的最直接的思路是采用退化策略,通过向多示例学习或多标记学习的退化,将MIML框架下的分类问题简化为一系列的二类分类问题进行求解.但是在退化过程中会丢失标记之间的关联信息,降低分类的准确率.针对此问题,本文提出了MIMLSVM-LOC算法,该算法将改进的MIMLSVM算法与一种局部标记相关性的方法ML-LOC相结合,在训练过程中结合标记之间的关联信息进行分类.算法首先对MIMLSVM算法中的K-medoids聚类算法进行改进,采用的混合Hausdorff距离,将每一个示例包转化为一个示例,将MIML问题进行了退化.然后采用单示例多标记的算法ML-LOC算法继续以后的分类工作.在实验中,通过与其他多示例多标记算法对比,得出本文提出的算法取得了比其他分类算法更优的分类效果.  相似文献   

9.
多标记学习不同于传统的监督学习,它是为了解决客观世界中多义性对象的建模问题而提出的一种学习框架。在该框架下,一个实例可以同时隶属于多个标记。已有的多标记学习算法大多假设每个样本的标记集合都是完整的,但有时某些实例对应的标记会出现缺失。为了应对这一问题,本文提出一种针对弱标记文档的分类方法,该方法基于标记之间不同的相关性和相似实例具有相似标记的假设,构造一个最优化问题,以尽可能地补全缺失的标记。实验结果表明,该方法可以有效地提升学习系统的泛化性能。   相似文献   

10.
一种利用关联规则挖掘的多标记分类算法   总被引:2,自引:0,他引:2  
刘军煜  贾修一 《软件学报》2017,28(11):2865-2878
多标记学习广泛存在于现实生活中,是当今机器学习领域的研究热点.在多标记学习框架中,每个对象由一个示例构成,但可能同时属于多个类别标记,并且各个标记之间相互关联,所以挖掘多标记之间的关联性对于多标记学习框架具有重要的意义.首先对经典的关联规则算法进行改进,提出了基于矩阵分治的频繁项集挖掘算法,并证明了该算法挖掘频繁项集的正确性;进而将该算法应用于多标记学习框架中,分别提出了基于全局关联规则挖掘和局部关联规则挖掘的多标记分类算法;最后对所提出的算法与现有多标记算法进行实验对比,结果表明,算法在5种不同的评价准则下能够取得更好的效果.  相似文献   

11.
多标签学习是一种非常重要的机器学习范式.传统的多标签学习方法是在监督或半监督的情况下设计的.通常情况下,它们需要对所有或部分数据进行准确的属于多个类别的标注.在许多实际应用中,拥有大量标注的标签信息往往难以获取,限制了多标签学习的推广和应用.与之相比,标签相关性作为一种常见的弱监督信息,它对标注信息的要求较低.如何利用标签相关性进行多标签学习,是一个重要但未研究的问题.提出了一种利用标签相关性作为先验的弱监督多标签学习方法(WSMLLC).该模型利用标签相关性对样本相似性进行了重述,能够有效地获取标签指示矩阵;同时,利用先验信息对数据的投影矩阵进行约束,并引入回归项对指示矩阵进行修正.与现有方法相比,WSMLLC模型的突出优势在于:仅提供标签相关性先验,就可以实现多标签样本的标签指派任务.在多个公开数据集上进行实验验证,实验结果表明:在标签矩阵完全缺失的情况下,WSMLLC与当前先进的多标签学习方法相比具有明显优势.  相似文献   

12.
机器学习中,训练样本的标签质量严重影响着分类算法的最终效果.虽然干净的标签产生的效果相对来说比较好,但是采集和使用时却费时费力.因此为了节约成本,同时也为了使模型能够适应于一般情况,研究人员逐渐开始针对普通类数据进行学习,即带有标签噪声的数据.虽然近些年有些许著作专门针对标签噪声进行研究,但是缺乏对其的全面分析.基于此...  相似文献   

13.
近些年来,作为一种新的有监督学习范式,标记分布学习(LDL)已被应用到多个领域,如人脸年龄估计、头部姿态估计、电影评分预测、公共视频监控中的人群计数等,并且在这些领域的相关任务上取得了一定性能上的进展.最近几年,很多关于标记分布学习的算法在解决标记分布学习问题时考虑到了标记之间的相关性,但是现有方法大多将标记相关性作为...  相似文献   

14.
标记分布学习作为一种新的学习范式,利用最大熵模型构造的专用化算法能够很好地解决某些标记多样性问题,但是计算量巨大。基于此,引入运行速度快、稳定性更高的核极限学习机模型,提出基于核极限学习机的标记分布学习算法(KELM-LDL)。首先在极限学习机算法中通过RBF核函数将特征映射到高维空间,然后对原标记空间建立KELM回归模型求得输出权值,最后通过模型计算预测未知样本的标记分布。与现有算法在各领域不同规模数据集的实验表明,实验结果均优于多个对比算法,统计假设检验进一步说明KELM-LDL算法的有效性和稳定性。  相似文献   

15.
疾病风险预测能够筛查易患人群, 并在早期进行预防干预措施以降低疾病的发生率及死亡率. 随着机器学习技术的快速发展, 基于机器学习的疾病风险预测得到了广泛应用. 然而, 机器学习十分依赖于高质量的标注信息, 医疗数据中存在的标签噪声会给构建高性能的疾病风险预测算法带来严峻挑战. 针对这一问题, 本文提出了一种基于深度神经网络和动态截断损失函数的噪声鲁棒学习方法用于疾病风险预测. 该方法引入动态截断损失函数, 融合了传统交叉熵函数的隐式加权特性和均方差损失函数的标签噪声鲁棒性; 通过构造训练损失下界, 并引入样本动态加权机制减小可疑样本的梯度, 限制可能的带噪样本在训练过程中的权重, 进一步增强模型的鲁棒性. 以脑卒中筛查数据集为例进行实验, 结果表明本文算法在各个标签噪声比例下均能取得良好的预测性能, 可降低疾病风险预测中标签噪声的负面影响, 实现了带有标签噪声数据的鲁棒学习.  相似文献   

16.
Multimodal machine learning(MML)aims to understand the world from multiple related modalities.It has attracted much attention as multimodal data has become increasingly available in real-world application.It is shown that MML can perform better than single-modal machine learning,since multi-modalities containing more information which could complement each other.However,it is a key challenge to fuse the multi-modalities in MML.Different from previous work,we further consider the side-information,which reflects the situation and influences the fusion of multi-modalities.We recover multimodal label distribution(MLD)by leveraging the side-information,representing the degree to which each modality contributes to describing the instance.Accordingly,a novel framework named multimodal label distribution learning(MLDL)is proposed to recover the MLD,and fuse the multimodalities with its guidance to learn an in-depth understanding of the jointly feature representation.Moreover,two versions of MLDL are proposed to deal with the sequential data.Experiments on multimodal sentiment analysis and disease prediction show that the proposed approaches perform favorably against state-of-the-art methods.  相似文献   

17.
Multi-label learning deals with problems where each example is represented by a single instance while being associated with multiple class labels simultaneously. Binary relevance is arguably the most intuitive solution for learning from multi-label examples. It works by decomposing the multi-label learning task into a number of independent binary learning tasks (one per class label). In view of its potential weakness in ignoring correlations between labels, many correlation-enabling extensions to binary relevance have been proposed in the past decade. In this paper, we aim to review the state of the art of binary relevance from three perspectives. First, basic settings for multi-label learning and binary relevance solutions are briefly summarized. Second, representative strategies to provide binary relevancewith label correlation exploitation abilities are discussed. Third, some of our recent studies on binary relevance aimed at issues other than label correlation exploitation are introduced. As a conclusion, we provide suggestions on future research directions.  相似文献   

18.
Partial label learning is a weakly supervised learning framework in which each instance is associated with multiple candidate labels,among which only one is the ground-truth label.This paper proposes a unified formulation that employs proper label constraints for training models while simultaneously performing pseudo-labeling.Unlike existing partial label learning approaches that only leverage similarities in the feature space without utilizing label constraints,our pseudo-labeling process leverages similarities and differences in the feature space using the same candidate label constraints and then disambiguates noise labels.Extensive experiments on artificial and real-world partial label datasets show that our approach significantly outperforms state-of-the-art counterparts on classification prediction.  相似文献   

19.
在多标记分类中,某个标记可能只由其自身的某些特有属性决定,这些特定属性称之为类属属性利用类属属性进行多标记分类,可以有效避免某些无用特征影响构建分类模型的性能然而类属属性算法仅从标记角度去提取重要特征,而忽略了从特征角度去提取重要标记事实上,如果能从特征角度提前关注某些标记,更容易获取这些标记的特有属性基于此,提出了一...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号