首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
一个好的核函数能提升机器学习模型的有效性,但核函数的选择并不容易,其与问题背景密切相关,且依赖于领域知识和经验。核学习是一种通过训练数据集寻找最优核函数的机器学习方法,能通过有监督学习的方式寻找到一组基核函数的最优加权组合。考虑到训练数据集获取标签的代价,提出一种基于标签传播的半监督核学习方法,该方法能够同时利用有标签数据和无标签数据进行核学习,通过半监督学习中被广泛使用的标签传播方法结合和谐函数获得数据集统一的标签分布。在UCI数据集上对提出的算法进行性能评估,结果表明该方法是有效的。  相似文献   

2.
现实世界中存在着大量无类标的数据,如各种医疗图像数据、网页数据等。在大数据时代,这种情况更加突出。标注这些无类标的数据需要付出巨大的代价。主动学习是解决这一问题的有效手段,也是近几年机器学习和数据挖掘领域中的一个研究热点。提出了一种基于在线序列极限学习机的主动学习算法,该算法利用在线序列极限学习机增量学习的特点,可显著提高学习系统的效率。另外,该算法用样例熵作为启发式度量无类标样例的重要性,用K-近邻分类器作为Oracle标注选出的无类标样例的类别。实验结果显示,提出的算法具有学习速度快、标注准确的特点。  相似文献   

3.
标记分布学习是近年来提出的一种新的机器学习范式,它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型,但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似,利用原型聚类的k均值算法(k-means),将训练集的样本进行聚类,提出基于k-means算法的标记分布学习(label distribution learning based on k-means algorithm,LDLKM)。首先通过聚类算法k-means求得每一个簇的均值向量,然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重,应用到对测试集标记分布的预测上。在6个公开的数据集上进行实验,并与3种已有的标记分布学习算法在5种评价指标上进行比较,实验结果表明提出的LDLKM算法是有效的。  相似文献   

4.
随着多媒体技术的发展,可获取的媒体数据在种类和量级上大幅提升。受人类感知方式的启发,多种媒体数据互相融合处理,促进了人工智能在计算机视觉领域的研究发展,在遥感图像解译、生物医学和深度估计等方面有广泛的应用。尽管多模态数据在描述事物特征时具有明显优势,但仍面临着较大的挑战。1)受到不同成像设备和传感器的限制,难以收集到大规模、高质量的多模态数据集;2)多模态数据需要匹配成对用于研究,任一模态的缺失都会造成可用数据的减少;3)图像、视频数据在处理和标注上需要耗费较多的时间和人力成本,这些问题使得目前本领域的技术尚待攻关。本文立足于数据受限条件下的多模态学习方法,根据样本数量、标注信息和样本质量等不同的维度,将计算机视觉领域中的多模态数据受限方法分为小样本学习、缺乏强监督标注信息、主动学习、数据去噪和数据增强5个方向,详细阐述了各类方法的样本特点和模型方法的最新进展。并介绍了数据受限前提下的多模态学习方法使用的数据集及其应用方向(包括人体姿态估计、行人重识别等),对比分析了现有算法的优缺点以及未来的发展方向,对该领域的发展具有积极的意义。  相似文献   

5.
程波  朱丙丽  熊江 《计算机应用》2016,36(8):2282-2286
针对当前基于机器学习的早期阿尔茨海默病(AD)诊断中训练样本不足的问题,提出一种基于多模态特征数据的多标记迁移学习方法,并将其应用于早期阿尔茨海默病诊断。所提方法框架主要包括两大模块:多标记迁移学习特征选择模块和多模态多标记分类回归学习器模块。首先,通过稀疏多标记学习模型对分类和回归学习任务进行有效结合;然后,将该模型扩展到来自多个学习领域的训练集,从而构建出多标记迁移学习特征选择模型;接下来,针对异质特征空间的多模态特征数据,采用多核学习技术来组合多模态特征核矩阵;最后,为了构建能同时用于分类与回归的学习模型,提出多标记分类回归学习器,从而构建出多模态多标记分类回归学习器。在国际老年痴呆症数据库(ADNI)进行实验,分类轻度认知功能障碍(MCI)最高平均精度为79.1%,预测神经心理学量表测试评分值最大平均相关系数为0.727。实验结果表明,所提多模态多标记迁移学习方法可以有效利用相关学习领域训练数据,从而提高早期老年痴呆症诊断性能。  相似文献   

6.
疾病风险预测能够筛查易患人群, 并在早期进行预防干预措施以降低疾病的发生率及死亡率. 随着机器学习技术的快速发展, 基于机器学习的疾病风险预测得到了广泛应用. 然而, 机器学习十分依赖于高质量的标注信息, 医疗数据中存在的标签噪声会给构建高性能的疾病风险预测算法带来严峻挑战. 针对这一问题, 本文提出了一种基于深度神经网络和动态截断损失函数的噪声鲁棒学习方法用于疾病风险预测. 该方法引入动态截断损失函数, 融合了传统交叉熵函数的隐式加权特性和均方差损失函数的标签噪声鲁棒性; 通过构造训练损失下界, 并引入样本动态加权机制减小可疑样本的梯度, 限制可能的带噪样本在训练过程中的权重, 进一步增强模型的鲁棒性. 以脑卒中筛查数据集为例进行实验, 结果表明本文算法在各个标签噪声比例下均能取得良好的预测性能, 可降低疾病风险预测中标签噪声的负面影响, 实现了带有标签噪声数据的鲁棒学习.  相似文献   

7.
标记分布学习作为一种新的学习范式,利用最大熵模型构造的专用化算法能够很好地解决某些标记多样性问题,但是计算量巨大。基于此,引入运行速度快、稳定性更高的核极限学习机模型,提出基于核极限学习机的标记分布学习算法(KELM-LDL)。首先在极限学习机算法中通过RBF核函数将特征映射到高维空间,然后对原标记空间建立KELM回归模型求得输出权值,最后通过模型计算预测未知样本的标记分布。与现有算法在各领域不同规模数据集的实验表明,实验结果均优于多个对比算法,统计假设检验进一步说明KELM-LDL算法的有效性和稳定性。  相似文献   

8.
基于局部与全局保持的半监督维数约减方法   总被引:8,自引:1,他引:7  
韦佳  彭宏 《软件学报》2008,19(11):2833-2842
在很多机器学习和数据挖掘任务中,仅仅利用边信息(side-information)并不能得到最好的半监督学习(semi-supervised learning)效果,因此,提出一种基于局部与全局保持的半监督维数约减(local and global preserving based semi-supervised dimensionality reduction,简称LGSSDR)方法.该算法不仅能够保持正、负约束信息而且能够保持数据集所在低维流形的全局以及局部信息.另外,该算法能够计算出变换矩阵并较容易地处理未见样本.实验结果验证了该算法的有效性.  相似文献   

9.
Capturing the underlying semantic relationships of sentences is helpful for machine translation. Variational neural machine translation approaches provide an effective way to model the uncertain underlying semantics in languages by introducing latent variables. Multitask learning is applied in multimodal machine translation to integrate multimodal data. However, these approaches usually lack a strong interpretation in utilizing out-of-text information in machine translation tasks. In this paper, we propose a novel architecture-free multimodal translation model, called variational multimodal machine translation (VMMT), under the variational framework which can model the uncertainty in languages caused by ambiguity through utilizing visual and textual information. In addition, the proposed model can eliminate the discrepancy between training and prediction in the existing variational translation models by constructing encoders only relying on source data. More importantly, the proposed multimodal translation model is designed as multitask learning in which the shared semantic representation for different modes is learned and the gap among semantic representation from various modes is reduced by incorporating additional constraints. Moreover, the information bottleneck theory is adopted in our variational encoder–decoder model, which helps the encoder to filter redundancy and the decoder to concentrate on useful information. Experiments on multimodal machine translation demonstrate that the proposed model is competitive.  相似文献   

10.
不平衡数据广泛存在于现实生活中,代价敏感学习能有效解决这一问题。然而,当数据的标记信息有限或不足时,代价敏感学习分类器的分类精度大大下降,分类性能得不到保证。针对这一情况,该文提出了一种局部几何保持的Laplacian代价敏感支持向量机(LPCS-LapSVM),该模型基于半监督学习框架,将代价敏感学习和类内局部保持散度的思想引入其中,从考虑内在可分辨信息和样本的局部几何分布两方面来提高代价敏感支持向量机在标记信息有限的场景中的分类性能。UCI数据集上的实验结果表明了该算法的有效性。  相似文献   

11.
核分布一致局部领域适应学习   总被引:3,自引:3,他引:0  
陶剑文  王士同 《自动化学报》2013,39(8):1295-1309
针对领域适应学习(Domain adaptation learning, DAL)问题,提出一种核分布一致局部领域适应学习机(Kernel distribution consistency based local domain adaptation classifier, KDC-LDAC),在某个通用再生核Hilbert空间(Universally reproduced kernel Hilbert space, URKHS),基于结构风险最小化模型, KDC-LDAC首先学习一个核分布一致正则化支持向量机(Support vector machine, SVM),对目标数据进行初始划分; 然后,基于核局部学习思想,对目标数据类别信息进行局部回归重构; 最后,利用学习获得的类别信息,在目标领域训练学习一个适于目标判别的分类器.人 造和实际数据集实验结果显示,所提方法具有优化或可比较的领域适应学习性能.  相似文献   

12.
程波  丁毅  张道强 《软件学报》2019,30(4):1002-1014
针对当前基于机器学习的早期阿尔茨海默病(AD)诊断中有标记训练样本不足的问题,提出一种基于多模态特征数据的权值分布稀疏特征学习方法,并将其应用于早期阿尔茨海默病的诊断.具体来说,该诊断方法主要包括两大模块:基于权值分布的Lasso特征选择模型(WDL)和大间隔分布分类机模型(LDM).首先,为了获取多模态特征之间的数据分布信息,对传统Lasso模型进行改进,引入权值分布正则化项,从而构建出基于权值分布的Lasso特征选择模型;然后,为了有效地利用多模态特征之间的数据分布信息,以保持多模态特征之间的互补性,直接采用大间隔分布学习算法训练分类器.选取国际阿尔茨海默症数据库(ADNI)中202个多模态特征的被试者样本进行实验,分类AD最高平均精度为97.5%,分类轻度认知功能障碍(MCI)最高平均精度为83.1%,分类轻度认知功能障碍转化为AD(pMCI)最高平均精度为84.8%.实验结果表明,所提WDL特征学习方法可从串联的多模态特征学到性能更优的特征子集,并能根据权值分布获取多模态特征之间的数据分布信息,从而提高早期阿尔茨海默病诊断的性能.  相似文献   

13.
在很多信息处理任务中,人们容易获得大量的无标签样本,但对样本进行标注是非常费时和费力的。作为机器学习领域中一种重要的学习方法,主动学习通过选择最有信息量的样本进行标注,减少了人工标注的代价。然而,现有的大多数主动学习算法都是基于分类器的监督学习方法,这类算法并不适用于无任何标签信息的样本选择。针对这个问题,借鉴最优实验设计的算法思想,结合自适应稀疏邻域重构理论,提出基于自适应稀疏邻域重构的主动学习算法。该算法可以根据数据集各区域的不同分布自适应地选择邻域规模,同步完成邻域点的搜寻和重构系数的计算,能在无任何标签信息的情况下较好地选择最能代表样本集分布结构的样本。基于人工合成数据集和真实数据集的实验表明,在同等标注代价下,基于自适应稀疏邻域重构的主动学习算法在分类精度和鲁棒性上具有较高的性能。  相似文献   

14.
为了提高预测的准确性,文中结合机器学习中堆积(Stacking)集成框架,组合多个分类器对标记分布进行学习,提出基于标记分布学习的异态集成学习算法(HELA-LDL).算法构造两层模型框架,通过第一层结构将样本数据采用组合方式进行异态集成学习,融合各分类器的学习结果,将融合结果输入到第二层分类器,预测结果是带有置信度的标记分布.在专用数据集上的对比实验表明,HELA-LDL可以发挥各种算法在不同场景下的性能较优,稳定性分析进一步说明算法的有效性.  相似文献   

15.
偏标记学习研究综述   总被引:2,自引:1,他引:1  
在弱监督信息条件下进行学习已成为机器学习领域的热点研究课题。偏标记学习作为一类重要的弱监督机器学习框架,适于多种实际应用问题的学习建模。在该框架下,每个对象在输入空间由单个示例(属性向量)进行刻画,而在输出空间与一组候选标记相关联,其中仅有一个为其真实标记。本文将对偏标记学习的研究现状进行综述,首先给出该学习框架的定义以及与相关学习框架的区别与联系,然后重点介绍几种典型的偏标记学习算法以及作者在该方面的初步工作,最后对偏标记学习进一步的研究方向进行简要讨论。  相似文献   

16.
Age estimation plays an important role in humancomputer interaction system. The lack of large number of facial images with definite age label makes age estimation algorithms inefficient. Deep label distribution learning (DLDL) which employs convolutional neural networks (CNN) and label distribution learning to learn ambiguity from ground-truth age and adjacent ages, has been proven to outperform current state-of-the-art framework. However, DLDL assumes a rough label distribution which covers all ages for any given age label. In this paper, a more practical label distribution paradigm is proposed: we limit age label distribution that only covers a reasonable number of neighboring ages. In addition, we explore different label distributions to improve the performance of the proposed learning model. We employ CNN and the improved label distribution learning to estimate age. Experimental results show that compared to the DLDL, our method is more effective for facial age recognition.  相似文献   

17.
Multimodality in learning analytics and learning science is under the spotlight. The landscape of sensors and wearable trackers that can be used for learning support is evolving rapidly, as well as data collection and analysis methods. Multimodal data can now be collected and processed in real time at an unprecedented scale. With sensors, it is possible to capture observable events of the learning process such as learner's behaviour and the learning context. The learning process, however, consists also of latent attributes, such as the learner's cognitions or emotions. These attributes are unobservable to sensors and need to be elicited by human‐driven interpretations. We conducted a literature survey of experiments using multimodal data to frame the young research field of multimodal learning analytics. The survey explored the multimodal data used in related studies (the input space) and the learning theories selected (the hypothesis space). The survey led to the formulation of the Multimodal Learning Analytics Model whose main objectives are of (O1) mapping the use of multimodal data to enhance the feedback in a learning context; (O2) showing how to combine machine learning with multimodal data; and (O3) aligning the terminology used in the field of machine learning and learning science.  相似文献   

18.
标签比例学习(LLP)是一种将实例放入包中的机器学习方法,它只提供包中的实例信息和标签比例信息,而不提供标签信息。针对多个相关任务的LLP问题,提出了一种基于迁移学习的标签比例集成学习模型,简称AT-LLP,该模型通过在任务之间构建共享参数来连接相关任务,将源任务中学习到的知识迁移到目标任务中,从而提高目标任务的学习效率。同时该算法引入了集成学习算法,在分类器多轮迭代的学习过程中,不断调整训练集的权重系数,进一步将弱分类器训练为强分类器。实验表明,所提AT-LLP模型比现有LLP方法具有更好的性能。  相似文献   

19.
标记分布学习(label distribution learning,LDL)是一种用于解决标记多义性的新颖学习范式。现有的LDL方法大多基于完整数据信息进行设计,然而由于高昂的标注成本以及标注人员水平的局限性,很难获取到完整标注数据信息,且会导致传统LDL算法性能的下降。为此,本文提出了一种新型的结合局部序标记关系的弱监督标记分布学习算法,通过维持尚未缺失标记之间的相对关系,并利用标记相关性来恢复缺失的标记,在数据标注不完整的情况下提升算法性能。在14个数据集上进行了大量的实验来验证算法的有效性。  相似文献   

20.
一种利用关联规则挖掘的多标记分类算法   总被引:2,自引:0,他引:2  
刘军煜  贾修一 《软件学报》2017,28(11):2865-2878
多标记学习广泛存在于现实生活中,是当今机器学习领域的研究热点.在多标记学习框架中,每个对象由一个示例构成,但可能同时属于多个类别标记,并且各个标记之间相互关联,所以挖掘多标记之间的关联性对于多标记学习框架具有重要的意义.首先对经典的关联规则算法进行改进,提出了基于矩阵分治的频繁项集挖掘算法,并证明了该算法挖掘频繁项集的正确性;进而将该算法应用于多标记学习框架中,分别提出了基于全局关联规则挖掘和局部关联规则挖掘的多标记分类算法;最后对所提出的算法与现有多标记算法进行实验对比,结果表明,算法在5种不同的评价准则下能够取得更好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号