首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
董爱美  王士同 《自动化学报》2014,40(10):2276-2287
在机器学习中,迁移学习被证明能有效使用一个领域信息提高另一个领域中受训模型的分类精度. 迁移学习总是假设相关领域间共享某些隐含因素,但在当前的迁移学习方法中,该部分隐含因素依然未得到充分 探讨.本研究引入低维共享隐空间的迁移学习方法,基于经典支持向量机(Support vector machine, SVM)分类模型得到融入共享隐空间的迁移支持向量机,该模型较以往相关方法能更好地利用隐空间这一有效信息,从而提高所得分类器 的泛化性能.相关实验结果亦验证了所提方法的有效性.  相似文献   

2.
为了解决机器学习中的主观信息缺失问题,提出一种新的面向共享数据的迁移组概率学习机(TGPLM-CD).该方法基于结构风险最小化模型,将源领域所含知识和目标领域的类标签组概率信息,特别是领域间的共享数据纳入学习框架中,实现了源领域和目标领域的知识迁移,在待研究领域数据信息不足的情况下提高了分类精确度.大量数据集上的实验结果验证了所提出方法的有效性.  相似文献   

3.
机器学习中的监督学习算法需要用有标记样本训练分类模型。而收集训练样本,并进行分类的过程,需要耗费大量人力物力以及时间。因此,如何高效率地完成图像分类一直是业内研究的热点。提出了一种基于霍夫森林和半监督学习的图像分类算法,能用较少的样本训练分类器,并在分类的过程中不断获取新的训练样本。并对部分训练结果加以人工标注,该方法有效提高了标注效率。利用COREL数据对该算法进行了实验验证,结果表明,该算法可以利用少量的训练样本,得到令人满意的标注精确度,提高人工效率。  相似文献   

4.
程波  朱丙丽  熊江 《计算机应用》2016,36(8):2282-2286
针对当前基于机器学习的早期阿尔茨海默病(AD)诊断中训练样本不足的问题,提出一种基于多模态特征数据的多标记迁移学习方法,并将其应用于早期阿尔茨海默病诊断。所提方法框架主要包括两大模块:多标记迁移学习特征选择模块和多模态多标记分类回归学习器模块。首先,通过稀疏多标记学习模型对分类和回归学习任务进行有效结合;然后,将该模型扩展到来自多个学习领域的训练集,从而构建出多标记迁移学习特征选择模型;接下来,针对异质特征空间的多模态特征数据,采用多核学习技术来组合多模态特征核矩阵;最后,为了构建能同时用于分类与回归的学习模型,提出多标记分类回归学习器,从而构建出多模态多标记分类回归学习器。在国际老年痴呆症数据库(ADNI)进行实验,分类轻度认知功能障碍(MCI)最高平均精度为79.1%,预测神经心理学量表测试评分值最大平均相关系数为0.727。实验结果表明,所提多模态多标记迁移学习方法可以有效利用相关学习领域训练数据,从而提高早期老年痴呆症诊断性能。  相似文献   

5.
传统机器学习方法的有效性依赖于大量的有效训练数据,而这难以满足,因此迁移学习被广泛研究并成为近年来的研究热门.针对由于训练数据严重不足导致多分类场景下分类性能降低的挑战,提出一种基于DLSR(discriminative least squares regressions)的归纳式迁移学习方法(TDLSR).该方法从归纳式迁移学习出发,通过知识杠杆机制,将源域知识迁移到目标域并同目标域数据同时进行模型学习,在提升分类性能的同时保证源域数据的安全性.TDLSR继承了DLSR在多分类任务中扩大类别间间隔的优势,为DLSR注入了迁移能力以适应数据不足的挑战,更加适用于复杂的多分类任务.通过在12个真实UCI数据集上进行实验,验证了所提出方法的有效性.  相似文献   

6.
排序学习利用机器学习技术去训练排序模型以解决排序问题,是信息检索与机器学习交叉领域的一个新兴研究热点.越来越多的排序学习方法已经应用于实际系统中,如搜索引擎和推荐系统等.本文概括了排序学习的研究进展,并进行展望.首先,阐述了排序学习问题.然后,对排序学习方法进行了分类,并重点分析了依据训练排序模型时所采用的不同机器学习技术的排序学习方法类别.本文还介绍了一些代表性的标准排序学习数据集,对排序学习方法在若干领域的成功应用进行了总结,并归纳了一些排序学习方法软件包.最后,对排序学习的未来发展趋势和挑战进行了展望和探讨.  相似文献   

7.
在互联网金融机构有很多信贷业务, 部分新开展的业务由于客户数据较少, 无法建立有效的信用评分模型. 本文研究将迁移学习思想应用到该问题中, 利用已有其他业务的客户数据帮助新开展的业务建立有效的信用评分模型. 本文提出一种联合Triplet-Loss表征学习和领域适配的深度学习方法对已有业务数据进行重新编码, 并将重新编码后所得的知识迁移到新开展业务的模型中, 最后使用XGBoost做为分类器. 针对上述问题, 本文提出的模型相对传统机器学习方法在效果上有一定提升, 在一定程度上解决了该问题.  相似文献   

8.
微阵列数据癌症分类问题中的基因选择   总被引:1,自引:0,他引:1  
微阵列数据广泛而成功地应用于生物医学的癌症分类研究.一个典型的微阵列数据集包含大量(通常成千上万,甚至数十万)的基因、相对少量(往往不足一百)的样本.在这成千上万的基因中,仅仅一少部分基因对癌症分类有贡献.因而,对于癌症分类来说,最重要的一个问题就是识别出对癌症分类最有贡献的基因.这一识别过程称为基因选择.基因选择在统计模式识别、机器学习和数据挖掘领域已得到广泛研究.介绍基因选择问题所涉及到的相关背景知识和基本概念;全面地回顾统计学、机器学习和数据挖掘领域对基因选择问题的解决方法;通过实验展示了几种典型算法在微阵列数据上的性能;指出当前存在的问题和未来的研究方向.  相似文献   

9.
域自适应学习研究进展   总被引:2,自引:0,他引:2  
传统的机器学习假设测试样本和训练样本来自同一概率分布. 但当前很多学习场景下训练样本和测试样本可能来自不同的概率分布. 域自 适应学习能够有效地解决训练样本和测试样本概率分布不一致的学习问题,作为 机器学习新出现的研究领域在近几年受到了广泛的关注. 鉴于域自适应学习技术 的重要性,综述了域自适应学习的研究进展. 首先概述了域自适应学习的基本问 题,并总结了近几年出现的重要的域自适应学习方法. 接着介绍了近几年提出的 较为经典的域自适应学习理论和当下域自适应学习的热门研究方向,包括样例加 权域自适应学习、特征表示域自适应学习、参数和特征分解域自适应学习和多 源域自适应学习. 然后对域自适应学习进行了相关的理论分析,讨论了高效的度 量判据,并给出了相应的误差界. 接着对当前域自适应学习在算法、模型结构和 实际应用这三个方面的研究新进展进行了综述. 最后分别探讨了域自适应学习在 特征变换和假设、训练优化、模型和数据表示、NLP 研究中存在的问题这四个方面 的有待进一步解决的问题.  相似文献   

10.
安全迁移支持向量机   总被引:1,自引:0,他引:1  
周国华  巢海鲸  申燕萍 《计算机科学》2017,44(Z11):381-384, 417
迁移学习方法是一种新的机器学习框架,它将源领域数据通过学习迁移到相似的目标领域中,减弱了对已标记数据的依赖。但迁移学习方法中一个重大问题是使用目标领域数据与源领域数据得到的分类器很可能比仅利用目标领域数据得到的分类器的效果更差,从而造成一种“负迁移”现象。针对此问题,提出一种基于目标领域已标记数据知识的安全控制机制,并通过结合近年出现的一种迁移学习分类器(TL-SVM)提出了一种安全迁移支持向量机(SATL-SVM),从理论上解决了TL-SVM的负迁移问题,在人工数据集和真实数据集上的实验结果表明了所提方法的有效性。  相似文献   

11.
一种异构直推式迁移学习算法   总被引:1,自引:1,他引:0  
杨柳  景丽萍  于剑 《软件学报》2015,26(11):2762-2780
目标领域已有类别标注的数据较少时会影响学习性能,而与之相关的其他源领域中存在一些已标注数据.迁移学习针对这一情况,提出将与目标领域不同但相关的源领域上学习到的知识应用到目标领域.在实际应用中,例如文本-图像、跨语言迁移学习等,源领域和目标领域的特征空间是不相同的,这就是异构迁移学习.关注的重点是利用源领域中已标注的数据来提高目标领域中未标注数据的学习性能,这种情况是异构直推式迁移学习.因为源领域和目标领域的特征空间不同,异构迁移学习的一个关键问题是学习从源领域到目标领域的映射函数.提出采用无监督匹配源领域和目标领域的特征空间的方法来学习映射函数.学到的映射函数可以把源领域中的数据在目标领域中重新表示.这样,重表示之后的已标注源领域数据可以被迁移到目标领域中.因此,可以采用标准的机器学习方法(例如支持向量机方法)来训练分类器,以对目标领域中未标注的数据进行类别预测.给出一个概率解释以说明其对数据中的一些噪声是具有鲁棒性的.同时还推导了一个样本复杂度的边界,也就是寻找映射函数时需要的样本数.在4个实际的数据库上的实验结果,展示了该方法的有效性.  相似文献   

12.
Domain adaptation learning(DAL) methods have shown promising results by utilizing labeled samples from the source(or auxiliary) domain(s) to learn a robust classifier for the target domain which has a few or even no labeled samples.However,there exist several key issues which need to be addressed in the state-of-theart DAL methods such as sufficient and effective distribution discrepancy metric learning,effective kernel space learning,and multiple source domains transfer learning,etc.Aiming at the mentioned-above issues,in this paper,we propose a unified kernel learning framework for domain adaptation learning and its effective extension based on multiple kernel learning(MKL) schema,regularized by the proposed new minimum distribution distance metric criterion which minimizes both the distribution mean discrepancy and the distribution scatter discrepancy between source and target domains,into which many existing kernel methods(like support vector machine(SVM),v-SVM,and least-square SVM) can be readily incorporated.Our framework,referred to as kernel learning for domain adaptation learning(KLDAL),simultaneously learns an optimal kernel space and a robust classifier by minimizing both the structural risk functional and the distribution discrepancy between different domains.Moreover,we extend the framework KLDAL to multiple kernel learning framework referred to as MKLDAL.Under the KLDAL or MKLDAL framework,we also propose three effective formulations called KLDAL-SVM or MKLDAL-SVM with respect to SVM and its variant μ-KLDALSVM or μ-MKLDALSVM with respect to v-SVM,and KLDAL-LSSVM or MKLDAL-LSSVM with respect to the least-square SVM,respectively.Comprehensive experiments on real-world data sets verify the outperformed or comparable effectiveness of the proposed frameworks.  相似文献   

13.
汪云云  孙顾威  赵国祥  薛晖 《软件学报》2022,33(4):1170-1182
无监督域适应(unsupervised domain adaptation,UDA)旨在利用带大量标注数据的源域帮助无任何标注信息的目标域学习.在UDA中,通常假设源域和目标域间的数据分布不同,但共享相同的类标签空间.但在真实开放学习场景中,域间的标签空间很可能存在差异.在极端情形下,域间的类别不存在交集,即目标域中类...  相似文献   

14.
经典机器学习算法假设训练数据和测试数据具有相同的输入特征空间和数据分布,但在很多现实应用中这一假设通常并不成立,导致经典机器学习算法失效。领域自适应是一种新的机器学习策略,其关键技术在于通过学习新的特征表达来对齐源域和目标域的数据分布,使得在有标签源域中训练的模型可以直接迁移到没有标签的目标域上,且不会引起模型性能的明显下降。介绍领域自适应的定义、分类和代表性算法,讨论基于度量学习和基于对抗学习的两类领域自适应算法。在此基础上,分析领域自适应的典型应用和现存挑战,并对其发展趋势及未来研究方向进行展望。  相似文献   

15.
跨领域文本情感分类研究进展   总被引:1,自引:0,他引:1  
赵传君  王素格  李德玉 《软件学报》2020,31(6):1723-1746
作为社会媒体文本情感分析的重要研究课题之一,跨领域文本情感分类旨在利用源领域资源或模型迁移地服务于目标领域的文本情感分类任务,其可以有效缓解目标领域中带标签数据不足问题.本文从三个角度对跨领域文本情感分类方法行了归纳总结:(1)按照目标领域中是否有带标签数据,可分为直推式和归纳式情感迁移方法;(2)按照不同情感适应性策略,可分为实例迁移方法、特征迁移方法、模型迁移方法、基于词典的方法、联合情感主题方法以及图模型方法等;(3)按照可用源领域个数,可分为单源和多源跨领域文本情感分类方法.此外,论文还介绍了深度迁移学习方法及其在跨领域文本情感分类的最新应用成果.最后,论文围绕跨领域文本情感分类面临的关键技术问题,对可能的突破方向进行了展望.  相似文献   

16.
为解决数据流分类过程中样本标注和概念漂移问题,提出了一种基于实例迁移的数据流分类挖掘模型.首先,该模型用支持向量机作学习器,用所得分类模型中的支持向量构建源领域,待分类的当前数据块为目标域.然后,借助互近邻思想在源域中挑选目标域中样本的真邻居进行实例迁移,避免发生负迁移.最后,通过合并目标域和迁移样本形成训练集,提高标注样本数量,增强模型的泛化能力.理论分析和实验结果表明,所提方法具有可行性,相比其它学习方法在分类准确性方面更具优势.  相似文献   

17.
Unsupervised Domain Adaptation (UDA) aims to use the source domain with large amounts of labeled data to help the learning of the target domain without any label information. In UDA, the source and target domains are usually assumed to have different data distributions but share the same class label space. Nevertheless, in real-world open learning scenarios, label spaces are highly likely to be different across domains. In extreme cases, the domains share no common classes, i.e., all classes in the target domain are new classes. In such a case, direct transferring the class-discriminative knowledge from the source domain may impair the performance in the target domain and lead to negative transfer. For this reason, this paper proposes unsupervised new-set domain adaptation with self-supervised knowledge (SUNDA) to transfer the sample contrastive knowledge from the source domain, and use self-supervised knowledge from the target domain to guide the knowledge transfer. Specifically, the initial features of the source and target domains are learned by self-supervised learning, and some network parameters are frozen to preserve target domain information. Sample contrastive knowledge from the source domain is then transferred to the target domain to assist the learning of class-discriminative features in the target domain. Moreover, graph-based self-supervised classification loss is adopted to handle the problem of target domain classification with no inter-domain common classes. SUNDA is evaluated on tasks of cross-domain transfer for handwritten digits without any common class and cross-race transfer for face data without any common class. The experiments show that SUNDA outperforms UDA, unsupervised clustering, and new class discovery methods in learning performance.  相似文献   

18.
深度决策树迁移学习Boosting方法(DTrBoost)可以有效地实现单源域有监督情况下向一个目标域迁移学习,但无法实现多个源域情况下的无监督迁移场景。针对这一问题,提出了多源域分布下优化权重的无监督迁移学习Boosting方法,主要思想是根据不同源域与目标域分布情况计算出对应的KL值,通过比较选择合适数量的不同源域样本训练分类器并对目标域样本打上伪标签。最后,依照各个不同源域的KL距离分配不同的学习权重,将带标签的各个源域样本与带伪标签的目标域进行集成训练得到最终结果。对比实验表明,提出的算法实现了更好的分类精度并对不同的数据集实现了自适应效果,分类错误率平均下降2.4%,在效果最好的marketing数据集上下降6%以上。  相似文献   

19.
李志恒 《计算机应用研究》2021,38(2):591-594,599
针对机器学习中训练样本和测试样本概率分布不一致的问题,提出了一种基于dropout正则化的半监督域自适应方法来实现将神经网络的特征表示从标签丰富的源域转移到无标签的目标域。此方法从半监督学习的角度出发,在源域数据中添加少量带标签的目标域数据,使得神经网络在学习到源域数据特征分布的同时也能学习到目标域数据的特征分布。由于有了先验知识的指导,即使没有丰富的标签信息,神经网络依然可以很好地拟合目标域数据。实验结果表明,此算法在几种典型的数字数据集SVHN、MNIST和USPS的域自适应任务上的性能优于现有的其他算法,并且在涵盖广泛自然类别的真实数据集CIFAR-10和STL-10的域自适应任务上有较好的鲁棒性。  相似文献   

20.
倪彤光  王士同 《控制与决策》2014,29(10):1751-1757
为了解决包含不确定信息的分类学习问题,提出一种新的适用于不确定类标签数据的迁移支持向量机。该方法基于结构风险最小化模型,同时将源领域中所学知识、领域间的共享数据、目标领域中已标定的和不确定的数据纳入学习框架中,进而实现了源领域和目标领域的知识迁移。在多种真实数据集上的实验结果表明了所提出方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号