首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
TrSVM:一种基于领域相似性的迁移学习算法   总被引:1,自引:0,他引:1  
迁移学习是对传统监督学习的扩展,试图利用其他相关领域中的现存数据来帮助完成当前领域的学习任务.对于归纳式迁移学习算法,当目标领域只有少量数据时,已有的算法容易受到选择性偏差的影响,不能充分发挥相关领域数据的作用.为解决该问题,提出一种利用领域相似性的新途径:通过定义领域弱相似性的概念,将相似性的约束与目标分类器联系起来,能在训练过程中有效利用相关领域的大量数据,设计出一种基于支持向量机的迁移学习算法TrSVM,并给出求解过程.在大量数据集上的实验结果表明了新算法的有效性.  相似文献   

2.
《微型机与应用》2017,(22):62-65
针对文本分类领域中的迁移学习方法,提出了一种基于LDA(Latent Dirichlet Allocation)主题生成模型相似度的支持向量机(SVM)迁移学习新思路。基于此思想,提出了迁移学习算法LDA-TSVM。本算法通过对目标域的主题进行分类,依据主题分类信息熵对训练数据进行筛选,分别计算每个训练样本的权重,使得训练集与目标集有很高的相似度,从而达到迁移学习的目的。本算法不仅未引入辅助集,而且还考虑了样本本身的差异,有效地提高了源域数据集与目标域数据集的相似性。实验结果表明了新迁移算法的有效性。  相似文献   

3.
深度学习的成功依赖于海量的训练数据,然而获取大规模有标注的数据并不容易,成本昂贵且耗时;同时由于数据在不同场景下的分布有所不同,利用某一特定场景的数据集所训练出的模型往往在其他场景表现不佳。迁移学习作为一种将知识从一个领域转移到另一个领域的方法,可以解决上述问题。深度迁移学习则是在深度学习框架下实现迁移学习的方法。提出一种基于伪标签的深度迁移学习算法,该算法以ResNet-50为骨干,通过一种兼顾置信度和类别平衡的样本筛选机制为目标域样本提供伪标签,然后进行自训练,最终实现对目标域样本准确分类,在Office-31数据集上的三组迁移学习任务中,平均准确率较传统算法提升5.0%。该算法没有引入任何额外网络参数,且注重源域数据隐私,可移植性强,具有一定的实用价值。  相似文献   

4.
蔡瑞初  郑丽娟  李梓健 《软件学报》2022,33(12):4517-4533
近年来,深度学习受到越来越多研究者的重视并成功应用于许多领域.虽然深度学习在这些领域获得了巨大的成功,但是数据采集和标注成本高,严重限制了深度学习的推广应用.迁移学习不仅可以打破训练集数据和测试集数据独立同分布的假设,而且可以利用有标签的迁移源数据和没有标签的迁移目标数据训练得到具有良好泛化能力的模型,是扩展深度学习应用场景的重要研究方向.在众多的迁移学习方法中,多源领域自适应方法可以充分利用多个迁移源的信息,具有重要的实际价值.从数据的因果生成机制出发,假设观测数据由语义隐变量和领域隐变量这两组独立的隐变量同时生成.基于上述假设,提出了一种基于多种距离度量框架和加权解耦语义表达的多源领域自适应方法.该方法利用了双重对抗网络来提取解耦的语义信息和领域信息;另一方面,采用了3种不同的语义信息聚合策略获得领域不变的语义表达;最后使用领域不变的语义表达进行图片分类.在多个多源领域自适应数据上的对比及鲁棒性分析实验中,充分地验证了所提出方法的有效性.  相似文献   

5.
近年来深度学习在图像分类任务上取得了显著效果,但通常要求大量人工标记数据,模型训练成本很高.因此,领域自适应等小样本学习方法成为当前研究热点.通常,域适应方法利用源域的经验知识也仅能一定程度降低对目标域标记数据的依赖,因此可以引入主动学习方法对样本价值进行评估并做筛选,从而进一步降低标记成本.本文将典型样本价值估计模型引入域适应学习,结合特征迁移思路,提出了双主动域适应学习算法D_Ac T(Dual active domain adaptation).该算法同时对源域与目标域数据进行价值度量,并挑选最具训练价值的样本,在保证模型精度的前提下,大幅度减少了模型对标签数据的需求.具体而言,首先利用极大极小熵和核心集采样方法,用主动学习价值评估模型挑选目标域样本,得到单主动域适应算法S_Ac T (Single active domain adaptation).随后利用损失预测策略,将价值评估策略适配至源域,进一步提升迁移学习知识复用有效性,降低模型训练成本.本文在常用的四个图像迁移数据集进行了测试,将所提两个算法和传统主动迁移学习及半监督迁移学习算法进行了实验对比.结果表明双主动域适应方...  相似文献   

6.
唐诗淇  文益民  秦一休 《软件学报》2017,28(11):2940-2960
近年来,迁移学习得到越来越多的关注.现有的在线迁移学习算法一般从单个源领域迁移知识,然而,当源领域与目标领域相似度较低时,很难进行有效的迁移学习.基于此,提出了一种基于局部分类精度的多源在线迁移学习方法——LC-MSOTL.LC-MSOTL存储多个源领域分类器,计算新到样本与目标领域已有样本之间的距离以及各源领域分类器对其最近邻样本的分类精度,从源领域分类器中挑选局部精度最高的分类器与目标领域分类器加权组合,从而实现多个源领域知识到目标领域的迁移学习.在人工数据集和实际数据集上的实验结果表明,LC-MSOTL能够有效地从多个源领域实现选择性迁移,相对于单源在线迁移学习算法OTL,显示出了更高的分类准确率.  相似文献   

7.
行人再识别技术是计算机视觉领域中一个具有挑战性的任务。该任务针对个体的外观变化模式展开研究,特征变化剧烈,存在小样本问题,而通过提出的一种基于迁移学习的度量学习模型,可约束不同数据集样本分布的差异,实现度量模型在不同数据集上的迁移。该算法不仅增强了度量模型训练样本的多样性,提高了分辨能力,同时提升了样本的适应性。最后,通过在iLIDS数据集进行度量模型的预训练,并在VIPeR和CUHK01两个数据集上进行的迁移学习,验证了算法的有效性和准确性。  相似文献   

8.
经典机器学习算法假设训练数据和测试数据具有相同的输入特征空间和数据分布,但在很多现实应用中这一假设通常并不成立,导致经典机器学习算法失效。领域自适应是一种新的机器学习策略,其关键技术在于通过学习新的特征表达来对齐源域和目标域的数据分布,使得在有标签源域中训练的模型可以直接迁移到没有标签的目标域上,且不会引起模型性能的明显下降。介绍领域自适应的定义、分类和代表性算法,讨论基于度量学习和基于对抗学习的两类领域自适应算法。在此基础上,分析领域自适应的典型应用和现存挑战,并对其发展趋势及未来研究方向进行展望。  相似文献   

9.
基于相似度学习的多源迁移算法   总被引:1,自引:0,他引:1  
卞则康  王士同 《控制与决策》2017,32(11):1941-1948
针对与测试数据分布相同的训练数据不足,相关领域中存在大量的、与测试数据分布相近的训练数据的场景,提出一种基于相似度学习的多源迁移学习算法(SL-MSTL).该算法在经典SVM分类模型的基础上提出一种新的迁移分类模型,增加对多源域与目标域之间的相似度学习,可以有效地利用各源域中的有用信息,提高目标域的分类效果.实验的结果表明了SL-MSTL 算法的有效性和实用性.  相似文献   

10.
传统的生物医学命名实体识别方法需要大量目标领域的标注数据,但是标注数据代价高昂。为了降低生物医学文本中命名实体识别对目标领域标注数据的需求,将生物医学文本中的命名实体识别问题化为基于迁移学习的隐马尔可夫模型问题。对要进行命名实体识别的目标领域数据集无须进行大量数据标注,通过迁移学习的方法实现对目标领域的识别分类。以相关领域数据为辅助数据集,利用数据引力的方法评估辅助数据集的样本在目标领域学习中的贡献程度,在辅助数据集和目标领域数据集上计算权值进行迁移学习。基于权值学习模型,构建基于迁移学习的隐马尔可夫模型算法BioTrHMM。在GENIA语料库的数据集上的实验表明,BioTrHMM算法比传统的隐马尔可夫模型算法具有更好的性能;仅需要少量的目标领域标注数据,即可具有较好的命名实体识别性能。  相似文献   

11.
叶晨  王宏志  高宏  李建中 《软件学报》2020,31(4):1162-1172
传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题,但存在计算难度大、缺乏充足的知识等局限性.近年来,随着众包平台的兴起,越来越多的研究将众包引入数据清洗过程,通过众包来提供机器学习所需要的知识.由于众包的有偿性,研究如何将机器学习算法与众包有效且低成本结合在一起是必要的.提出了两种支持基于众包的数据清洗的主动学习模型,通过主动学习技术来减少众包开销,实现了对给定的数据集基于真实众包平台的数据清洗,最大程度减少成本的同时提高了数据的质量.在真实数据集上的实验结果验证了所提模型的有效性.  相似文献   

12.
机器学习算法包括传统机器学习算法和深度学习算法。传统机器学习算法在中医诊疗领域中的应用研究较多,为探究中医辩证规律提供了参考,也为中医诊疗过程的客观化提供了依据。与此同时,随着其在多个领域不断取得成功,深度学习算法在中医诊疗中的价值越来越多地得到业界的重视。通过对中医诊疗领域中使用到的传统机器学习算法与深度学习算法进行述评,总结了两类算法在中医领域中的研究与应用现状,分析了两类算法的特点以及对中医的应用价值,以期为机器学习算法在中医诊疗领域的进一步研究提供参考。  相似文献   

13.
Billions of dollars of loss are caused every year due to fraudulent credit card transactions. The design of efficient fraud detection algorithms is key for reducing these losses, and more algorithms rely on advanced machine learning techniques to assist fraud investigators. The design of fraud detection algorithms is however particularly challenging due to non-stationary distribution of the data, highly imbalanced classes distributions and continuous streams of transactions.At the same time public data are scarcely available for confidentiality issues, leaving unanswered many questions about which is the best strategy to deal with them.In this paper we provide some answers from the practitioner’s perspective by focusing on three crucial issues: unbalancedness, non-stationarity and assessment. The analysis is made possible by a real credit card dataset provided by our industrial partner.  相似文献   

14.
刘艳芳  李文斌  高阳 《软件学报》2022,33(4):1315-1325
与研究固定特征空间的传统在线学习相比,特征演化学习通常假设特征不会以任意方式消失或出现,而是随着收集数据特征的硬件设备更换旧特征消失、新特征出现.然而,已有的特征演化学习方法仅利用数据流的一阶信息,而忽略可以挖掘特征之间相关性和显著提高分类性能的二阶信息.提出了一种特征演化的置信-加权学习算法来解决上述问题:首先,引入二阶置信-加权来更新数据流的预测模型;接着,为了充分利用已学习的模型,在重叠时期学习线性映射来恢复旧特征;随后,用恢复的旧特征更新已有模型;同时,用新特征学习新的预测模型;继而,运用两种集成方法来利用这两种模型;实验研究表明,所提算法优于已有的特征演化学习算法.  相似文献   

15.
Several recent works have studied feature evolvable learning. They usually assume that features would not vanish or appear in an arbitrary way; instead, old features vanish and new features emerge as the hardware device collecting the data features is replaced. However, the existing learning algorithms for feature evolution only utilize the first-order information of data streams and ignore the second-order information which can reveal the correlations between features and thus significantly improve the classification performance. We propose a Confidence-Weighted learning for Feature Evolution (CWFE) algorithm to solve the aforementioned problem. First, second-order confidence-weighted learning is introduced to update the prediction model. Next, to make full use of the learned model, a linear mapping is learned in the overlapping period to recover the old features. Then, the existing model is updated with the recovered old features and, at the same time, a new prediction model is learned with the new features. Furthermore, two ensemble methods are introduced to utilize the two models. Finally, experimental studies show that the proposed algorithms outperform existing feature evolvable learning algorithms.  相似文献   

16.
处理类不平衡数据时,少数类的边界实例非常容易被错分。为了降低类不平衡对分类器性能的影响,提出了自适应边界采样算法(AB-SMOTE)。AB-SMOTE算法对少数类的边界样本进行自适应采样,提高了数据集的平衡度和有效性。同时将AB-SMOTE算法与数据清理技术融合,形成基于AdaBoost的集成算法ABTAdaBoost。ABTAdaBoost算法主要包括三个阶段:第一个阶段对训练数据集采用AB-SMOTE算法,降低数据集的类不平衡度;第二个阶段使用Tomek links数据清理技术,清除数据集中的噪声和抽样方法产生的重叠样例,有效提高数据的可用性;第三个阶段使用AdaBoost集成算法生成一个基于N个弱分类器的集成分类器。实验分别以J48决策树和朴素贝叶斯作为基分类器,在12个UCI数据集上的实验结果表明:ABTAdaBoost算法的预测性能优于其它几种算法。  相似文献   

17.
基于小样本学习的图像分类技术综述   总被引:2,自引:0,他引:2  
图像分类的应用场景非常广泛, 很多场景下难以收集到足够多的数据来训练模型, 利用小样本学习进行图像分类可解决训练数据量小的问题. 本文对近年来的小样本图像分类算法进行了详细综述, 根据不同的建模方式, 将现有算法分为卷积神经网络模型和图神经网络模型两大类, 其中基于卷积神经网络模型的算法包括四种学习范式: 迁移学习、元学习、对偶学习和贝叶斯学习; 基于图神经网络模型的算法原本适用于非欧几里得结构数据, 但有部分学者将其应用于解决小样本下欧几里得数据的图像分类任务, 有关的研究成果目前相对较少. 此外, 本文汇总了现有文献中出现的数据集并通过实验结果对现有算法的性能进行了比较. 最后, 讨论了小样本图像分类技术的难点及未来研究趋势.  相似文献   

18.
针对当前强化学习算法在无人机升空平台路径规划任务中样本效率低、算法鲁棒性较差的问题,提出一种基于模型的内在奖励强化学习算法。采用并行架构将数据收集操作和策略更新操作完全解耦,提升算法学习效率,并运用内在奖励的方法提高智能体对环境的探索效率,避免收敛到次优策略。在策略学习过程中,智能体针对模拟环境的动态模型进行学习,从而在有限步内更好地预测状态、奖励等信息。在此基础上,通过结合有限步的规划计算以及神经网络的预测,提升价值函数的预测精准度,以利用较少的经验数据完成智能体的训练。实验结果表明,相比同样架构的无模型强化学习算法,该算法达到相同训练水平所需的经验数据量减少近600幕数据,样本效率和算法鲁棒性都有大幅提升,相比传统的非强化学习启发类算法,分数提升接近8 000分,与MVE等主流的基于模型的强化学习算法相比,平均分数可以提升接近2 000分,且在样本效率和稳定性上都有明显提高。  相似文献   

19.
李延超  肖甫  陈志  李博 《软件学报》2020,31(12):3808-3822
主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制:(1)一些主动学习方法基于单选择准则或对数据、模型设定假设,这类方法很难找到既有不确定性又有代表性的未标记样本;(2)现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性,例如预定义函数或差异性衡量;(3)噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式,使得标记样本与未标记样本建立联系,再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性,并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中,算法使用的子模块函数确保选择的样本集合具有多样性.此外,自适应参数的优化,使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中,实验结果表明,所提出的主动学习方法的性能优于现有的一些先进的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号