首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
陈奕宇  霍静  丁天雨  高阳 《软件学报》2024,35(4):1618-1650
近年来,深度强化学习(deep reinforcement learning, DRL)已经在诸多序贯决策任务中取得瞩目成功,但当前,深度强化学习的成功很大程度依赖于海量的学习数据与计算资源,低劣的样本效率和策略通用性是制约其进一步发展的关键因素.元强化学习(meta-reinforcementlearning,Meta-RL)致力于以更小的样本量适应更广泛的任务,其研究有望缓解上述限制从而推进强化学习领域发展.以元强化学习工作的研究对象与适用场景为脉络,对元强化学习领域的研究进展进行了全面梳理:首先,对深度强化学习、元学习背景做基本介绍;然后,对元强化学习作形式化定义及常见的场景设置总结,并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展;最后,分析了元强化学习领域的研究挑战与发展前景.  相似文献   

2.
强化学习在游戏对弈、系统控制等领域内表现出良好的性能,如何使用少量样本快速学习新任务是强化学习中亟需解决的问题。目前的有效解决方法是将元学习应用在强化学习中,由此所产生的元强化学习日益成为强化学习领域中的研究热点。为了帮助后续研究人员快速并全面了解元强化学习领域,根据近年来的元强化学习文献对研究方法进行梳理,将其归纳成基于循环网络的元强化学习、基于上下文的元强化学习、基于梯度的元强化学习、基于分层的元强化学习和离线元强化学习,对五种类型的研究方法进行对比分析,简要阐述了元强化学习的基本理论和面临的挑战,最后基于当前研究现状讨论了元强化学习的未来发展前景。  相似文献   

3.
深度元学习是解决小样本分类问题的流行范式。对近年来基于深度元学习的小样本图像分类算法进行了详细综述。从问题的描述出发对基于深度元学习的小样本图像分类算法进行概括,并介绍了常用小样本图像分类数据集及评价准则;分别从基于模型的深度元学习方法、基于优化的深度元学习方法以及基于度量的深度元学习方法三个方面对其中的典型模型以及最新研究进展进行详细阐述。最后,给出了现有算法在常用公开数据集上的性能表现,总结了该课题中的研究热点,并讨论了未来的研究方向。  相似文献   

4.
从提高神经网络泛化能力的角度提出一种改进方法.利用Taylor级数展开的思想,用线性和非线性组合构成函数映射关系,即改进的神经网络是用原神经网络的非线性映射和关于输入信号的线性映射的和来逼近期望值.文中还给出了该神经网络学习速率的自适应调节方法.对线性对象和非线性对象分别进行建模仿真,结果表明,改进的神经网络比基于正则化方法的神经网络具有更好的泛化能力.  相似文献   

5.
张振宇  杨健 《自动化学报》2023,49(7):1446-1455
双目深度估计的在线适应是一个有挑战性的问题, 其要求模型能够在不断变化的目标场景中在线连续地自我调整并适应于当前环境. 为处理该问题, 提出一种新的在线元学习适应算法(Online meta-learning model with adaptation, OMLA), 其贡献主要体现在两方面: 首先引入在线特征对齐方法处理目标域和源域特征的分布偏差, 以减少数据域转移的影响; 然后利用在线元学习方法调整特征对齐过程和网络权重, 使模型实现快速收敛. 此外, 提出一种新的基于元学习的预训练方法, 以获得适用于在线学习场景的深度网络参数. 相关实验分析表明, OMLA和元学习预训练算法均能帮助模型快速适应于新场景, 在KITTI数据集上的实验对比表明, 本文方法的效果超越了当前最佳的在线适应算法, 接近甚至优于在目标域离线训练的理想模型.  相似文献   

6.
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。  相似文献   

7.
万物依存而在,现实世界中的实体之间存在着各种不同的关联关系,如人与人之间的关系可以构成社交网络,学者通过共同发表论文、引用文献构成引文网络。同质网络将节点和边抽象为单一类型,但是这会造成大量的信息丢失。为了更大程度地保证信息的完整性和丰富性,有研究者提出了异质信息网络的概念,即包含多种类型节点和边的网络模式。将异质信息网络中的拓扑结构和语义信息嵌入到低维向量空间中,下游任务能够利用异质信息网络中的丰富信息进行机器学习或数据挖掘任务。文中总结了近年来基于深度学习模型的异质信息网络表示学习方法的研究成果,同时聚焦两类关键问题——异质信息网络语义自动提取和动态异质信息网络的表示学习方法,列举了异质信息网络表示学习新的应用场景,并展望了异质信息网络的未来发展趋势。  相似文献   

8.
随着最近深度学习技术的蓬勃发展,深度神经网络(DNN)在大规模的图像分类与识别任务中取得了突破性的进展,但其在解决小样本学习问题时仍面临巨大挑战.小样本学习(FSL)是指在少量有监督样本的情况下学习一个能解决实际问题的模型,在深度学习领域具有重要意义.这促使该系统梳理了已有的DNN下的小样本学习工作,根据它们在解决小样...  相似文献   

9.
深度神经网络是一种非常有效的机器学习方法,然而传统的算法均无法处理动态问题.因此,介绍了一种最近提出的能够动态学习的深度神经网络永续学习机算法.该算法能够实现对新增数据的动态学习,并且算法执行速度较快.通过对文献的分析表明,该算法是一种拥有非常广泛应用价值的深度学习算法.  相似文献   

10.
CMAC学习性能及泛化性能研究综述   总被引:1,自引:0,他引:1  
小脑模型清晰度控制器(CMAC)是一种局部学习前馈网络,结构简单,收敛速度快,易于实现。从其每个神经元来看,各神经元之间是一种线性关系,但从总体结构来看,网络是一种非线性映射关系。而且模型从输入开始就存在一种泛化能力。网络的学习和泛化能力一直是研究热点,因此,该文将对CMAC网络的泛化能力、学习能力以及一些改善途径进行多方面的综合性的讨论。文章最后还将给出一种改善CMAC泛化能力的训练策略,它不仅避免了学习干扰问题加快了学习速度而且可以通过提高训练循环次数增加训练样本量。通过MATLAB仿真发现这种训练策略可以改善CMAC网络的泛化能力。该方法简单有效是可行的。  相似文献   

11.
近年来,深度神经网络(DNNs)在许多人工智能任务中取得卓越表现,例如计算机视觉(CV)、自然语言处理(NLP).然而,网络设计严重依赖专家知识,这是一个耗时且易出错的工作.于是,作为自动化机器学习(AutoML)的重要子领域之一,神经结构搜索(NAS)受到越来越多的关注,旨在以自动化的方式设计表现优异的深度神经网络模...  相似文献   

12.
传统机器学习方法泛化性能不佳,需要通过大规模数据训练才能得到较好的拟合结果,因此不能快速学习训练集外的少量数据,对新种类任务适应性较差,而元学习可实现拥有类似人类学习能力的强人工智能,能够快速适应新的数据集,弥补机器学习的不足。针对传统机器学习中的自适应问题,利用样本图片的局部旋转对称性和镜像对称性,提出一种基于群等变卷积神经网络(G-CNN)的度量元学习算法,以提高特征提取能力。利用G-CNN构建4层特征映射网络,根据样本图片中的局部对称信息,将支持集样本映射到合适的度量空间,并以每类样本在度量空间中的特征平均值作为原型点。同时,通过同样的映射网络将查询机映射到度量空间,根据查询集中样本到原型点的距离完成分类。在Omniglot和miniImageNet数据集上的实验结果表明,该算法相比孪生网络、关系网络、MAML等传统4层元学习算法,在平均识别准确率和模型复杂度方面均具有优势。  相似文献   

13.
随着深度学习与人工智能技术的不断发展,视频目标跟踪已经成为了计算机视觉的重要研究内容,在公安布控、人机交互、交通管制、军事等各个领域起到越来越重要的作用。尽管现在国内外学者提出了多种目标跟踪算法,也搭建了较为完善的目标跟踪系统,但是算法的鲁棒性依然是一个比较大的挑战。本文对运动目标跟踪系统结构进行了简要介绍,并从特征提取及融合、外观模型、目标搜索等方面详细阐述了目前主流运动目标跟踪算法。然后对目标跟踪算法在深度学习大环境下的新发展进行了分析,从基于深度学习的目标跟踪及目标检测算法角度分析了深度学习在提高目标检测算法鲁棒性方面的有效性,最后概述了深度学习在视频目标检测算法中的具体应用并对其未来发展进行了展望。  相似文献   

14.

小样本学习(few-shot learning,FSL)旨在利用少量样本学习得到解决问题的模型,为解决应用场景中样本量少或标注样本少的问题. 图神经网络(graph neural network,GNN)由于其在许多应用中的卓越性能引起了极大的关注,许多学者开始尝试利用图神经网络进行小样本学习,基于图神经网络的方法在小样本领域取得了卓越的成绩. 目前与基于图神经网络的小样本学习方法相关的综述性研究较少,缺乏该类方法的划分体系与介绍性工作,因此系统地梳理了当前基于图神经网络的小样本学习的相关工作:概括了小样本学习的图神经网络方法的概念,根据模型的基本思想将其划分为基于节点特征、基于边特征、基于节点对特征和基于类级特征的4类方法,介绍了这4类方法的研究进展;总结了目前常用的小样本数据集和代表性模型在这些数据集上的实验结果,归纳各类方法主要的研究内容和优劣势;最后概述了基于图神经网络的小样本学习方法的应用和面临的挑战,并展望其未发展方向.

  相似文献   

15.
胡彬  王晓军  张雷 《计算机工程》2022,48(12):112-118
元学习期望训练所得的元模型在学习到的“元知识”基础上利用来自新任务的少量标注样本,仅通过较少的梯度下降步骤微调模型就能够快速适应该任务。但是,由于缺乏训练样本,元学习算法在元训练期间对现有任务过度训练时所得的分类器决策边界不够准确,不合理的决策边界使得元模型更容易受到微小对抗扰动的影响,导致元模型在新任务上的鲁棒性能降低。提出一种半监督对抗鲁棒模型无关元学习(semi-ARMAML)方法,在目标函数中分别引入半监督的对抗鲁棒正则项和基于信息熵的任务无偏正则项,以此优化决策边界,其中对抗鲁棒正则项的计算允许未标注样本包含未见过类样本,从而使得元模型能更好地适应真实应用场景,降低对输入扰动的敏感性,提高对抗鲁棒性。实验结果表明,相比ADML、R-MAML-TRADES等当下主流的对抗元学习方法,semi-ARMAML方法在干净样本上准确率较高,在MiniImageNet数据集的5-way 1-shot与5-way 5-shot任务上对抗鲁棒性能分别约提升1.8%和2.7%,在CIFAR-FS数据集上分别约提升5.2%和8.1%。  相似文献   

16.
面向自然语言处理的深度学习研究   总被引:11,自引:0,他引:11  
奚雪峰  周国栋 《自动化学报》2016,42(10):1445-1465
近年来,深度学习在图像和语音处理领域已经取得显著进展,但是在同属人类认知范畴的自然语言处理任务中,研究还未取得重大突破.本文首先从深度学习的应用动机、首要任务及基本框架等角度介绍了深度学习的基本概念;其次,围绕数据表示和学习模型两方面,重点分析讨论了当前面向自然语言处理的深度学习研究进展及其应用策略;并进一步介绍了已有的深度学习平台和工具;最后,对深度学习在自然语言处理领域的发展趋势和有待深入研究的难点进行了展望.  相似文献   

17.
探讨注意力机制如何帮助推荐模型动态关注有助于执行当前推荐任务输入的特定部分.分析注意力机制网络框架及其输入数据的权重计算方法,分别从标准注意力机制、协同注意力机制、自注意力机制、层级注意力机制和多头注意力机制这五个角度出发,归纳分析其如何采用关键策略、算法或技术来计算当前输入数据的权重,并通过计算出的权重以使推荐模型可...  相似文献   

18.
Soares  Carlos  Brazdil  Pavel B.  Kuba  Petr 《Machine Learning》2004,54(3):195-209
The Support Vector Machine algorithm is sensitive to the choice of parameter settings. If these are not set correctly, the algorithm may have a substandard performance. Suggesting a good setting is thus an important problem. We propose a meta-learning methodology for this purpose and exploit information about the past performance of different settings. The methodology is applied to set the width of the Gaussian kernel. We carry out an extensive empirical evaluation, including comparisons with other methods (fixed default ranking; selection based on cross-validation and a heuristic method commonly used to set the width of the SVM kernel). We show that our methodology can select settings with low error while providing significant savings in time. Further work should be carried out to see how the methodology could be adapted to different parameter setting tasks.Supplementary material to this paper is available in electronic form at http://dx.doi.org/10.1023/B:MACH.0000015879.28004.9b  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号