首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
张立华  刘全  黄志刚  朱斐 《软件学报》2023,34(10):4772-4803
逆向强化学习(inverse reinforcement learning, IRL)也称为逆向最优控制(inverse optimal control, IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向.  相似文献   

2.
提出一种基于强化学习的生成对抗网络(Reinforcement learning-based Generative Adversarial Networks,Re-GAN)能耗预测方法.该算法将强化学习与生成对抗网络相结合,将GAN(Generative Adversarial Nets)中的生成器以及判别器分别构建为强化学习中Agent(生成器)以及奖赏函数.在训练过程中,将当前的真实能耗序列作为Agent的输入状态,构建一组固定长度的生成序列,结合判别器及蒙特卡洛搜索方法进一步构建当前序列的奖赏函数,并以此作为真实样本序列后续第一个能耗值的奖赏.在此基础之上,构建关于奖赏的目标函数,并求解最优参数.最后使用所提算法对唐宁街综合大楼公开的建筑能耗数据进行预测试验,实验结果表明,所提算法比多层感知机、门控循环神经网络和卷积神经网络具有更高的预测精度.  相似文献   

3.
生成对抗模仿学习(generative adversarial imitation learning, GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning, IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法 (multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛...  相似文献   

4.
针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法。在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样本,在此基础上利用随机策略生成非专家样本,构建混合样本集,结合最大熵概率模型,对奖赏函数进行建模,并利用梯度下降方法求解最优奖赏函数。基于所求解的最优奖赏函数,利用正向强化学习方法求解最优策略,并在此基础上进一步生成非专家样本,重新构建混合样本集,迭代求解最优奖赏函数。将所提出的算法与MaxEnt IRL算法应用于经典的Object World与Mountain Car问题,实验表明,该算法在专家样本稀疏的情况下可以较好地求解奖赏函数,具有较好的收敛性能。  相似文献   

5.
通过生成对抗网络的对抗学习生成仿真图像,已成为人工智能领域的一个研究热点.为了进一步提高生成图像的质量,本文提出了多判别器协同合作的网络框架——采用多个判别器为唯一生成器提供联合损失量,并通过不同的学习率保持各个判别器的差异性.同时,为了满足判别器的Lipschitz连续条件,本文所有的判别器网络一律进行谱归一化操作.实验表明,本文提出的基于多判别器合作框架的生成对抗网络表现较优.  相似文献   

6.
针对神经机器翻译和人工翻译性能的差异最小化、训练语料不足问题, 提出了一种基于生成对抗网络的神经机器翻译改进方法.首先对目标端句子序列添加微小的噪声干扰, 通过编码器还原原始句子形成新的序列; 其次将编码器的处理结果交给判别器和解码器进一步处理, 在训练过程中, 判别器和双语评估基础值(BLEU)目标函数用于评估生成的句子, 并将结果反馈给生成器, 引导生成器学习及优化.实验结果表明, 对比传统的神经机器翻译模型, 基于GAN模型的方法极大地提高了模型的泛化能力和翻译的精度.  相似文献   

7.
多聚焦图像融合能够融合同一场景下具有不同聚焦部分的一系列图像.为了克服多聚焦图像融合模糊特征提取中存在的不足,提出一种基于U-Net的生成对抗网络模型.首先,生成器采用U-Net和SSE对多聚焦图像的特征进行提取,并完成图像融合;其次,判别器采用卷积层对已知的融合结果和生成器生成的融合图像进行分辨;然后,损失函数采用生成器的对抗损失、映射损失、梯度损失、均方误差损失和判别器对抗损失对生成网络进行参数调节;最后,将生成器、判别器和损失函数组成生成对抗网络模型,并进行实验.Pascal VOC2012数据集作为生成对抗网络的训练集,包括近焦图像、远焦图像、映射图像和融合图像.实验结果证明,该生成对抗网络模型能够有效地提取多聚焦图像中的模糊特征,且融合图像在互信息、相位一致性和感知相似性等方面表现优异.  相似文献   

8.
针对目前生成对抗网络文本生成模型采用有监督形式造成的错误累计以及生成文本信息单一等问题,提出一种基于GRU生成对抗网络的文本生成模型,GRU生成器采用策略梯度进行参数更新,且该模型增加蒙特卡洛搜索推导生成样本序列。采用参数较少的GRU神经网络作为生成器和判别器,判别器的输出loss函数指导生成过程中的参数优化,以蒙特卡洛策略思想补充生成过程中的非完整序列,减少错误累计并增加文本生成信息的丰富性。引入门截断机制,用自定义函数替换GRU网络中的sigmoid函数,改进当前时刻的隐含变量的激活函数,改善原函数收敛速度较慢且容易产生梯度消失问题,使之更适应本文模型。仿真实验结果表明本文模型丰富了文本生成的多样性,提高了模型的收敛速度,验证了本模型的有效性。该模型有较好的应用性。  相似文献   

9.
为解决当前基于生成对抗网络的深度学习网络模型在面对较复杂的特征时存在伪影、纹理细节退化等现象, 造成视觉上的欠缺问题, 提出了连贯语义注意力机制与生成对抗网络相结合的图像修复改进算法. 首先, 生成器使用两阶段修复方法, 用门控卷积替代生成对抗网络的普通卷积, 引入残差块解决梯度消失问题, 同时引入连贯语义注意力机制提升生成器对图像中重要信息和结构的关注度; 其次, 判别器使用马尔可夫判别器, 强化网络的判别效果, 将生成器输出结果进行反卷积操作得到最终修复后的图片. 通过修复结果以及图像质量评价指标与基线算法进行对比, 实验结果表明, 该算法对缺失部分进行了更好地预测, 修复效果有了更好的提升.  相似文献   

10.
针对深度卷积生成对抗网络(DCGAN)中的对抗训练缺乏灵活性以及DCGAN所使用的二分类交叉熵损失(BCE loss)函数存在优化不灵活、收敛状态不明确的问题,提出了一种基于仲裁机制的生成对抗网络(GAN)改进算法,即在DCGAN的基础上引入了所提出的仲裁机制。首先,所提改进算法的网络结构由生成器、鉴别器和仲裁器组成;然后,生成器与鉴别器会根据训练规划进行对抗训练,并根据从数据集中感知学习到的特征分别强化生成图像以及辨别图像真伪的能力;其次,由上一轮经过对抗训练的生成器和鉴别器与度量分数计算模块一起组成仲裁器,该仲裁器将度量生成器与鉴别器对抗训练的结果,并反馈到训练规划中;最后,在网络结构中添加获胜限制以提高模型训练的稳定性,并使用Circle loss函数替换BCE loss函数,使得模型优化过程更灵活、收敛状态更明确。实验结果表明,所提算法在建筑类以及人脸数据集上有较好的生成效果,在LSUN数据集上,该算法的FID指标相较于DCGAN原始算法下降了1.04%;在CelebA数据集上,该算法的IS指标相较于DCGAN原始算法提高了4.53%。所提算法生成的图像具有更好的多样性以及更高的质量。  相似文献   

11.
The integration of reinforcement learning (RL) and imitation learning (IL) is an important problem that has long been studied in the field of intelligent robotics. RL optimizes policies to maximize the cumulative reward, whereas IL attempts to extract general knowledge about the trajectories demonstrated by experts, i.e, demonstrators. Because each has its own drawbacks, many methods combining them and compensating for each set of drawbacks have been explored thus far. However, many of these methods are heuristic and do not have a solid theoretical basis. This paper presents a new theory for integrating RL and IL by extending the probabilistic graphical model (PGM) framework for RL, control as inference. We develop a new PGM for RL with multiple types of rewards, called probabilistic graphical model for Markov decision processes with multiple optimality emissions (pMDP-MO). Furthermore, we demonstrate that the integrated learning method of RL and IL can be formulated as a probabilistic inference of policies on pMDP-MO by considering the discriminator in generative adversarial imitation learning (GAIL) as an additional optimality emission. We adapt the GAIL and task-achievement reward to our proposed framework, achieving significantly better performance than policies trained with baseline methods.  相似文献   

12.
模仿学习是强化学习与监督学习的结合,目标是通过观察专家演示,学习专家策略,从而加速强化学习。通过引入任务相关的额外信息,模仿学习相较于强化学习,可以更快地实现策略优化,为缓解低样本效率问题提供了解决方案。模仿学习已成为解决强化学习问题的一种流行框架,涌现出多种提高学习性能的算法和技术。通过与图形图像学的最新研究成果相结合,模仿学习已经在游戏人工智能(artificial intelligence,AI)、机器人控制和自动驾驶等领域发挥了重要作用。本文围绕模仿学习的年度发展,从行为克隆、逆强化学习、对抗式模仿学习、基于观察量的模仿学习和跨领域模仿学习等多个角度进行深入探讨,介绍了模仿学习在实际应用上的最新情况,比较了国内外研究现状,并展望了该领域未来的发展方向。旨在为研究人员和从业人员提供模仿学习的最新进展,从而为开展工作提供参考与便利。  相似文献   

13.
Recently, generative adversarial networks (GANs) have become a research focus of artificial intelligence. Inspired by two-player zero-sum game, GANs comprise a generator and a discriminator, both trained under the adversarial learning idea. The goal of GANs is to estimate the potential distribution of real data samples and generate new samples from that distribution. Since their initiation, GANs have been widely studied due to their enormous prospect for applications, including image and vision computing, speech and language processing, etc. In this review paper, we summarize the state of the art of GANs and look into the future. Firstly, we survey GANs' proposal background, theoretic and implementation models, and application fields. Then, we discuss GANs' advantages and disadvantages, and their development trends. In particular, we investigate the relation between GANs and parallel intelligence, with the conclusion that GANs have a great potential in parallel systems research in terms of virtual-real interaction and integration. Clearly, GANs can provide substantial algorithmic support for parallel intelligence.   相似文献   

14.
强化学习与生成式对抗网络结合方法研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
强化学习和生成式对抗网络是近年来人工智能领域的两个热门主题,在众多领域表现非常出色。近期出现较多关于两者结合的工作与报道,将强化学习交互式学习的优点与生成式对抗网络的启发自博弈思想相互融合。对两者结合的最新进展进行了梳理、比较与实验分析。对强化学习与生成式对抗网络的理论进行了概述;从强化学习改进生成式对抗网络、生成式对抗网络改进强化学习两个研究方向进行了阐述与比较,通过实验方式分析了这些方法在自然语言、机器控制领域的应用情况;展望了可能的发展趋势。  相似文献   

15.
自生成对抗网络(GANs)诞生以来,对其研究已经成为机器学习领域的一个热点。它利用对抗学习的机制训练模型,解决了当年生成算法无法解决的问题。由于GANs的优势,研究者们对其进行深入的研究,产生了许多GANs的衍生模型,这使得GANs得到了快速的发展,形成了所谓的GAN-Zoo。GANs被广泛应用于视觉领域、音频领域、自然语言领域及其他各种领域中,如图像生成、图像翻译、文本生成、音频转换和自然语言翻译等。从传统GANs出发,对近几年内GANs的研究中较为突出的方面进行总结,首先介绍了传统GANs的基本理论,然后对近年来GANs的主要衍生模型进行分析,最后总结了GANs在图像领域和信息安全领域中的主要应用成果。  相似文献   

16.
生成对抗网络已经成为深度学习领域最热门的研究方向之一,其最大的优势在于能够以无监督的方式来拟合一个未知的分布。目前,生成对抗网络在图像生成领域大放异彩,其能够产生一些高质量的图像,但也暴露了一些弊端。在生成图像的过程中,经常会出现模式坍塌问题,从而导致生成的样本过于单一。为了解决这个问题,对生成对抗网络的模型结构和损失函数加以改进,使判别器能够从多个角度来度量生成数据的分布和真实数据的分布之间的差异,从而改善了生成样本的多样性。通过在多个数据集上进行实验,结果显示,提出的模型在很大程度上缓解了模式坍塌问题。  相似文献   

17.
在机器翻译模型的构建和训练阶段,为了缓解因端到端机器翻译框架在训练时采用最大似然估计原理导致的翻译模型的质量不高的问题,本文使用对抗学习策略训练生成对抗网络,通过鉴别器协助生成器的方式来提高生成器的翻译质量,通过实验选择出了更适合生成器的机器翻译框架Transformer,更适合鉴别器的卷积神经网络,并且验证了对抗式训练对提高译文的自然度、流利度以及准确性都具有一定的作用.在模型的优化阶段,为了缓解因蒙汉平行数据集匮乏导致的蒙汉机器翻译质量仍然不理想的问题,本文将Dual-GAN (dual-generative adversarial networks,对偶生成对抗网络)算法引入了蒙汉机器翻译中,通过有效的利用大量蒙汉单语数据使用对偶学习策略的方式来进一步提高基于对抗学习的蒙汉机器翻译模型的质量.  相似文献   

18.
随着深度学习的快速发展,基于生成对抗网络的文本图像合成领域成为了当下计算机视觉研究的热点。生成对抗网络同时包含生成器和鉴别器,通过两者的博弈来实现逼真数据的生成。受生成对抗网络的启发,近几年提出了一系列的文本图像合成模型,从图像质量、多样性、语义一致性方面不断取得突破。为推动文本图像合成领域的研究发展,对现有文本图像合成技术进行了全面概述。从文本编码、文本直接合成图像、文本引导图像合成方面对文本图像合成模型进行了分类整理,并详细探讨了各类基于生成对抗网络的代表性模型的模型框架和关键性贡献。分析了现有的评估指标和常用的数据集,提出了现有方法在复杂场景和文本、多模态、轻量化模型、模型评价方法等方面的不足和未来的发展趋势。总结了目前生成对抗网络在各领域的发展,重点关注了在文本图像合成领域的应用,可以作为一个研究人员进行图像合成研究时选择深度学习相关方法的权衡和参考。  相似文献   

19.
在实际应用中,为分类模型提供大量的人工标签越来越困难,因此,近几年基于半监督的图像分类问题获得了越来越多的关注.而大量实验表明,在生成对抗网络(Generative adversarial network,GANs)的训练过程中,引入少量的标签数据能获得更好的分类效果,但在该类模型的框架中并没有考虑用于提取图像特征的结构,为了进一步利用其模型的学习能力,本文提出一种新的半监督分类模型.该模型在原生成对抗网络模型中添加了一个编码器结构,用于直接提取图像特征,并构造了一种新的半监督训练方式,获得了突出的分类效果.本模型分别在标准的手写体识别数据库MNIST、街牌号数据库SVHN和自然图像数据库CIFAR-10上完成了数值实验,并与其他半监督模型进行了对比,结果表明本文所提模型在使用少量带标数据情况下得到了更高的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号