排序方式: 共有46条查询结果,搜索用时 0 毫秒
41.
基于生成对抗网络的模仿学习综述 总被引:1,自引:0,他引:1
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation Learning,简称GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后总结全文并探讨了可能的未来趋势. 相似文献
42.
在高质量分辨率离子光学系统的设计中,光学系统元件像差干扰了带电粒子的运动轨迹,使高分辨率获得往往变得十分困难。采用所谓的α线圈和β线圈可以有效地在磁场径向产生一阶梯度和二阶梯度。改变一阶梯度的叫α修正线圈,改变磁场二阶梯度的叫β修正线圈。 相似文献
43.
44.
45.
在串列升级工程中,在线同位素分离器要产生并通过磁分析器分选出所要求的放射性核束,放射性核束束流强度很弱,一般为10^4~10^10s^-1。为了对束流进行有效的诊断,设计了采用在束流轰击时可发光的闪烁体,配合CCD摄像头直接获得光斑图像,进而得到束流分布相关信息的测量装置,即束流剖面成像仪(BPM),其组成如图1所示。 相似文献
46.