期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	1篇
免费	0篇
国内免费	1篇

专业分类

自动化技术

2篇

出版年

2023年

2篇

排序方式： 共有2条查询结果，搜索用时 0 毫秒

融合引力搜索的双延迟深度确定策略梯度方法

徐平安刘全郝少璞张立华《软件学报》2023,34(11):5191-5204

近年来, 深度强化学习在复杂控制任务中取得了令人瞩目的效果, 然而由于超参数的高敏感性和收敛性难以保证等原因, 严重影响了其对现实问题的适用性. 元启发式算法作为一类模拟自然界客观规律的黑盒优化方法, 虽然能够有效避免超参数的敏感性, 但仍存在无法适应待优化参数量规模巨大和样本使用效率低等问题. 针对以上问题, 提出融合引力搜索的双延迟深度确定策略梯度方法(twin delayed deep deterministic policy gradient based on gravitational search algorithm, GSA-TD3). 该方法融合两类算法的优势: 一是凭借梯度优化的方式更新策略, 获得更高的样本效率和更快的学习速度; 二是将基于万有引力定律的种群更新方法引入到策略搜索过程中, 使其具有更强的探索性和更好的稳定性. 将GSA-TD3应用于一系列复杂控制任务中, 实验表明, 与前沿的同类深度强化学习方法相比, GSA-TD3在性能上具有显著的优势. 相似文献

基于余弦相似度的多模态模仿学习方法

郝少璞刘全徐平安张立华黄志刚《计算机研究与发展》2023,(6):1358-1372

生成对抗模仿学习（generative adversarial imitation learning, GAIL）是一种基于生成对抗框架的逆向强化学习（inverse reinforcement learning, IRL）方法，旨在从专家样本中模仿专家策略.在实际任务中，专家样本往往由多模态策略产生.然而，现有的GAIL方法大部分假设专家样本产自于单一模态策略，导致生成对抗模仿学习只能学习到部分模态策略，即出现模式塌缩问题，这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题，提出了基于余弦相似度的多模态模仿学习方法 (multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组，通过编码器提取专家样本的模态特征，计算采样样本与专家样本之间特征的余弦相似度，并将其加入策略组的损失函数中，引导策略组学习对应模态的专家策略.此外，MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下，通过理论分析证明了MCS-GAIL的收敛... 相似文献