排序方式: 共有36条查询结果,搜索用时 406 毫秒
11.
传统的深度强化学习方法依赖大量的经验样本并且难以适应新任务.元强化学习通过从以往的训练任务中提取先验知识,为智能体快速适应新任务提供了一种有效的方法.基于最大熵强化学习框架的元深度强化学习通过最大化期望奖赏和最大化策略熵来优化策略.然而,目前以最大熵强化学习框架为基础的元强化学习算法普遍采用固定的温度参数,这在面对元强化学习的多任务场景时是不合理的.针对这一问题,提出了自适应调节策略熵(Automating Policy Entropy,APE)算法.该算法首先通过限制策略的熵,将原本的目标函数优化问题转换为受限优化问题,然后将受限优化问题中的对偶变量作为温度参数,通过拉格朗日对偶法求解得到其更新公式.根据得到的更新公式,温度参数将在每一轮元训练结束之后进行自适应调节.实验数据表明,所提算法在Ant-Fwd-Back和Walker-2D上的平均得分提高了200,元训练效率提升了82%;在Humanoid-Di-rec-2D上的策略收敛所需的训练步数为23万,收敛速度提升了127%.实验结果表明,所提算法具有更高的元训练效率和更好的稳定性. 相似文献
12.
13.
基于协商的Multi-Agent生产计划与调度系统 总被引:3,自引:0,他引:3
目前企业使用的ERP系统中由于计划与能力计算的分离以及调度信息不能及时反馈 ,已很难适应敏捷制造的需要。Agent技术是进行分布式制造系统建模的一种主要方法之一。工作中心是各种生产能力单元的通称 ,也是发生加工成本的实体 ,各工作中心Agent之间通过协商与协作 ,形成一个基于能力与成本的Multi Agent集成生产计划与调度系统 ,使企业具有实时应变性。 相似文献
14.
15.
从整个生产价值链出发,结合层次分析法(AHP),建立盟友选择模型.在对模型研究的基础上,提出了一种基于蚁群算法的动态联盟盟友选择方法.实现整条生产价值链的全局最优. 相似文献
16.
17.
18.
为了有效地对异构专利数据源进行统一的查询,提出一个基于本体的异构专利数据源集成系统.该系统引入本体解决数据源集成中存在的语义异构,通过全局数据模式为用户提供统一的查询接口,将用户针对全局数据模式的查询重写为针对各个局部数据源的子查询.使用该系统,用户可以从异构的专利源中得到正确的查询结果. 相似文献
19.
本文首先阐述了遗传算法的主要特点和基本原理,随后对遗传算法的理论与技术研究的主体,即编码机制、适应度评价以及选择、交叉、变异等遗传算子进行了探讨;比较分析了各种遗传操作方法的优缺点和适用场合;对遗传算法的理论和技术做了初步研究综述。 相似文献
20.