期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周晓柯孙志毅彭志平《计算机应用研究》2014,(11)

自主系统中,agent通过与环境交互来执行分配给他们的任务,采用分层强化学习技术有助于agent在大型、复杂的环境中提高学习效率。提出一种新方法,利用蚂蚁系统优化算法来识别分层边界发现子目标状态,蚂蚁遍历过程中留下信息素,利用信息素的变化率定义了粗糙度,用粗糙度界定子目标;agent使用发现的子目标创建抽象,能够更有效地探索。在出租车环境下验证算法的性能,实验结果表明该方法可以显著提高agent的学习效率。相似文献

2.

一种基于PSO的分层策略搜索算法

彭志平李绍平《模式识别与人工智能》2008,21(1)

针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化学习MAXQ方法的思想构建子任务分层结构,通过与环境的直接交互,PSO-HPS利用具有较强全局搜索能力的粒子群对各复合子任务中的参数化策略进行进化,以获得优化的动作策略.最后以协商僵局消解的实验验证PSO-HPS是有效的,其性能明显优于HPGRL. 相似文献

3.

动态环境中的分层强化学习

沈晶程晓北刘海波顾国昌张国印《控制理论与应用》2008,25(1):71-74

现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低. 相似文献

4.

基于多智能体的Option自动生成算法 总被引：2，自引：0，他引：2

沈晶顾国昌刘海波《智能系统学报》2006,1(1):84-87

目前分层强化学习中的任务自动分层都是采用基于单智能体的串行学习算法,为解决串行算法学习速度较慢的问题,以Sutton的Option分层强化学习方法为基础框架,提出了一种基于多智能体的Option自动生成算法,该算法由多智能体合作对状态空间进行并行探测并集中应用aiNet实现免疫聚类产生状态子空间,然后并行学习生成各子空间上的内部策略,最终生成Option. 以二维有障碍栅格空间内2点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析.结果表明,基于多智能体的Option自动生成算法速度明显快于基于单智能体的算法. 相似文献

5.

基于概率模型的动态分层强化学习

戴朝晖袁姣红吴敏陈鑫《控制理论与应用》2011,28(11):1595-1600

为解决大规模强化学习中的＂维度灾难＂问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习. 相似文献

6.

基于策略梯度强化学习的高铁列车动态调度方法

俞胜平韩忻辰袁志明崔东亮《控制与决策》2022,37(9):2407-2417

高速铁路以其运输能力大、速度快、全天候等优势,取得了飞速蓬勃的发展.而恶劣天气等突发事件会导致列车延误晚点,更甚者延误会沿着路网不断传播扩散,其带来的多米诺效应将造成大面积列车无法按计划运行图运行.目前依靠人工经验的动态调度方式难以满足快速优化调整的实际要求.因此,针对突发事件造成高铁列车延误晚点的动态调度问题,设定所有列车在各站到发时间晚点总和最小为优化目标,构建高铁列车可运行情况下的混合整数非线性规划模型,提出基于策略梯度强化学习的高铁列车动态调度方法,包括交互环境建立、智能体状态及动作集合定义、策略网络结构及动作选择方法和回报函数建立,并结合具体问题对策略梯度强化学习(REINFORCE)算法进行误差放大和阈值设定两种改进.最后对算法收敛性及算法改进后的性能提升进行仿真研究,并与Q-learning算法进行比较,结果表明所提出的方法可以有效地对高铁列车进行动态调度,将突发事件带来的延误影响降至最小,从而提高列车的运行效率. 相似文献

7.

智能车辆深度强化学习的模型迁移轨迹规划方法

余伶俐邵玄雅龙子威魏亚东周开军《控制理论与应用》2019,36(9):1409-1422

针对智能驾驶车辆传统路径规划中出现车辆模型跟踪误差和过度依赖问题,提出一种基于深度强化学习的模型迁移的智能驾驶车辆轨迹规划方法.首先,提取真实环境的抽象模型,该模型利用深度确定性策略梯度(DDPG)和车辆动力学模型,共同训练逼近最优智能驾驶的强化学习模型;其次,通过模型迁移策略将实际场景问题迁移至虚拟抽象模型中,根据该环境中训练好的深度强化学习模型计算控制与轨迹序列;而后,根据真实环境中评价函数选择最优轨迹序列.实验结果表明,所提方法能够处理连续输入状态,并生成连续控制的转角控制序列,减少横向跟踪误差;同时通过模型迁移能够提高模型的泛化性能,减小过度依赖问题. 相似文献

8.

深度分层强化学习研究与发展

黄志刚刘全张立华曹家庆朱斐《软件学报》2023,34(2):733-760

深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 相似文献

9.

基于分层模型的网络安全策略逐级求精算法 总被引：4，自引：0，他引：4

陈晓苏林植冯向东《小型微型计算机系统》2007,28(6):998-1002

基于策略的安全防护技术是当前网络安全研究的重点之一,但其中的抽象策略求精问题一直没有得到很好解决,从而导致基于策略的安全应用需要人工干预配置策略.本文基于安全策略的分层管理模型,提出了一个集目标求精和实体求精为一体的安全策略逐级求精算法.该算法首先通过目标求精将抽象策略转化为系统应执行的安全行为,然后通过实体求精确定安全行为的执行环境,从而将抽象策略转化为系统可理解和可执行的操作规则,解决了策略求精问题. 相似文献

10.

基于动作空间划分的MAXQ自动分层方法

王奇秦进《计算机应用》2017,37(5):1357-1362

针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。相似文献