首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 593 毫秒
1.
基本Q学习算法应用于路径规划时,动作选择的随机性导致算法前期搜索效率较低,规划耗时长,甚至不能找到完整的可行路径,故提出一种改进蚁群与动态Q学习融合的机器人路径规划算法.利用精英蚂蚁模型和排序蚂蚁模型的信息素增量机制,设计了一种新的信息素增量更新方法,以提高机器人的探索效率;利用改进蚁群算法的信息素矩阵为Q表赋值,以减少机器人初期的无效探索;设计了一种动态选择策略,同时提高收敛速度和算法稳定性.在不同障碍物等级的二维静态栅格地图下进行的仿真结果表明,所提方法能够有效减少寻优过程中的迭代次数与寻优耗时.  相似文献   

2.
针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划.对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的Aε...  相似文献   

3.
一种新的多智能体Q学习算法   总被引:2,自引:0,他引:2  
郭锐  吴敏  彭军  彭姣  曹卫华 《自动化学报》2007,33(4):367-372
针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择. 同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力.  相似文献   

4.
针对强化学习的大多数探索/利用策略在探索过程中忽略智能体随机选择动作带来的风险的问题,提出一种基于因子分解机(FM)用于安全探索的Q表初始化方法。首先,引入Q表中已探索的Q值作为先验知识;然后,利用FM建立先验知识中状态和行动间潜在的交互作用的模型;最后,基于该模型预测Q表中的未知Q值,从而进一步引导智能体探索。在OpenAI Gym的网格强化学习环境Cliffwalk中进行的A/B测试里,基于所提方法的Boltzmann和置信区间上界(UCB)探索/利用策略的不良探索幕数分别下降了68.12%和89.98%。实验结果表明,所提方法提高了传统策略的探索安全性,同时加快了收敛。  相似文献   

5.
目前智能决策系统中的经典算法智能化程度较低,而更为先进的强化学习算法应用于复杂决策任务又会导致存储上的维度灾难问题。针对该问题,提出了一种基于双深度Q网络的智能决策算法,改进了目标Q值计算方法,并将动作选择和策略评估分开进行,从而获得更加稳定有效的策略。智能体对输入状态进行训练,输出一个较优的动作来驱动智能体行为,包括环境感知、动作感知及任务协同等,继而在复杂度较高的决策环境中顺利完成给定任务。基于Unity3D游戏引擎开发了虚拟智能对抗演练的验证系统,对演练实时状态和智能体训练结果进行可视化,验证了双深度Q网络模型的正确性和稳定性,有效解决了强化学习算法存在的灾难问题。该智能决策算法有望在策略游戏、对抗演练、任务方案评估等领域发挥作用。  相似文献   

6.
深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降。为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的动作为最优动作时更正函数为1,不对当前状态—动作值进行修改,当选择的动作不是最优动作时更正函数小于1,缩小当前状态—动作值,从而使得最优状态—动作值与非最优状态—动作值的差异增大,减少过估计问题的影响。实验证明改进的算法在Playing Atari 2600视频游戏以及OpenAI Gym中取得了更好的性能。说明改进的算法比深度Q网络寻得了更优的策略。  相似文献   

7.
基于MetrOPOlis准则的Q-学习算法研究   总被引:3,自引:0,他引:3  
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能,通过把Q-学习中寻求成策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Mketropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning,通过比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降。  相似文献   

8.
在多智能体仿真中使用行为树进行决策具有直观、易扩展等优点,但行为树的设计过程过于复杂,人工调试时效率低下.引入Q-Learning来实现行为树的自动设计.为解决传统Q-Learning的收敛速度慢的问题,将模拟退火算法中的Me-tropolis准则应用到动作选择策略中,随着学习过程自适应改变次优动作的选择概率以及将动态规划思想应用到Q值更新策略.实验结果证明,基于改进的多步Q-Learning行为树的智能体决策模型具有更快的收敛速度,并且能够实现行为树的自动设计和优化.  相似文献   

9.
对互联电网中自动发电控制AGC中控制策略进行改进,设计了人工智能中的人工心理学和人工智能中的机器学习结合的控制策略.分别对Q学习算法和Q(λ)学习算法进行改进,设计了具有人工情感的智能体.提出了人工情感Q学习算法和人工情感Q(λ)学习算法.且将人工情感分别作用于Q学习算法和Q(λ)学习算法中的输出动作、学习率和奖励函数.最后在IEEE标准两区域和南方电网四区域的互联电网Simulink模型中进行数值仿真.绘制并统计了控制性能指标、区域控制误差和频率偏差的值.从仿真结果看,所提人工情感Q学习算法和人工情感Q(λ)学习算法控制效果优于原有Q学习算法、Q(λ)学习算法、R(λ)算法、Sarsa算法、Sarsa(λ)算法和PID控制算法,该数值仿真结果验证了所提算法的可行性和有效性.  相似文献   

10.
异构车载网络环境下如何选择接入网络对于车载终端用户的服务体验而言至关重要,目前基于Q学习的网络选择方法利用智能体与环境的交互来迭代学习网络选择策略,从而实现较优的网络资源分配.然而该类方法通常存在状态空间过大引起迭代效率低下和收敛速度较慢的问题,同时由于Q值表更新产生的过高估计现象容易导致网络资源利用不均衡.针对上述问题,基于多智能体Q学习提出一种适用于融合5G通信异构车载网络的选择方法M QSM.该方法采用多智能体协作学习的思想,利用双Q值表交替更新的方式来获得动作选择的总回报值,最终实现异构车载网络环境下长期有效的最优网络切换决策集合.实验结果表明,与同类型方法相比较,M QSM在系统总切换次数、平均总折扣值和网络容量利用率方面表现出更好的性能.  相似文献   

11.
针对水下滑翔机路径规划问题,提出了一种基于Q学习的水下滑翔机路径规划方法。考虑到水下滑翔机在执行一些特定任务时会提前给定俯仰角及深度参数,且航向角选择范围通常是几个离散角度值,本文针对典型的几种俯仰角情况分别设计了航向动作选择集,这避免了Q学习方法“维数爆炸”问题。根据水下滑翔机航程最短的目标和障碍物外部约束条件,设计了奖励函数与动作选择策略。相较于传统路径规划方法,本文提出的方法不需要提前知道环境信息,而是在学习过程中根据环境的反馈选择最优动作,因此该方法在不同的环境条件下有优良的迁移能力。仿真结果表明,该方法能在未知环境中为水下滑翔机规划出规避障碍且航程短的路径。  相似文献   

12.
A new Q-learning algorithm based on the metropolis criterion   总被引:4,自引:0,他引:4  
The balance between exploration and exploitation is one of the key problems of action selection in Q-learning. Pure exploitation causes the agent to reach the locally optimal policies quickly, whereas excessive exploration degrades the performance of the Q-learning algorithm even if it may accelerate the learning process and allow avoiding the locally optimal policies. In this paper, finding the optimum policy in Q-learning is described as search for the optimum solution in combinatorial optimization. The Metropolis criterion of simulated annealing algorithm is introduced in order to balance exploration and exploitation of Q-learning, and the modified Q-learning algorithm based on this criterion, SA-Q-learning, is presented. Experiments show that SA-Q-learning converges more quickly than Q-learning or Boltzmann exploration, and that the search does not suffer of performance degradation due to excessive exploration.  相似文献   

13.
提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难。提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法。针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进。将改进深度强化学习算法与DQN算法在同样的三维环境下进行仿真实验,从最优路径长度、损失函数值、得到稳定的奖励值、收敛速度等方面进行对比,改进深度强化学习算法比DQN算法得到很大的改善,说明改进的算法比DQN算法寻得了更优的策略。  相似文献   

14.
为了解决传统的强化学习算法应用于移动机器人未知环境的路径规划时存在收敛速度慢、迭代次数多、收敛结果不稳定等问题,提出一种改进的Q-learning算法。在状态初始化时引入人工势场法,使得越靠近目标位置状态值越大,从而引导智能体朝目标位置移动,减少算法初始阶段因对环境探索产生的大量无效迭代;在智能体选择动作时改进[ε]-贪婪策略,根据算法的收敛程度动态调整贪婪因子[ε],从而更好地平衡探索和利用之间的关系,在加快算法收敛速度的同时提高收敛结果的稳定性。基于Python的Tkinter标准化库搭建的格栅地图仿真结果表明,改进的Q-learning算法相较于传统算法在路径规划时间上缩短85.1%,收敛前迭代次数减少74.7%,同时算法的收敛结果稳定性也得到了提升。  相似文献   

15.
针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learming难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。  相似文献   

16.
针对动态环境下的多Agent路径规划问题,提出了一种改进的蚁群算法与烟花算法相结合的动态路径规划方法。通过自适应信息素强度值及信息素缩减因子来加快算法的迭代速度,并利用烟花算法来解决路径规划过程中的死锁问题,避免陷入局部最优。在多Agent动态避碰过程中,根据动态障碍物与多Agent之间的运行轨迹是否相交制定相应的避碰策略,并利用路径转变函数解决多Agent的正面碰撞问题。仿真实验表明,该方法优于经典蚁群算法,能够有效解决多Agent路径规划中的碰撞问题,从而快速找到最优无碰路径。  相似文献   

17.
一种基于蚁群优化算法的旅行Agent问题求解   总被引:3,自引:0,他引:3  
旅行Agent问题解决移动Agent在不同主机间移动时如何规划最优的迁移路线,是复杂的组合优化问题。蚁群算法作为一种新的生物进化算法,具有并行、正反馈和启发式搜索等特点。本文在蚁群算法的基础上,通过修改它的信息素轨迹更新规则,并引入自适应的信息素挥发系数,来求解旅行Agent问题。实验结果表明了本文算法的可行性。  相似文献   

18.
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号