首页 | 本学科首页   官方微博 | 高级检索  
     

基于Q学习算法和遗传算法的动态环境路径规划
引用本文:于乃功,王琛,默凡凡,蔡建羡.基于Q学习算法和遗传算法的动态环境路径规划[J].北京工业大学学报,2017,43(7).
作者姓名:于乃功  王琛  默凡凡  蔡建羡
作者单位:北京工业大学信息学部,北京 100124;北京工业大学计算智能与智能系统北京重点实验室,北京 100124;北京工业大学信息学部,北京 100124;北京工业大学计算智能与智能系统北京重点实验室,北京 100124;北京工业大学信息学部,北京 100124;北京工业大学计算智能与智能系统北京重点实验室,北京 100124;北京工业大学信息学部,北京 100124;北京工业大学计算智能与智能系统北京重点实验室,北京 100124
基金项目:国家自然科学基金资助项目,北京市自然科学基金资助项目,北京工业大学"智能制造领域大科研推进计划"资助项目
摘    要:针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性.

关 键 词:动态环境  连续环境  路径规划  Q学习算法

Dynamic Environment Path Planning Based on Q-Learning Algorithm and Genetic Algorithm
YU Naigong,WANG Chen,MO Fanfan,CAI Jianxian.Dynamic Environment Path Planning Based on Q-Learning Algorithm and Genetic Algorithm[J].Journal of Beijing Polytechnic University,2017,43(7).
Authors:YU Naigong  WANG Chen  MO Fanfan  CAI Jianxian
Abstract:Different from the past with the state-action as the index, a method of establishing Q-value table by discretizing time was introduced. The problem of selecting an action in a certain state was transformed into the problem of choosing an action at a certain time, which achieved the application of Q learning algorithm in dynamic continuous environment. Firstly a genetic algorithm for global path planning was adopted. Then the obstacle was dynamically avoided through Q-learning. The whole system followed a successive "offline" and "online" multi-layer path planning philosophy. Indicated by the experiment results, a path planning system of mobile robot is achieved, and the proposed methods are state-of-the-art.
Keywords:dynamicenvironment  continuousenvironment  path planning  Q-learning algorithm
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号