首页 | 本学科首页   官方微博 | 高级检索  
     

存在危险区域的路径规划问题研究
作者姓名:张震  臧兆祥  郭鸿村  田佩
作者单位:1.三峡大学水电工程智能视觉监测湖北省重点实验室;2.三峡大学计算机与信息学院443002;
基金项目:国家自然科学基金(No.61502274);三峡大学水电工程智能视觉监测湖北省重点实验室开放基金(No.2015KLA08)资助项目。
摘    要:为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题。在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε-greedy、轮盘赌、玻尔兹曼探索三种动作选择策略进行了测试。实验结果表明,按照本文设计的探索率递减变化方法设置探索率时,算法的性能优于其他三种动作选择策略,收敛时间至少缩短了38.4%,实时性和准确性基本满足兵棋推演的要求,可用于解决兵棋推演路径规划问题。

关 键 词:陆战兵棋推演  强化学习  路径规划  Q学习  动作选择策略
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号