存在危险区域的路径规划问题研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

存在危险区域的路径规划问题研究

作者姓名：	张震臧兆祥郭鸿村田佩

作者单位：	1.三峡大学水电工程智能视觉监测湖北省重点实验室;2.三峡大学计算机与信息学院443002;

基金项目：	国家自然科学基金(No.61502274);三峡大学水电工程智能视觉监测湖北省重点实验室开放基金(No.2015KLA08)资助项目。

摘要：	为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题。在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε-greedy、轮盘赌、玻尔兹曼探索三种动作选择策略进行了测试。实验结果表明,按照本文设计的探索率递减变化方法设置探索率时,算法的性能优于其他三种动作选择策略,收敛时间至少缩短了38.4%,实时性和准确性基本满足兵棋推演的要求,可用于解决兵棋推演路径规划问题。
关键词：	陆战兵棋推演强化学习路径规划 Q学习动作选择策略
本文献已被维普等数据库收录！