人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用(英文)OA |
| |
作者姓名: | 吴京达 黄志宇 胡中旭 吕辰 |
| |
作者单位: | School of Mechanical and Aerospace Engineering, Nanyang Technological University |
| |
摘 要: | 由于机器学习智力和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练循环并利用人类智慧进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人工指导(Hug)的深度强化学习(DRL)方法,用于端到端自动驾驶案例中的策略训练。通过新设计的人类与自动化之间的控制转移机制,人类能够在模型训练过程中实时干预和纠正智能体的不合理行为。基于这种人机回环的指导机制,本研究开发一种基于修正策略和价值网络的改良的动作-评价架构(actor-critic architecture)。所提出的Hug-DRL的快速收敛允许实时的人工指导行为融合到智能体的训练循环中,进一步提高了DRL的效率和性能。本研究通过40名受试者的人机回环实验对开发的方法进行了验证,并与其他最先进的学习方法进行了比较。结果表明,该方法可以在人工指导下有效地提高DRL算法的训练效率和性能,且对参与者的专业知识或经验没有硬性要求。
|
|
|