期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈飞王本年高阳陈兆乾陈世福《计算机科学》2006,33(2):173-177

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。相似文献

2.

基于强化学习的自动驾驶汽车路径规划方法研究综述

许宏鑫吴志周梁韵逸《计算机应用研究》2023,40(11)

路径规划作为自动驾驶的关键技术,具有广阔的应用前景和科研价值。探索解决自动驾驶车辆路径规划问题的方法,着重关注基于强化学习的路径规划方法。在阐述基于常规方法和强化学习方法的路径规划技术的基础上,重点总结了基于强化学习和深度强化学习来解决自动驾驶车辆路径规划问题的算法,并将算法按照基于值和基于策略的方式进行分类,分析各类算法的特点、优缺点及改进措施。最后对基于强化学习的路径规划技术的未来发展方向进行了展望。相似文献

3.

基于强化学习的无人车组路径优化算法研究

司炳山董志明孙茂凡《计算机仿真》2024,(2):455-461

针对传统单车路径规划算法在进行无人车组路径规划时存在的算法收敛性问题,采用强化学习方法,对传统Q-learning算法中的探索率进行改进,将每一个路程点作为每一段局部路径规划的目标点,通过传感器感知外界环境的信息,进行基于强化学习的在线局部路径规划,完成避障和寻径任务。构建了算法模型与仿真环境,并进行了仿真,结果表明无人车组能够在短时间内收敛到稳定状态并自主完成规划任务,证明了算法的有效性和可行性。上述算法在多无人战车协同的智能规划与控制中具有良好的应用前景。相似文献

4.

基于多Agent联合决策的队组协同攻击规划

周天阳曾子懿臧艺超王清贤《计算机科学》2021,48(5):301-307

自动化渗透测试通过将人工找寻可能攻击路径的过程自动化,可大幅降低渗透测试的成本。现有方法主要利用单一Agent执行攻击任务,导致攻击动作执行耗时长,渗透效率不高;若考虑多个Agent协同攻击,由于每个Agent的局部状态有多个维度,总的规划问题的状态空间会呈指数级增长。针对上述问题,提出了基于多Agent联合决策的队组协同攻击规划方法。该方法首先将多Agent协同攻击路径规划问题转化为联合决策约束下的攻击目标分配问题,建立多Agent集中决策模式;然后以CDSO-CAP为模型基础,利用联合决策矢量矩阵JDVM计算渗透攻击奖励,并采用贪婪策略搜索多Agent的最优攻击目标。实验结果表明,与单Agent规划方法相比,该方法的收敛性相近,但执行轮次更短,更适合在多目标网络场景内进行快速攻击规划。相似文献

5.

基于Q-learning的不确定环境BDI Agent最优策略规划研究

万谦刘玮徐龙龙郭竞知《计算机工程与科学》2019,41(1):166-172

BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题,提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法,并针对BDI的实现模型ASL的决策机制做出了改进,最后在ASL的仿真平台Jason上建立了迷宫的仿真,仿真实验表明,在加入Q-learning学习机制后的新的ASL系统中,Agent在不确定环境下依然可以完成任务。相似文献

6.

基于探索-利用权衡优化的Q学习路径规划

彭云建梁进《计算机技术与发展》2022,(4):1-7

针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划.对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的Aε... 相似文献

7.

基于多Agent的并行Q-学习算法 总被引：1，自引：0，他引：1

周浦城洪炳韩学东郭耸《小型微型计算机系统》2006,27(9):1704-1707

提出了一种多Agent并行Q-学习算法．学习系统中存在多个Agent，它们的学习环境、学习任务及自身功能均相同，在每个学习周期内，各个Agent在各自独立的学习环境中进行学习，当一个学习周期结束后，对各个Agent的学习结果进行融合，融合后的结果被所有的Agent共享，并以此为基础进行下一个周期的学习．实验结果表明了该方法的可行性和有效性。相似文献

8.

分层强化学习中的并行自动分层方法研究

沈晶顾国昌刘海波《计算机工程与设计》2007,28(2):422-424

为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层强化学习方法为理论框架,首先由多智能体合作对状态空间进行并行探测并集中聚类产生状态子空间,然后多智能体并行学习生成各子空间上内部策略,最终生成Option.以二维有障碍栅格空间内两点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析,结果表明,并行自动分层方法生成任务层次结构的速度明显快于以往的串行自动分层方法.本文的方法适用于空间探测、路径规划、追逃等类问题领域. 相似文献

9.

多Agent协作的强化学习模型和算法 总被引：2，自引：0，他引：2

刘菲曾广周宋言伟《计算机科学》2006,33(12):156-158

结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。相似文献

10.

基于模糊神经网络的深海集矿机路径规划

刘海滢王随平桂卫华《控制工程》2004,11(4):317-320

探讨了深海多金属结核集矿机在作业过程中的实时局部路径规划问题,旨在解决在深海复杂特殊环境下多金属结核集矿机的自适应实时路径规划问题。采用了能实现模糊控制规则的基于强化学习方法的自学习和自调整算法来实现深海集矿机的实时运动规划,并提出了能实现模糊控制规则的基于强化学习的自学习和自调整的规划算法。设计了深海集矿机实时运动规划器结构、规划器操作过程以及相应的算法。集矿机试验样机池试试验表明该方法的有效性．可广泛应用于类似路径规划问题。相似文献