期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

毕金波吴沧浦《北京理工大学学报(英文版)》1999,8(3):251-257

目的寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法.方法针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断TD(λ)的Q学习算法,并在计算机上实现了该算法.结果与结论在最短路径搜索问题上的仿真研究表明采用自适应λ的基于截断TD(λ)的Q学习能够加速算法收敛. 相似文献

2.

强化学习方法在移动机器人导航中的应用 总被引：1，自引：0，他引：1

陆军徐莉周小平《哈尔滨工程大学学报》2004,25(2):176-179

路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.为了克服标准Q 学习算法收敛速度慢等缺点,采用多步在策略SARSA(λ)强化学习算法,讨论了该算法在局部路径规划问题上的具体应用.采用CMAC神经网络实现了强化学习系统,完成了基于CMAC神经网络的SARSA(λ)算法.提出了路径规划和沿墙壁行走两个网络的互相转换的方法,成功解决了复杂障碍物环境下的自主机器人的局部路径规划问题.仿真结果表明了该算法的有效性,同传统方法相比该算法有较强的学习能力和适应能力. 相似文献

3.

多步截断SARSA强化学习算法 总被引：3，自引：2，他引：3

李春贵林海涛刘永信《广西工学院学报》2002,13(1):1-4

提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)需要大量的计算相似文献

4.

基于启发式强化学习的AGV路径规划

唐恒亮唐滋芳董晨刚尹棋正海秋茹《北京工业大学学报》2021,47(8):895-903

针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势. 相似文献

5.

强化学习原理、算法及应用

黄炳强曹广益王占全《河北工业大学学报》2006,35(6):34-38

强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题. 相似文献

6.

基于MDP自适应决策的库存控制

刘虹《河北工程大学学报(自然科学版)》2006,23(3):109-112

MDP自适应决策是求解信息不完全马尔可夫决策问题的方法.本文采用一种强化学习算法-在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了. 相似文献

7.

基于隐偏向信息学习的强化学习算法 总被引：4，自引：0，他引：4

李学勇欧阳柳波李国徽《南华大学学报(理工版)》2004,18(2):10-16

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时，存在收敛速度慢，训练时间长等问题．有效地学习和利用问题中包含的偏向信息可以加快学习速度，提高学习效率．在分析了偏向机制特点的基础上引入了隐偏向信息的概念，建立了一种基于偏向信息学习的强化学习模型，并提出了一种基于特征的改进SARSA(λ)算法．针对于拄箱任务的实验表明，改进的算法明显提高了学习效率．相似文献

8.

基于深度强化学习的交通信号控制方法

刘智敏叶宝林朱耀东姚青吴维敏《浙江大学学报(工学版)》2022,56(6):1249-1256

针对基于深度强化学习的交通信号控制方法存在难以及时更新交叉口信号控制策略的问题,提出基于改进深度强化学习的单交叉口交通信号控制方法. 构建新的基于相邻采样时间步实时车辆数变化量的奖励函数,以及时跟踪并利用交叉口交通状态动态的变化过程. 采用双网络结构提高算法学习效率,利用经验回放改善算法收敛性. 基于SUMO的仿真测试结果表明,相比传统控制方法和深度强化学习方法,所提方法能明显缩短交叉口车辆平均等待时间和平均排队长度,提高交叉口通行效率. 相似文献

9.

基于有效跟踪的平均渐进瞬时差分学习遗忘算法

殷苌茗王汉兴陈焕文谢丽娟《电力科学与技术学报》2003,18(4):12-16

智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题. 相似文献

10.

基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略

刘云龙吉国力《北京工业大学学报》2012,38(9):1348-1352

针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题,以守门员为例,首先利用CMAC神经网络对连续状态空间泛化,然后在泛化后的状态上,采用Sarsa(λ)学习算法获取守门员的最优策略.通过在RoboCup仿真平台上进行仿真,实验结果表明,采用基于CMAC的Sarsa(λ)学习算法的守门员,经过一定时间的学习后,防守时间显著增长,防守效果明显优于其他算法,验证了本文所提方案的有效性. 相似文献

11.

基于关系转移和增强学习的时空大数据动态预测

郑子君冯翔虞慧群李修全《山东大学学报(工学版)》2021,51(2):105-114

为了解决较大时空范围内的动态预测无法获得精确解的问题,采用支持较复杂工作流模式的群智计算方式,提出一种基于关系转移和增强学习的动态预测算法,解决时空数据中的优化问题。设计一个关系转移块,通过对时空数据进行特征提取来学习关系转移概率。建立一个预测增强学习块,随时间序列并行处理转移关系概率,根据特征偏好对时空数据进行优先排序,进而预测问题状态趋势。采用一种深度多步迭代策略优化方法,获得合理的解。从理论上详细地分析和讨论所提出算法的收敛性和收敛速率。在专利转移数据上的试验结果验证了该方法的优势,并证明通过应用关系转移块和预测增强学习块排序精度能得到明显地改善。相似文献

12.

基于强化学习的多路口可变车道协同控制方法

徐小高夏莹杰朱思雨邝砾《浙江大学学报(工学版)》2022,56(5):987

为了解决传统的可变导向车道控制方法无法适应多路口场景下的复杂交通流的问题,提出基于多智能体强化学习的多路口可变导向车道协同控制方法来缓解多路口的交通拥堵状况. 该方法对多智能体强化学习 (QMIX)算法进行改进,针对可变导向车道场景下的全局奖励分配问题,将全局奖励分解为基本奖励与绩效奖励,提高了拥堵场景下对车道转向变化的决策准确性. 引入优先级经验回放算法,以提升经验回放池中转移序列的利用效率,加速算法收敛. 实验结果表明,本研究所提出的多路口可变导向车道协同控制方法在排队长度、延误时间和等待时间等指标上的表现优于其他控制方法,能够有效协调可变导向车道的策略切换,提高多路口下路网的通行能力. 相似文献

13.

应用深度强化学习的压边力优化控制

张新艳郭鹏余建波《哈尔滨工业大学学报》2020,52(7):20-28

为改善板料拉深制造的成品质量,采用深度强化学习的方法进行拉深过程的压边力优化控制. 提出一种基于深度强化学习与有限元仿真集成的压边力控制模型,结合深度神经网络的感知能力与强化学习的决策能力,进行压边力控制策略的学习优化. 基于深度强化学习的压边力优化算法,利用深度神经网络处理巨大的状态空间,避免了系统动力学的拟合,并且使用一种新的网络结构来构建策略网络,将压边力策略划分为全局与局部两部分,提高了压边力策略的控制效果. 将压边力的理论知识用于初始化回放经验池,提高了深度强化学习算法在压边力控制任务中的学习效率. 实验结果表明,与传统深度强化学习算法相比,所提出的压边力控制模型能够更有效地进行压边力控制策略优化,成品在内部应力、成品厚度以及材料利用率3个质量评价指标的综合表现优于传统深度强化学习算法. 将深度强化学习中的策略网络划分为线性部分与非线性部分,并结合理论压边力知识来初始化回放经验,能够提高深度强化学习在压边力优化控制中的控制效果,提高算法的学习效率. 相似文献

14.

基于线性平均的强化学习函数估计算法

陶隽源孙金玮李德胜《吉林大学学报(工学版)》2008,38(6):1407-1411

提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题。该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程。该算法利用强化学习算法的标准问-题Mountain Car问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值。相似文献

15.

A new accelerating algorithm for multi-agent reinforcement learning

张汝波仲宇顾国昌《哈尔滨工业大学学报(英文版)》2005,12(1):48-51

In multi-agent systems, joint-action must be employed to achieve cooperation because the evaluation of the behavior of an agent often depends on the other agents‘ behaviors. However, joint-action reinforcement learning algorithms suffer the slow convergence rate because of the enormous learning space produced by jointaction. In this article, a prediction-based reinforcement learning algorithm is presented for multi-agent cooperation tasks, which demands all agents to learn predicting the probabilities of actions that other agents may execute. A multi-robot cooperation experiment is run to test the efficacy of the new algorithm, and the experiment results show that the new algorithm can achieve the cooperation policy much faster than the primitive reinforcement learning algorithm. 相似文献

16.

Multi-Agent Reinforcement Learning Algorithm Based on Action Prediction

童亮陆际联《北京理工大学学报(英文版)》2006,15(2):133-137

Multi-agent systems composed of concurrent re-inforcement learners have attracted increasing atten-tionin recent years . Multiagent reinforcement learn-ing[1]is much harder than the single-agent case . Thehardness mainly comesfromthefact that the environ-ment is not stationary fromthe viewof an agent be-cause of the existence of other learning agents .Based on stochastic games ,a multi-agent rein-forcement learning algorithmfor zero-sumstochasticgames was proposed by Littman[2]andit was extend… 相似文献