共查询到19条相似文献,搜索用时 46 毫秒
1.
介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。 相似文献
2.
3.
局面估值的准确性是决定棋类游戏水平高低的一个重要因素。针对使用静态估值函数的不足,提出了TD-BP强化学习算法,结合博弈中常用的极小极大搜索算法和经过历史启发增强的PVS搜索算法,实现了一种自适应性较强的五子棋自学习程序。实验结果表明,使用该算法的程序经过较短时间的训练后达到了较好的下棋水平. 相似文献
4.
基于隐偏向信息学习的强化学习算法 总被引:4,自引:0,他引:4
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于拄箱任务的实验表明,改进的算法明显提高了学习效率. 相似文献
5.
基于Q-学习的进化博弈决策模型 总被引:1,自引:0,他引:1
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略. 相似文献
6.
强化学习方法在移动机器人导航中的应用 总被引:1,自引:0,他引:1
路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.为了克服标准Q 学习算法收敛速度慢等缺点,采用多步在策略SARSA(λ)强化学习算法,讨论了该算法在局部路径规划问题上的具体应用.采用CMAC神经网络实现了强化学习系统,完成了基于CMAC神经网络的SARSA(λ)算法.提出了路径规划和沿墙壁行走两个网络的互相转换的方法,成功解决了复杂障碍物环境下的自主机器人的局部路径规划问题.仿真结果表明了该算法的有效性,同传统方法相比该算法有较强的学习能力和适应能力. 相似文献
7.
作为量子机器学习的一个新兴子领域,量子深度强化学习旨在利用量子神经网络构建一个量子智能体,使其通过与环境进行不断交互习得一个最优策略,以达到期望累积回报最大化.然而,现有量子深度强化学习方法在训练过程中需要与经典环境进行大量交互,从而导致大量多次调用量子线路.为此,该文提出了一种基于情景记忆的量子深度强化学习模型,称为... 相似文献
8.
集装箱码头集卡调度模型与Q学习算法 总被引:1,自引:0,他引:1
研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与折扣因子的选择方法.结果表明,随着集卡数量的增加,Q学习算法获得的结果优于最长等待时间、最远距离、固定分配集卡等调度策略. 相似文献
9.
基于内积方程的神经网络学习算法及应用 总被引:2,自引:0,他引:2
对二进前向感知器各神经元的样本空间进行了分析,利用其内积特性及吸引域概述提出了一种快速,可靠,实用的学习算法及通过阈值设置与内积方向相联系,使神经网络具备可控制的容错能力,此神经网络结构简单,容易用硬件实现,通过实例说明了这种方案应用于模式分类,布尔函数逼近的途径及优良的性能。 相似文献
10.
讨论了连续动作的强化学习系统实现及学习方法。首先介绍了连续动作的强化学习系统的组成原理,讨论了采用神经网络实现强化学习系统的方法,然后,介绍了强化学习机制在智能机器人避碰行为学习系统中的应用,并给出了系统的仿真结果。仿真结果表明机器人具有较好的避碰能力。 相似文献
11.
基于强化学习的集装箱码头卡车调度策略研究 总被引:1,自引:1,他引:1
研究同时服务于装船和卸船作业的集卡全场调度策略,调度优化目标包括减少岸桥等待集卡的时间以及减少集卡的空载行程。提出了基于Q学习算法的集卡调度强化学习模型,对其系统状态、动作策略、报酬函数进行分析,并结合小脑模型关节控制器(CMAC)神经网络对Q函数进行泛化和逼近。仿真结果表明,与其他集卡调度策略相比,Q学习算法的优化效果比较明显,其在保证岸桥连续作业的同时,还能有效减少集卡的空载行程。 相似文献
12.
基于路径引导知识启发的强化学习方法 总被引:1,自引:0,他引:1
为了提高强化学习算法的运行效率和收敛速度,提出了一种基于路径引导知识启发的强化学习方法PHQL。采用PHQL方法,不需要提前植入先导知识,agent在每一轮学习过程中更新Q表的同时,各个状态的路径知识也自主地建立起来并逐步修正和优化。算法利用已经获得的路径知识来指导和加速agent以后的强化学习过程,以减少agent学习过程的盲目性。分析了PHQL算法的探索、利用和启发3种行为的执行概率以及行为选取方法,提出一种行为选择概率随时间渐变的算法。以一个路径搜索问题为实例,对PHQL方法进行了验证、分析并与几种相关的强化学习算法进行了性能对比。实验结果表明,作者提出的方法对学习过程具有明显的加速作用,收敛性能有了较大的提高。 相似文献
13.
基于对RBF神经网络常用的3种学习算法的研究,通过对凝汽器典型故障类型与故障征兆分析,提出了基于不同学习算法的RBF神经网络凝汽器故障诊断,并对诊断结果进行比较.诊断结果表明,基于3种常见学习算法的RBF神经网络都可以准确诊断出凝汽器的各种故障,但聚类方法和OLS算法学习速度要快得多,梯度训练方法速度较慢.研究还表明,RBF神经网络在故障诊断领域具有很好的实用性. 相似文献
14.
通过分析混凝土结构对钢筋性能的要求,提出了设计时钢筋选择的原则。在对比新规范与原规范的基础上,分析了规范修订中新增加有关高强钢筋内容的背景。结合高强钢筋的推广应用,根据目前我国现有的钢筋品种,给出了混凝土结构设计中优化选择钢筋的建议,提出了纵向受力钢筋、延性配筋(包括抗震钢筋)、横向钢筋、基础配筋及构造钢筋的正确选择方案(钢筋牌号及强度等级)。 相似文献
15.
针对Q学习状态空间非常大,导致收敛速度非常慢的问题,利用智能体在不同样本上分类性能不同,提出了基于样本的学习误差对样本空间进行划分,充分发掘了样本和智能体的匹配关系.以带障碍物的格子世界作为仿真环境,表明该算法提高了在线学习性能. 相似文献
16.
提出一种新的基于神经网络的增强式学习控制方法.学习控制器包括系统性能的评估部分及由性能评估提供的增强信号引导下进行学习的神经网络部分.模拟及物理实验结果表明,此方法具有学习速度快,适应性强,通用性好等特点. 相似文献
17.
李宁波 《安徽建筑工业学院学报》2008,16(6):18-20
通过对某地下室车库加固实例,介绍满焊湿包钢灌注的应用及从设计施工至验收的工程过程。该方法发挥了外包钢加固技术与粘钢加固技术的优点,对实际工程具有一定的参考价值。 相似文献
18.
Multi-agent systems composed of concurrent re-inforcement learners have attracted increasing atten-tionin recent years . Multiagent reinforcement learn-ing[1]is much harder than the single-agent case . Thehardness mainly comesfromthefact that the environ-ment is not stationary fromthe viewof an agent be-cause of the existence of other learning agents .Based on stochastic games ,a multi-agent rein-forcement learning algorithmfor zero-sumstochasticgames was proposed by Littman[2]andit was extend… 相似文献
19.
Cooperative multi-agent reinforcement learning (MARL) is an important topic in the field of artificial intelligence,in which distributed constraint optimization (DCOP) algorithms have been widely used to coordinate the actions of multiple agents.However,dense communication among agents affects the practicability of DCOP algorithms.In this paper,we propose a novel DCOP algorithm dealing with the previous DCOP algorithms' communication problem by reducing constraints.The contributions of this paper are primarily threefold:① It is proved that removing constraints can effectively reduce the communication burden of DCOP algorithms.② An criterion is provided to identify insignificant constraints whose elimination doesn't have a great impact on the performance of the whole system.③ A constraint-reduced DCOP algorithm is proposed by adopting a variant of spectral clustering algorithm to detect and eliminate the insignificant constraints.Our algorithm reduces the communication burdern of the benchmark DCOP algorithm while keeping its overall performance unaffected.The performance of constraint-reduced DCOP algorithm is evaluated on four configurations of cooperative sensor networks.The effectiveness of communication reduction is also verified by comparisons between the constraint-reduced DCOP and the benchmark DCOP. 相似文献