期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

祖丽楠田彦涛梅昊《吉林大学学报(工学版)》2006,(Z2)

介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。相似文献

2.

TD-BP强化学习算法在五子棋博弈系统中的应用

宫瑞敏吕艳辉《沈阳理工大学学报》2010,29(4):30-32,37

局面估值的准确性是决定棋类游戏水平高低的一个重要因素。针对使用静态估值函数的不足,提出了TD-BP强化学习算法,结合博弈中常用的极小极大搜索算法和经过历史启发增强的PVS搜索算法,实现了一种自适应性较强的五子棋自学习程序。实验结果表明,使用该算法的程序经过较短时间的训练后达到了较好的下棋水平. 相似文献

3.

基于隐偏向信息学习的强化学习算法 总被引：4，自引：0，他引：4

李学勇欧阳柳波李国徽《南华大学学报(理工版)》2004,18(2):10-16

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时，存在收敛速度慢，训练时间长等问题．有效地学习和利用问题中包含的偏向信息可以加快学习速度，提高学习效率．在分析了偏向机制特点的基础上引入了隐偏向信息的概念，建立了一种基于偏向信息学习的强化学习模型，并提出了一种基于特征的改进SARSA(λ)算法．针对于拄箱任务的实验表明，改进的算法明显提高了学习效率．相似文献

4.

多步截断SARSA强化学习算法 总被引：5，自引：2，他引：3

李春贵林海涛刘永信《广西工学院学报》2002,13(1):1-4

提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)需要大量的计算相似文献

5.

基于Q-学习的进化博弈决策模型 总被引：1，自引：0，他引：1

刘伟兵黎民王先甲《武汉大学学报(工学版)》2008,41(4)

基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略. 相似文献

6.

强化学习方法在移动机器人导航中的应用 总被引：1，自引：0，他引：1

陆军徐莉周小平《哈尔滨工程大学学报》2004,25(2):176-179

路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.为了克服标准Q 学习算法收敛速度慢等缺点,采用多步在策略SARSA(λ)强化学习算法,讨论了该算法在局部路径规划问题上的具体应用.采用CMAC神经网络实现了强化学习系统,完成了基于CMAC神经网络的SARSA(λ)算法.提出了路径规划和沿墙壁行走两个网络的互相转换的方法,成功解决了复杂障碍物环境下的自主机器人的局部路径规划问题.仿真结果表明了该算法的有效性,同传统方法相比该算法有较强的学习能力和适应能力. 相似文献

7.

集装箱码头集卡调度模型与Q学习算法 总被引：1，自引：0，他引：1

曾庆成杨忠振《哈尔滨工程大学学报》2008,29(1):1-4

研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与折扣因子的选择方法.结果表明,随着集卡数量的增加,Q学习算法获得的结果优于最长等待时间、最远距离、固定分配集卡等调度策略. 相似文献

8.

基于内积方程的神经网络学习算法及应用 总被引：2，自引：0，他引：2

马晓敏杨义先《北京邮电大学学报》1998,21(4):43-47

对二进前向感知器各神经元的样本空间进行了分析,利用其内积特性及吸引域概述提出了一种快速,可靠,实用的学习算法及通过阈值设置与内积方向相联系,使神经网络具备可控制的容错能力,此神经网络结构简单,容易用硬件实现,通过实例说明了这种方案应用于模式分类,布尔函数逼近的途径及优良的性能。相似文献

9.

基于情景记忆的量子深度强化学习

朱献超侯晓凯吴绍君祝峰《电子科技大学学报(自然科学版)》2022,51(2):170-175

作为量子机器学习的一个新兴子领域,量子深度强化学习旨在利用量子神经网络构建一个量子智能体,使其通过与环境进行不断交互习得一个最优策略,以达到期望累积回报最大化.然而,现有量子深度强化学习方法在训练过程中需要与经典环境进行大量交互,从而导致大量多次调用量子线路.为此,该文提出了一种基于情景记忆的量子深度强化学习模型,称为... 相似文献

10.

基于强化学习算法的供应链自适应随机库存控制研究

宋晓鹏张纪会张超群马清悦《青岛大学学报(工程技术版)》2012,27(4):11-15

针对非平稳随机需求的多级多周期供应链库存控制,本文建立了一种包括一个供应商和多个零售商的供应链分散式自适应库存控制模型,以满足给定的零售商服务水平。同时,运用强化学习算法,并根据需求变化情况,供应商和零售商分别自适应地调整库存控制参量。仿真试验表明,当相对需求分布已知,而需求未知时,订货量和服务水平都相对不稳定;安全因子范围大的,订货量和服务水平的波动相对较大,且能够更快的把服务水平调整到目标服务水平区间内。该模型是合理和有效的。相似文献

11.

基于强化学习的集装箱码头卡车调度策略研究 总被引：1，自引：1，他引：1

尚晶徐长生《武汉理工大学学报》2011,(3):72-76

研究同时服务于装船和卸船作业的集卡全场调度策略,调度优化目标包括减少岸桥等待集卡的时间以及减少集卡的空载行程。提出了基于Q学习算法的集卡调度强化学习模型,对其系统状态、动作策略、报酬函数进行分析,并结合小脑模型关节控制器(CMAC)神经网络对Q函数进行泛化和逼近。仿真结果表明,与其他集卡调度策略相比,Q学习算法的优化效果比较明显,其在保证岸桥连续作业的同时,还能有效减少集卡的空载行程。相似文献

12.

基于路径引导知识启发的强化学习方法 总被引：1，自引：0，他引：1

刘智斌曾晓勤《四川大学学报(工程科学版)》2012,44(5):136-142

为了提高强化学习算法的运行效率和收敛速度,提出了一种基于路径引导知识启发的强化学习方法PHQL。采用PHQL方法,不需要提前植入先导知识,agent在每一轮学习过程中更新Q表的同时,各个状态的路径知识也自主地建立起来并逐步修正和优化。算法利用已经获得的路径知识来指导和加速agent以后的强化学习过程,以减少agent学习过程的盲目性。分析了PHQL算法的探索、利用和启发3种行为的执行概率以及行为选取方法,提出一种行为选择概率随时间渐变的算法。以一个路径搜索问题为实例,对PHQL方法进行了验证、分析并与几种相关的强化学习算法进行了性能对比。实验结果表明,作者提出的方法对学习过程具有明显的加速作用,收敛性能有了较大的提高。相似文献

13.

连续动作强化学习及其在机器人中的应用研究

张健沛王醒策张岩张汝波温丽华《哈尔滨工程大学学报》2000,21(3):78-81

讨论了连续动作的强化学习系统实现及学习方法。首先介绍了连续动作的强化学习系统的组成原理,讨论了采用神经网络实现强化学习系统的方法,然后,介绍了强化学习机制在智能机器人避碰行为学习系统中的应用,并给出了系统的仿真结果。仿真结果表明机器人具有较好的避碰能力。相似文献

14.

高强钢筋的合理选择及应用

范春怡杨瑞兰孙文杰闫超合《河北工程技术高等专科学校学报》2014,(2):28-31

通过分析混凝土结构对钢筋性能的要求,提出了设计时钢筋选择的原则。在对比新规范与原规范的基础上,分析了规范修订中新增加有关高强钢筋内容的背景。结合高强钢筋的推广应用,根据目前我国现有的钢筋品种,给出了混凝土结构设计中优化选择钢筋的建议,提出了纵向受力钢筋、延性配筋(包括抗震钢筋)、横向钢筋、基础配筋及构造钢筋的正确选择方案(钢筋牌号及强度等级)。相似文献

15.

一种基于划分和集成思想的多智能体强化学习

王云韩伟《南京师范大学学报》2008,8(4):59-62

针对Q学习状态空间非常大,导致收敛速度非常慢的问题,利用智能体在不同样本上分类性能不同,提出了基于样本的学习误差对样本空间进行划分,充分发掘了样本和智能体的匹配关系.以带障碍物的格子世界作为仿真环境,表明该算法提高了在线学习性能. 相似文献

16.

Multi-Agent Reinforcement Learning Algorithm Based on Action Prediction

童亮陆际联《北京理工大学学报(英文版)》2006,15(2):133-137

Multi-agent systems composed of concurrent re-inforcement learners have attracted increasing atten-tionin recent years . Multiagent reinforcement learn-ing[1]is much harder than the single-agent case . Thehardness mainly comesfromthefact that the environ-ment is not stationary fromthe viewof an agent be-cause of the existence of other learning agents .Based on stochastic games ,a multi-agent rein-forcement learning algorithmfor zero-sumstochasticgames was proposed by Littman[2]andit was extend… 相似文献

17.

满焊湿包钢灌注加固法在地下室车库加固中的应用

李宁波《安徽建筑工业学院学报》2008,16(6):18-20

通过对某地下室车库加固实例,介绍满焊湿包钢灌注的应用及从设计施工至验收的工程过程。该方法发挥了外包钢加固技术与粘钢加固技术的优点,对实际工程具有一定的参考价值。相似文献

18.

一种基于神经网络的学习控制方法

张冰张基宏《深圳大学学报(理工版)》1997,14(1):83-89

提出一种新的基于神经网络的增强式学习控制方法．学习控制器包括系统性能的评估部分及由性能评估提供的增强信号引导下进行学习的神经网络部分．模拟及物理实验结果表明，此方法具有学习速度快，适应性强，通用性好等特点．相似文献

19.

钢筋冷挤压连接技术在施工中的应用

蒋希雁郭瑛《河北建筑工程学院学报》2001,19(3):40-42

详细介绍了带肋钢筋套管冷挤压技术在施工中的具体应用。相似文献

20.

采用强化学习的自治联合会话接纳控制

张永靖唐恬陈杰《北京邮电大学学报》2007,30(4):5-9

提出了一种基于强化学习的联合会话接纳控制算法,用于可重配置系统中异构无线接入技术之间分布式自治的联合资源优化。通过将Q学习引入接纳控制算法,并根据各无线技术自身的特性,调整不同会话类型的反馈强化信号,能够驱使各无线接入技术吸纳更适合自己的业务,形成合理的业务分布,从而提高系统的资源利用效率。仿真结果表明,具有重叠覆盖的各无线接入技术通过这种“试错”的在线学习方式,能够收敛到较优化的接纳控制策略,在降低系统的总体呼叫阻塞率的同时获得更低的切换掉话率和更高的收益。相似文献