首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
研究了一种基于变尺度编码CMAC神经网络的增强学习控制器设计方法,并应用于以自行车平衡为模型的非线性随机系统的学习控制中.该方法通过对Markov决策过程状态空间的变尺度重叠量化编码,实现基于CMAC的多分辨率值函数逼近,从而有效地提高了增强学习控制器对连续状态空间马氏决策问题的泛化性能.针对自行车学习控制的仿真研究表明,采用变尺度编码CMAC进行值函数逼近的增强学习控制器能够获得优于已有表格型方法和均匀编码CMAC方法的学习效率和泛化性能.  相似文献   

2.
为解决在线近似策略迭代增强学习计算复杂度高、收敛速度慢的问题,引入CMAC结构作为值函数逼近器,提出一种基于CMAC的非参数化近似策略迭代增强学习(NPAPI-CMAC)算法。算法通过构建样本采集过程确定CMAC泛化参数,利用初始划分和拓展划分确定CMAC状态划分方式,利用量化编码结构构建样本数集合定义增强学习率,实现了增强学习结构和参数的完全自动构建。此外,该算法利用delta规则和最近邻思想在学习过程中自适应调整增强学习参数,利用贪心策略对动作投票器得到的结果进行选择。一级倒立摆平衡控制的仿真实验结果验证了算法的有效性、鲁棒性和快速收敛能力。  相似文献   

3.
唐亮贵  刘波  唐灿  程代杰 《计算机科学》2007,34(11):156-158
在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上,设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神经网络模型与算法,并对算法的收敛性进行了证明。通过对多Agent电子商务系统.中Agent竞价行为的预测仿真实验,验证了基于神经网络的Agent强化学习算法具有良好的性能和行为逼近能力。  相似文献   

4.
周雷  孔凤  唐昊  张建军 《控制理论与应用》2011,28(11):1665-1670
研究单站点传送带给料生产加工站(conveyor-serviced production station,CSPS)系统的前视(look-ahead)距离最优控制问题,以提高系统的工作效率.论文运用半Markov决策过程对CSPS优化控制问题进行建模.考虑传统Q学习难以直接处理CSPS系统前视距离为连续变量的优化控制问题,将小脑模型关节控制器网络的Q值函数逼近与在线学习技术相结合,给出了在线Q学习及模型无关的在线策略迭代算法.仿真结果表明,文中算法提高了学习速度和优化精度.  相似文献   

5.
模糊CMAC及其在机器人轨迹跟踪控制中的应用   总被引:7,自引:1,他引:7  
小脑模型关节控制器(CMAC)具有结构简单,学习快速的优点,但是它的空间划分方式不能在线进行调整,影响了其自适应能力的提高.本文将模糊理论引入CMAC,提出了一种能够反映人类小脑认知的模糊性和连续性的模糊小脑模型关节控制器(FCMAC).该控制器对CMAC的空间划分方式进行了模糊化处理,可通过BP学习算法对CMAC的空间划分方式进行在线调整,大大提高了CMAC的自适应能力.所提出的FCMAC被应用于机器人的轨迹跟踪控制系统以克服机器人系统中非线性和不确定性因素的影响.仿真实验结果表明,所提FCMAC与传统的CMAC相比性能上有了很大的改善.  相似文献   

6.
神经网络增强学习的梯度算法研究   总被引:11,自引:1,他引:11  
徐昕  贺汉根 《计算机学报》2003,26(2):227-233
针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法,该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标,以实现对Markov决策过程最优值函数的逼近,对算法的收敛性和近似最优策略的性能进行了理论分析,通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能。  相似文献   

7.
分层增强学习在足球机器人比赛中的应用   总被引:4,自引:0,他引:4  
足球机器人的研究是一项挑战性的研究领域,为了设计出智能型的球员必须涉及到计算机、人工智能、视觉及机械学等方面的研究。球员的学习能力是体现其智能的主要标志。如何在不断改变的外界环境中选取合适的动作技巧是在机器人足球比赛中的一个关键问题。该文介绍了马尔可夫决策过程,在半马尔可夫决策模型下,利用分层增强学习算法对不同层次的动作学习和选取同时进行学习。在仿真平台上进行实验,结果表明该学习方法是非常有效的。  相似文献   

8.
STL模型分割截面的三角剖分算法   总被引:4,自引:0,他引:4  
针对分割STL模型时需要对分割截而进行三角剖分的问题,提出STL模型分割截面的Delauay三角剖分算法,将截面轮廓围成区域分成一个或多个区域单元,分别进行Delaunay三角剖分,并按STL模型标准拾取三角形,文中算法不用对分割截面轮廓进行复杂的凸划分和多轮廓的单轮廓化处理,提高了STL模型分割截面的三角剖分效率,尤其适合对具有复杂型腔的STL模型的截面进行三角剖分,应用实例表明:文中算法是正确有效的,具有实用价值。  相似文献   

9.
搬运系统作业分配问题的小脑模型关节控制器Q学习算法   总被引:1,自引:1,他引:0  
研究两机器人高速搬运系统的作业分配问题. 在系统的Markov决策过程(MDP)模型中, 状态变量具有连续取值和离散取值的混杂性, 状态空间复杂且存在“维数灾”问题, 传统的数值优化难以进行. 根据小脑模型关节控制器(CMAC)具有收敛速度快和适应性强的特点, 运用该结构作为Q值函数的逼近器, 并与Q学习和性能势概念相结合, 给出了一种适用于平均或折扣性能准则的CMAC-Q学习优化算法. 仿真结果说明, 这种神经元动态规划方法比常规的Q学习算法具有节省存储空间, 优化精度高和优化速度快的优势.  相似文献   

10.
BIM模型在Web前端的渲染问题是BIM技术在实际应用中的重要问题,利用三角面片来加快模型前端渲染效率(模型轻量化)是该问题的解决方案。根据Revit二次开发技术中BIM模型的三角面片网格平均质量系数较低的问题,针对BIM模型轻量化和基于Web端共享的应用需求,提出结合Revit二次开发和Delaunary剖分算法的改进算法。通过在Revit二次开发得到的BIM模型原始点上增加点,使得原始点与增加的点按照B-W算法符合Delaunay准则,生成更为精细的三角面片,同时避免了域外三角形的产生,改进了算法实际应用效果。实验结果表明改进算法得到的三角面片的网格平均质量系数和网格关联质量系数相较于原始算法均有提高。最后设计利用WebGL将BIM模型按照优化算法生成的三角面片的方式进行渲染,实现BIM模型在Web端的渲染,验证该方法的有效性。  相似文献   

11.
温凯歌  杨照辉 《计算机工程》2011,37(17):152-154
采用神经网络值函数逼近的强化学习方法处理交叉口的信号控制。根据交通流及交叉口信号特征,建立强化学习的状态空间、动作空间和回报空间,以最小化车辆在交叉口的延误为控制目标,对信号进行优化控制。引入小脑模型关节控制器神经网络对强化学习(RL)的Q值进行逼近。在变化的交通条件下,使用典型交叉口对提出的RL模型进行验证,同传统的定时控制和全感应控制进行对比分析。仿真结果表明,RL控制器具有较强的学习能力,可以适应交通流的动态变化,稳定性好、自适应性强,对于环境变化具有较强的适应能力。  相似文献   

12.
一种基于CMAC的图象恢复算法   总被引:3,自引:2,他引:3       下载免费PDF全文
由于影响成象和导致图象退化的因素具有模糊性和不确定性,很难准确地建立图象退化过程的数学模型,因而建立退化过程的逆过程图象恢复十分困难,为了解决这一问题,提出了一种基于CMC的图象恢复算法,该方法利用CMAC神经网络的非线性映射和综合能力,通过对影响成象和导致图象退化的过程进行反向学习来恢复图象。仿真结果表明,用CMAC神经网络能很好地恢复出已退化的图象,并且神经网络模型与学习方法十分简单,便于实时图象恢复。  相似文献   

13.
对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。  相似文献   

14.
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。  相似文献   

15.
自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。  相似文献   

16.
一种FCMAC及在Wiener模型辨识中的应用研究   总被引:2,自引:0,他引:2  
徐德  谭民 《信息与控制》2002,31(2):159-163
本文将模糊算法和小脑模型神经网络有机地结合在一起,提出了一种单输入单输出(S ISO)的模糊小脑模型神经网络(FCMAC).它在对输入进行分级量化的同时进行模糊量化,利 用Takagi Sugeno模糊算法进行推理,并将模糊算法引入CMAC的权值训练,具有输入量化级 数少、函数逼近精度高等特点.这种FCMAC用于Wiener模型辨识具有结构确定、计算量小、 训练速度快、辩识效果好等特点.  相似文献   

17.
分层强化学习研究进展   总被引:1,自引:0,他引:1  
首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强化学习的研究现状;最后指出分层强化学习未来的发展方向。  相似文献   

18.
提出了基于非线性量化小脑模型神经网络(CMAC)算法,对CMAC的概念映射进行了自适应设计,提高CMAC的计算速度和精度以满足复杂动态环境下的非线性实时控制的需要。结合溶出预脱硅系统工艺优化的需求,提出了基于非线性量化CMAC的溶出预脱硅系统时间序列预测模型,用于准确实时地预测循环母液加入量,在此基础上进行循环母液投放措施优化。工业实验说明了该模型在对化工软计算的预测精度和快速性上具有明显的优越性,该模型已应用于某氧化铝厂工艺优化系统中动态调节循环母液投放量,节省了生产成本,取得了明显的经济效益。  相似文献   

19.
对强化学习中的探索方案进行了研究,描述了间接探索和直接探索两种方案各自的特点.综合它们的优点,提出了一种集直接探索和间接探索为一体的混合探索方案.该方案在学习的初始阶段,由于对环境的经验知识较少,侧重于直接探索;在获得比较多的经验后,侧重于间接探索,使得行动选择渐渐趋向于最优策略.实验表明该方案比纯粹的间接探索-greedy方案有更高的学习效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号