首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 140 毫秒
1.
徐琰恺  陈曦 《控制与决策》2008,23(12):1359-1362
研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.  相似文献   

2.
水面无人艇模糊近域图避障方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
王敏捷  张汝波 《计算机工程》2012,38(21):164-167
针对复杂海洋环境下水面无人艇(USV)的危险规避问题,介绍一种基于局部环境信息感知的避障算法——近域图(ND)法。结合 USV高速的特性及ND法在速度控制上的跳跃性,采用模糊理论平滑速度输出,对ND法进行改进。在速度控制中加入与周围障碍物距离相关的动态系数,从而减小USV自身惯性带来的危险规避动作误差,提高了其安全性。VxWorks系统下的仿真结果表明,改进的模糊ND法能够使USV在复杂的环境下准确、快速地躲避障碍物并到达目标点。  相似文献   

3.
为提升机器人的行为智能水平,提出一种基于增量式径向基函数网络(IRBFN)的Q学习(IRBFN-QL)算法.其核心是通过结构的自适应增长与参数的在线学习,实现对Q值函数的学习与存储,从而使机器人可以在未知环境中自主增量式地学习行为策略.首先,采用近似线性独立(ALD)准则在线增加网络节点,使机器人的记忆容量伴随状态空间的拓展自适应增长.同时,节点的增加意味着网络拓扑内部连接的改变.采用核递归最小二乘(KRLS)算法更新网络拓扑连接关系及参数,使机器人不断扩展与优化自身的行为策略.此外,为避免过拟合问题,将L2正则项融合到KRLS算法中,得到L2约束下的核递归最小二乘算法(L2KRLS).实验结果表明,IRBFN-QL算法能够实现机器人与未知环境的自主交互,并逐步提高移动机器人在走廊环境中的导航行为能力.  相似文献   

4.
动态电源管理超时策略自适应优化算法   总被引:1,自引:0,他引:1  
基于强化学习的方法,提出一种动态电源管理超时策略自适应在线优化算法.构建基于超时策略动态电源管理系统的半Markov控制过程模型,将动态电源管理问题转化为一个带约束的优化问题.利用此模型的动态结构特性,结合在线梯度估计与髓机逼近推导超时策略的在线优化算法.该算法自适应性强,计算量小,具有全局收敛性.通过无线网络通信节点动态电源管理的应用仿真验证了算法的有效性.  相似文献   

5.
设计了一款面向海珍品捕捞的水下智能识别与自主抓取机器人. 首先通过YOLOv4-tiny网络对海珍品图像 离线训练, 设计单双目自适应切换与多目标选择算法以实现海珍品在线识别与持续定位. 进一步, 采用声呐与深度 传感器融合策略获取水下机器人深度信息, 设计基于模糊比例–积分–微分控制的定深抓取控制器, 以确保目标定位 与抓取过程中深度信息的有效反馈. 所提目标识别算法, 具有实时性强、复杂度低优点; 同时, 定深与抓取控制器, 不依赖于系统复杂模型, 可适应不同海况下的精确抓取. 最后, 通过试验验证了方法的有效性.  相似文献   

6.
复杂数据流中所存在的概念漂移及不平衡问题降低了分类器的性能。传统的批量学习算法需要考虑内存以及运行时间等因素,在快速到达的海量数据流中性能并不突出,并且其中还包含着大量的漂移及类失衡现象,利用在线集成算法处理复杂数据流问题已经成为数据挖掘领域重要的研究课题。从集成策略的角度对bagging、boosting、stacking集成方法的在线版本进行了介绍与总结,并对比了不同模型之间的性能。首次对复杂数据流的在线集成分类算法进行了详细的总结与分析,从主动检测和被动自适应两个方面对概念漂移数据流检测与分类算法进行了介绍,从数据预处理和代价敏感两个方面介绍不平衡数据流,并分析了代表性算法的时空效率,之后对使用相同数据集的算法性能进行了对比。最后,针对复杂数据流在线集成分类研究领域的挑战提出了下一步研究方向。  相似文献   

7.
本文提出了一种基于小脑模型关节控制器(CMAC)的评论–策略家算法,设计不依赖模型的跟踪控制器,来解决机器人的跟踪问题.该跟踪控制器包含位置控制器和角度控制器,其输出分别为线速度和角速度.位置控制器由评价单元和策略单元组成,每个单元都采用CMAC算法,按改进δ学习规则在线调整权值.策略单元产生控制量;评判单元在线调整策略单元学习速率.以双轮驱动自主移动机器人为例,与固定学习速率CMAC做比较,仿真数据表明,基于CMAC的评论–策略家算法的跟踪控制器具有跟踪速度快,自适应能力强,配置参数范围宽,不依赖数学模型等特点.  相似文献   

8.
苏世雄  齐金平 《测控技术》2016,35(7):124-127
随着互联网的迅速发展,自适应系统受到越来越多的关注,目前,大部分自适应系统的规划都是预先定义的,但是在开放的互联网环境中,这种预知的规划策略往往灵活性和智能性不高,针对系统运行环境通常是动态的、不确定的,系统设计阶段难以预测到环境所有可能的变化,在设计阶段系统针对环境变化所采取的自适应行为也是难以预先确定的.因此,提出一种系统运行时根据环境的变化在线制定规划的自适应行为策略.采用基于强化学习和Agent技术,对自适应系统的行为进行描述、分析,最后通过相关实验对该策略进行验证,结果表明该在线规划具有自适应能力.  相似文献   

9.
近年来,强化学习在电子游戏、棋类、决策控制等领域取得了巨大进展,也带动着金融交易系统的迅速发展.金融交易问题已经成为强化学习领域的研究热点,特别是股票、外汇和期货等方面具有广泛的应用需求和学术研究意义.以金融领域常用的强化学习模型的发展为脉络,对交易系统、自适应算法、交易策略等方面的诸多研究成果进行了综述.最后讨论了强化学习在金融领域应用中存在的困难和挑战,并对今后强化学习交易系统发展趋势进行展望.  相似文献   

10.
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号