首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 369 毫秒
1.
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.  相似文献   

2.
一个因素化SARSA(λ)激励学习算法   总被引:3,自引:1,他引:2  
基于状态的因素化表达,提出了一个新的SARSA(λ)激励学习算法,其基本思想是根据状态的特征得出状态相似性启发式,再根据该启发式对状态空间进行聚类,大大减少 了空间搜索与计算的复杂度,因此比较适用于求解大状态空间的MDPs问题。  相似文献   

3.
一种基于状态聚类的SARSA(λ)强化学习算法   总被引:3,自引:0,他引:3  
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习,若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数。  相似文献   

4.
唐昊  陈栋  周雷  吴玉华 《控制与决策》2007,22(2):155-159
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.  相似文献   

5.
基于自适应归一化 RBF 网络的Q-V 值函数协同逼近模型   总被引:1,自引:0,他引:1  
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题。然而,强化学习的在线特性决定了 RBF 网络逼近模型会面临“灾难性扰动”,即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏。针对 RBF 网络逼近模型的“灾难性扰动”问题,文中提出了一种基于自适应归一化 RBF(ANRBF)网络的 Q-V 值函数协同逼近模型及对应的协同逼近算法———QV(λ)。该算法对由 RBFs 提取得到的特征向量进行归一化处理,并在线自适应地调整 ANRBF 网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性。协同逼近模型中利用 Q 和V 值函数协同塑造 TD 误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能。从理论上分析了 QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了 QV(λ)算法具有较优的性能。  相似文献   

6.
陈圣磊  谷瑞军  陈耿  薛晖 《计算机科学》2010,37(12):186-189
近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法。TD(λ)中的资格迹使学习经验的传播更加高效,从而能够降低梯度估计的方差,提升算法的收敛速度。车杆平衡系统仿真实验验证了所提算法的有效性。  相似文献   

7.
强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。  相似文献   

8.
提出一种基于状态空间模型的新型仿生算法(SBA),并用于求解电力市场竞价问题。SBA将仿生算法的群体表示为状态向量,通过状态转移实现群体的繁殖和更替,基于仿生算法中新个体的生成策略(如遗传算法中的遗传算子)构造状态转移矩阵,通过评价状态转移矩阵的特征值来考察算法的收敛性和收敛速度。仿真实验表明:这种算法对于解决电力市场竞价问题是有效的。  相似文献   

9.
平均报酬模型的多步强化学习算法   总被引:3,自引:0,他引:3  
讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类算法:R(λ)学习。现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例。仿真结果表明,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高。  相似文献   

10.
标准的Sarsa(λ)算法对状态空间的要求是离散的且空间较小,而实际问题中很多系统的状态空间是连续的或尽管是离散的但空间较大,这就需要很大的内存来存储状态动作对.为此提出组合神经网络,首先用自组织映射(SOM)神经网络对状态空间进行自适应量化,然后在此基础上用BP网络拟合Q函数.该方法实现了Sarsa(λ)算法在连续和大规模状态空间的泛化.最后,实验结果表明了该方法的有效性.  相似文献   

11.
狭长空间定位问题普遍存在于室内定位应用场景中,虽然传统基于RSSI(Received Signal Strength Indicator)测距的定位方法简便易行,但是狭长空间RSS的波动性以及人体对无线信号的遮挡会严重降低人员定位精度。本文在分析了人体穿透损耗对狭长空间定位影响的基础上,提出将RSSI测距与扩展卡尔曼滤波定位算法组合实现定位,即在中等尺度(5λ~50λ)内采用基于人体穿透损耗模型的RSSI测距方法定位,在大尺度(>50λ)内采用基于人体遮挡修正模型的扩展卡尔曼滤波算法定位。实验表明该方法在狭长空间的定位精度明显优于RSSI测距定位方法。  相似文献   

12.
一类值函数激励学习的遗忘算法   总被引:14,自引:1,他引:13  
大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点的问题,将记忆心理中有关遗忘的基本原理引入值函数的激励学习,形成了一类适合于值函数激励学习的遗忘算法,首先简要介绍了解决马尔夫决策问题的基本概念,比较了离策略和在策略激励学习算法的差别,概述了标准的SARSA(λ)算法,在分析了人类记忆和遗忘的一些特征后,提出了一个智能遗忘准则,进而将SARSA(λ)算法改进为具有遗忘功能的Forget-SARSA(λ)算法,最后给出了实结果。  相似文献   

13.
强化学习算法研究   总被引:2,自引:0,他引:2  
针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在莱状态下选择动作的策略以及无导师在线学习等特性.在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna,Prioritized Sweeping、Sarsa)的基础上,对TS(λ)、Q_learning的算法进行分析,并将其应用到实验中.实验结果表明,强化学习中的TS(λ)、Q_learning等算法在不同情况下都能高效地解决避障等问题.  相似文献   

14.
平均准则问题的即时差分学习算法   总被引:2,自引:0,他引:2  
考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法.在学 习中,平均问题的相对值函数是控制器所要学习的目标函数.所提出的算法是已有的TD(λ) 算法及R-学习算法的一种推广.  相似文献   

15.
研究带时间窗的同时送取货车辆路径规划问题(VRPSPDTW),并建立0-1混合整数规划模型。为进一步提高人工鱼群算法的寻优能力和收敛速度,提出一种改进的全局人工鱼群算法,并通过实验确定算法参数。算法将模型中的时间窗和车载量两个强约束纳入适应度函数进行处理,降低算法计算复杂度。以最小化发车数(NV)和路由距离(TD)为优化目标,通过王与陈提供的VRPSPDTW算例与基本人工鱼群算法(AFSA)和并行模拟退火算法(P-SA)进行比较,验证了改进全局人工鱼群算法的有效性。实验结果显示:IGAFSA获得的NV和TD目标值均优于AFSA,TD目标值优于P-SA。  相似文献   

16.
标准的Sarsa算法对状态空间的要求是离散的且空间较小,而实际问题中很多的系统的状态空间是连续的或尽管是离散的但空间较大,这就要求有很大的空间来存储状态动作对(State Action Pair)。对此文中提出用BP网络队列保存SAPs,实验验证可以解决由于空间过大而带来的Q值表示问题。  相似文献   

17.
陈凯旋  吴小俊 《软件学报》2020,31(8):2530-2542
使用对称正定(symmetric positive definite,简称SPD)矩阵将视觉数据建模到黎曼流形(SPD流形),对于模式识别和机器学习中许多任务有较好的效果.其中,将基于稀疏表示的分类算法扩展到SPD流形上样本的分类任务得到了广泛的关注.本文综合考虑了稀疏表示分类算法的特点以及SPD流形的黎曼几何结构,通过核函数将SPD流形嵌入到再生核希尔伯特空间(reproducing kernel Hilbert space,简称RKHS),分别提出了核空间潜在稀疏表示模型和潜在分类方法.但是,原始的视觉数据在核空间中没有明确的表示形式,这给核空间中的潜在字典更新带来了不便.Nyström是一种可以近似表征核特征的方法.因此,我们利用该方法得到训练样本在RKHS中的近似表示,以更新潜在字典和潜在矩阵.最后,通过在5个标准数据集上的分类实验,验证了该方法的有效性.  相似文献   

18.
贝叶斯网用一种紧凑的形式表示联合概率分布,具有完备的语义和坚实的理论基础,目前已成为人工智能领域处理不确定性问题的最佳方法之一。贝叶斯网学习是其关键问题,传统学习方法存在如下不足:(1)随节点数增多非法结构以指数级增加,影响学习效率;(2)在等价结构之间进行打分搜索,影响收敛速度;(3)假设每个结构具有相同的先验概率,造成等价类中包含结构越多则先验概率越高。本文提出一种学习马尔科夫等价类算法,该算法基于骨架空间进行状态转换,利用从骨架空间到等价类空间的映 映射关系实现学习贝叶斯网等价类。实验数据证明,该方法可有效缩小搜索空间规模,相对于在有向图空间搜索的算法加快了算法的收敛速度,提高了执行效率。  相似文献   

19.
基于量子粒子群和SARSA算法的蜂窝网络信道分配   总被引:1,自引:0,他引:1       下载免费PDF全文
为了对蜂窝网络的信道进行在线、实时和动态的分配,设计了一种基于量子粒子群算法和SARSA算法的蜂窝网络信道分配方法。首先,采用分配方案表示量子粒子的位置,通过粒子群在粒子空间中不断寻优,将寻求的最优粒子位置作为信道分配方案的初始解。然后,根据得到的初始解的目标值来计算各状态动作对处的初始Q值,在此基础上,通过加入资格迹的SARSA(λ)算法和ε-greedy策略得到改进的SARSA(λ)算法,执行算法直到各状态动作对的Q值不发生变化为止,此时最终解为信道分配方案。为了验证文中方法的优越性,采用具有30个小区的移动蜂窝网络进行实验,仿真实验结果表明文中方法能实现蜂窝通信网络中信道的在线分配,且与其它方法比较,具有信道分配合理和收敛速度快的优点,是一种有效的信道分配方法。  相似文献   

20.
针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题,使用最小二乘策略迭代(Least-Squares Policy Iteration,LSPI)算法开展连续状态航迹规划问题研究。该算法采用带参线性函数逼近器近似表示动作值函数,无需进行空间离散化,提高了航迹精度,并基于样本数据离线计算策略,直接对策略进行评价和改进。与Q学习算法的对比仿真实验结果表明LSPI算法规划出的三维航迹更为平滑,有利于飞机实际飞行。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号