首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
季挺  张华 《控制与决策》2017,32(12):2153-2161
为解决当前近似策略迭代增强学习算法普遍存在计算量大、基函数不能完全自动构建的问题,提出一种基于状态聚类的非参数化近似广义策略迭代增强学习算法(NPAGPI-SC).该算法利用二级随机采样过程采集样本,利用trial-and-error过程和以样本完全覆盖为目标的估计方法计算逼近器初始参数,利用delta规则和最近邻思想在学习过程中自适应地调整逼近器,利用贪心策略选择应执行的动作.一级倒立摆平衡控制的仿真实验结果验证了所提出算法的有效性和鲁棒性.  相似文献   

2.
季挺  张华 《计算机应用》2018,38(5):1230-1238
为解决当前近似策略迭代增强学习算法逼近器不能完全自动构建的问题,提出一种基于Dyna框架的非参数化近似策略迭代(NPAPI-Dyna)增强学习算法。引入采样缓存和采样变化率设计二级随机采样过程采集样本,基于轮廓指标、采用K均值聚类算法实现trial-and-error过程生成核心状态基函数,采用以样本完全覆盖为目标的估计方法生成Q值函数逼近器,采用贪心策略设计动作选择器,利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型;而后基于Dyna框架的模型辨识思想,将学习和规划过程有机结合,进一步加快了增强学习速度。一级倒立摆平衡控制的仿真实验中,当增强学习误差率为0.01时,算法学习成功率为100%,学习成功的最小尝试次数仅为2,平均尝试次数仅为7.73,角度平均绝对偏差为3.0538°,角度平均振荡范围为2.759°;当增强学习误差率为0.1时进行100次独立仿真运算,相比Online-LSPI和BLSPI算法平均需要150次以上尝试才能学习得到控制策略,而NPAPI-Dyna基本可在50次尝试内学习成功。实验分析表明,NPAPI-Dyna能够完全自动地构建、调整增强学习结构,学习结果精度较高,同时较快收敛。  相似文献   

3.
CMAC 算法收敛性分析及泛化能力研究   总被引:24,自引:0,他引:24  
利用矩阵理论和线性方程组迭代收敛的一般性原理,在不附加特殊条件折情况下,证明了CMAC算法在批量和增量两种学习方式下的收敛定理,对在关联矩阵正定条件下得出的结论进行推广和改进。在此基础上提出了一种学习率自寻优的CMAC改进算法,并提出一种简单可行的评价CMAC网络整体泛化性能的指标,通过计算仿真验证了收敛定量的正确性和改进算法的优越性,并研究得出了CMAC网络各个参数对其泛化性能影响的相关结论。  相似文献   

4.
傅启明  刘全  伏玉琛  周谊成  于俊 《软件学报》2013,24(11):2676-2686
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car 问题,实验结果表明,该算法收敛速度较快,收敛精度较好.  相似文献   

5.
不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna-PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能.将此算法应用于一系列经典规划问题,实验结果表明,Dyna-PS算法有更快的收敛速度和更高的收敛精度,且对于状态空间的增长具有较强的鲁棒性.  相似文献   

6.
针对具有噪声的工业过程稳态优化进程,提出迭代学习控制以期改善控制系统的动态品质,建立了基本的加权噪声平滑型迭代学习控制算法结构。利用频域时域相结合的方法分析和论证了算法的收敛性,给出噪声平滑参数的确定策略,数字仿真表明,平滑型迭代学习控制算法能有效消除噪声对系统输出信号的影响,显著改善工业过程稳态优化进程中控制系统的动态品质。  相似文献   

7.
任泺锟  李慧嘉  贾传亮 《计算机科学》2016,43(Z6):395-399, 412
探测网络社团结构对于分析、设计复杂的自然或工程网络至关重要,然而现有的探测技术主要依托于最优化和启发式算法,不能兼顾计算效率和准确性。因此提出了一种基于演化迭代技术的动态社团探测算法,它能准确高效地发现网络中的社团结构。首先引入了一个离散时间的动态系统,通过描述社团划分收敛到特定指标最优的演化轨迹来确定社团划分。接着提出了一个一般化的指标函数,以确定网络中最优的社团数量及最稳定的社团结构。该指标函数极具概括性,改变相应的参数即可引申到各种已广泛应用的指标函数。针对参数选择的困难,利用图生成模型自动确定社团划分的指标函数。此算法效率很高,计算复杂度与稀疏网络中的节点数量呈近似线性关系。最后,在人工和真实网络中进行了大量的仿真实验来测试算法表现,结果显示所提算法能够揭示很多有价值的信息。  相似文献   

8.
具有扰动的非线性系统高阶迭代学习控制   总被引:1,自引:0,他引:1  
迭代学习控制(ILC)利用系统的重复性不断改进控制性能.本文讨论一类具有扰动的非线性、时变系统高阶迭代学习控制算法及其迭代学习收敛的充分条件,并与D型迭代学习算法相比,讨论典型PD高阶ILC算法的收敛速度.仿真结果证实高阶ILC算法具有更快的收敛速度,并且当系统满足收敛条件、不确定项及输出扰动项有界时迭代学习收敛.  相似文献   

9.
研究了一类不确定非线性分布参数系统的迭代学习控制问题.基于几何分析方法,给出了分布参数系统一种新的具有自适应因子的非线性迭代学习控制算法.导出了新算法的收敛条件,并利用广义λ范数从理论上证明了新算法的收敛性.  相似文献   

10.
连续域蚁群优化算法在处理高维问题时易陷入局部最优,而且收敛速度较慢。针对这些问题,提出了一种改进的连续域蚁群优化算法。该算法将解划分为优解和劣解两部分,并在迭代过程中动态调整优解和劣解的数目。对于优解,利用全局搜索策略进行预处理,这样能提高算法的收敛速度和收敛精度。对于劣解,则利用随机搜索策略进行预处理,这样能扩大搜索范围,增强搜索能力。通过标准测试函数对所提算法进行测试,结果表明改进策略能够有效提高连续域蚁群优化算法的收敛速度并改善解的质量。  相似文献   

11.
强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应运函数近似与高斯过程方法,提出新的行动者评论家 (Actor-Critic,AC)算法。该算法在Actor中使用时间差分误差构造关于策略参数的更新公式;在Critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。  相似文献   

12.
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。  相似文献   

13.
在庞大离散状态空间或连续状态空间中,强化学习(RL)需要进行值函数拟合以寻找最优策略.但函数拟合器的结构往往由设计者预先设定,在学习过程中不能动态调整缺乏自适应性.为了自动构建函数拟合器的结构,提出一种可以进行状态自动划分的模糊小脑模型关节控制(FCMAC)值函数拟合方法.该方法利用Bellman误差的变化趋势实现状态自动划分,并且探讨了两种选择划分区域的机制.汽车爬坡问题和机器人足球仿真平台中的实验结果表明新算法能有效拟合值函数,而且利用所提出的函数拟合器智能体可以进行有效的强化学习.  相似文献   

14.
连续状态自适应离散化基于K-均值聚类的强化学习方法   总被引:6,自引:1,他引:5  
文锋  陈宗海  卓睿  周光明 《控制与决策》2006,21(2):143-0148
使用聚类算法对连续状态空间进行自适应离散化.得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习.使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC网络的强化学习方法进行比较.结果表明该方法具有节省存储空间和缩短计算时间的优点.  相似文献   

15.
基于状态-动作图测地高斯基的策略迭代强化学习   总被引:3,自引:2,他引:1  
在策略迭代强化学习中, 基函数构造是影响动作值函数逼近精度的一个重要因素. 为了给动作值函数逼近提供合适的基函数, 提出一种基于状态-动作图测地高斯基的策略迭代强化学习方法. 首先, 根据离策略方法建立马尔可夫决策过程的状态-动作图论描述; 然后, 在状态-动作图上定义测地高斯核函数, 利用基于近似线性相关的核 稀疏方法自动选择测地高斯核的中心; 最后, 在策略评估阶段利用基于状态-动作图的测地高斯核逼近动作值函数, 并基于估计的值函数进行策略改进. 10×10格子世界的仿真结果表明, 与基于状态图普通高斯基和测地高斯基的策略迭代强化学习方法相比, 本文所提方法能以较少的基函数、高精度地逼近具有光滑且不连续特 性的动作值函数, 从而有效地获得最优策略.  相似文献   

16.
This article proposes three novel time-varying policy iteration algorithms for finite-horizon optimal control problem of continuous-time affine nonlinear systems. We first propose a model-based time-varying policy iteration algorithm. The method considers time-varying solutions to the Hamiltonian–Jacobi–Bellman equation for finite-horizon optimal control. Based on this algorithm, value function approximation is applied to the Bellman equation by establishing neural networks with time-varying weights. A novel update law for time-varying weights is put forward based on the idea of iterative learning control, which obtains optimal solutions more efficiently compared to previous works. Considering that system models may be unknown in real applications, we propose a partially model-free time-varying policy iteration algorithm that applies integral reinforcement learning to acquiring the time-varying value function. Moreover, analysis of convergence, stability, and optimality is provided for every algorithm. Finally, simulations for different cases are given to verify the convenience and effectiveness of the proposed algorithms.  相似文献   

17.
CMAC学习过程收敛性的研究   总被引:22,自引:0,他引:22  
基于CMAC学习过程等价于求解线性方程组的(Gauss-Seidel迭代这一事实,研究了学习过程的收敛性.利用矩阵分析方法,估计出了收敛的速度.考虑了作为节省存储空间措施的hash编码的不利影响--破坏了收敛性态.从理论上分析了其存在的原因.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号