首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
傅启明  刘全  伏玉琛  周谊成  于俊 《软件学报》2013,24(11):2676-2686
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car 问题,实验结果表明,该算法收敛速度较快,收敛精度较好.  相似文献   

2.
针对大规模离散空间中强化学习的"维数灾"问题,即状态空间的大小随着特征的增加而发生指教级的增长,提出了一种基于高斯过程的强化学习方法.在本方法中,高斯过程模型有表示函数分布的能力,使用该模型之后,可以得到的不只是一个所需的估计值,而是关于该值的一个分布.实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高.使用高斯方法的回归模型可以在一定程度上解决大规模离散空间上的"维数灾"问题.  相似文献   

3.
针对具有连续状态空间的无模型非线性系统,提出一种基于径向基(radial basis function, RBF)神经网络的多步强化学习控制算法.首先,将神经网络引入强化学习系统,利用RBF神经网络的函数逼近功能近似表示状态-动作值函数,解决连续状态空间表达问题;然后,结合资格迹机制形成多步Sarsa算法,通过记录经历过的状态提高系统的学习效率;最后,采用温度参数衰减的方式改进softmax策略,优化动作的选择概率,达到平衡探索和利用关系的目的. MountainCar任务的仿真实验表明:所提出算法经过少量训练能够有效实现无模型情况下的连续非线性系统控制;与单步算法相比,该算法完成任务所用的平均收敛步数更少,效果更稳定,表明非线性值函数近似与多步算法结合在控制任务中同样可以具有良好的性能.  相似文献   

4.
在复杂的连续空间应用场景中,经典的离散空间强化学习方法已难以满足实际需要,而已有的连续空间强化学习方法主要采用线性拟合方法逼近状态值函数和动作选择函数,存在精度不高的问题。提出一种基于联合神经网络非线性行动者评论家方法(actor-critic approach based on union neural network, UNN-AC)。该方法将动作选择函数和评论值函数表示为统一的联合神经网络模型,利用联合神经网络非线性拟合状态值函数和动作选择概率。与已有的线性拟合方法相比,非线性UNN-AC提高了对评论值函数和动作选择函数的拟合精度。实验结果表明,UNN-AC算法能够有效求解连续空间中近似最优策略问题。与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点。  相似文献   

5.
针对非线性系统的状态估计问题,提出一种改进的高斯粒子滤波算法。该算法是基于正则化粒子滤波(RPF),将重采样中离散的概率分布函数近似为连续分布,进而在高斯粒子滤波(GPF)中引入正则化粒子滤波算法得到的最新预测值,并利用这一观测值进行状态估计的更新。最后,对RGPF和GPF两种算法进行综合分析和实验仿真,结果表明,与标准GPF算法相比,RGPF具有较高的滤波精度。  相似文献   

6.
在庞大离散状态空间或连续状态空间中,强化学习(RL)需要进行值函数拟合以寻找最优策略.但函数拟合器的结构往往由设计者预先设定,在学习过程中不能动态调整缺乏自适应性.为了自动构建函数拟合器的结构,提出一种可以进行状态自动划分的模糊小脑模型关节控制(FCMAC)值函数拟合方法.该方法利用Bellman误差的变化趋势实现状态自动划分,并且探讨了两种选择划分区域的机制.汽车爬坡问题和机器人足球仿真平台中的实验结果表明新算法能有效拟合值函数,而且利用所提出的函数拟合器智能体可以进行有效的强化学习.  相似文献   

7.
标准的Sarsa(λ)算法对状态空间的要求是离散的且空间较小,而实际问题中很多系统的状态空间是连续的或尽管是离散的但空间较大,这就需要很大的内存来存储状态动作对.为此提出组合神经网络,首先用自组织映射(SOM)神经网络对状态空间进行自适应量化,然后在此基础上用BP网络拟合Q函数.该方法实现了Sarsa(λ)算法在连续和大规模状态空间的泛化.最后,实验结果表明了该方法的有效性.  相似文献   

8.
自适应RBF网络Q学习控制   总被引:1,自引:0,他引:1  
利用RBF网络逼近连续空间的Q值函数,实现连续空间的Q学习.RBF网络输入为状态-动作对,输出为该状态-动作对的Q值.状态由系统的状态转移特性确定,动作由优化网络输出得到的贪婪动作与服从高斯分布的噪声干扰动作两部分叠加而成.利用RNA算法和梯度下降法自适应调整网络的结构和参数.倒立摆平衡控制的实验结果验证了该方法的有效性.  相似文献   

9.
针对当前网格资源管理中信任机制与计算性能结合的要求,基于网格服务模型与效益函数,提出信任机制与计算性能平衡的网格任务调度问题。在网格任务调度的效益函数中引入平衡因子,提出平衡因子蚁群算法,通过实验确定平衡因子值。对网格任务调度的平衡因子蚁群算法进行大规模仿真实验,有力地证明了平衡因子蚁群算法优于平衡因子极小-极小算法和平衡因子忍耐度算法,在最短完成时间和服务率方面具有较好的综合性能。  相似文献   

10.
为检测数据中的异常信息,提出基于高斯过程模型的异常检测算法。高斯过程可以根据训练样本从先验分布转到后验分布,对核函数的超参数进行推理,预测输出具有清晰的概率解释。对基于高斯过程模型的异常检测算法进行定义和描述,用Server Computers(电脑服务器)数据进行仿真实验,结合高斯过程先验和回归理论,在实验中选取RBF作为核函数,利用目标类数据的特性构造特征向量集,在TE工业过程时序数据集上验证了该算法的适用性和有效性。  相似文献   

11.
葛宇  梁静 《计算机科学》2015,42(9):257-262, 281
为将标准人工蜂群算法有效应用到多目标优化问题中,设计了一种多目标人工蜂群算法。其进化策略在利用精英解引导搜索的同时结合正弦函数搜索操作来平衡算法对解空间的开发与开采行为。另外,算法借助了外部集合来记录与维护种群进化过程中产生的Pareto最优解。理论分析表明:针对多目标优化问题,本算法能收敛到理论最优解集合。对典型多目标测试问题的仿真实验结果表明:本算法能有效逼近理论最优,具有较好的收敛性和均匀性,并且与同类型算法相比,本算法具有良好的求解性能。  相似文献   

12.
探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低。针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分。RMAXKNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法。在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略。  相似文献   

13.
龙文  伍铁斌 《控制与决策》2017,32(10):1749-1757
提出一种协调探索和开发能力的灰狼优化算法.利用佳点集方法初始化灰狼个体的位置,为全局搜索多样性奠定基础;为协调算法的全局探索和局部开发能力,给出一种基于正切三角函数描述的非线性动态变化控制参数;为加快算法的收敛速度,受粒子群优化算法个体记忆功能的启发,设计一种新的个体位置更新公式.10个标准函数的测试结果表明,改进灰狼优化(IGWO)算法能够有效地协调其对问题搜索空间的探索和开发能力.  相似文献   

14.
中央空调系统并联冷水机组系统能耗非常大,如果操作不当,能耗会大大增加。针对OCL问题提出了一种求解连续非线性优化问题的改进鲸群优化算法,首先,为使后续迭代寻优的搜索空间更精确,运用混沌映射初始化种群,使初始解均匀遍布解空间。其次引入变异指数对收敛因子进行改进,平衡了局部勘探和全局勘探的关系。之后引入正弦和余弦使算法收敛到全局最优解,防止了算法过早收敛,提高了算法的收敛精度。最后,通过两个典型的案例来评估IWOA算法的性能,并将其与应用于OCL问题的其他优化算法进行了比较。结果表明,IWOA算法是解决OCL问题的有效方法。此外,算法性能的比较显示,IWOA算法在收敛速度和电能消耗方面相比于其他应用于OCL问题的优化方法提供了更好的解决方案。  相似文献   

15.
一种协调勘探和开采的遗传算法:收敛性及性能分析   总被引:19,自引:1,他引:18  
提出了一种新的遗传算法结构。在该结构中,每一代的新种群由保留种 群、繁殖种群的随机种群三部分组成,而它们的相对数量则由不同的参数进行控制,这体现了该算法在运行过程中对搜索空间勘探和开采操作的协调和权衡。通过把该算法建模为齐次的有限Markov链,该文证明了该算法具有全局收敛性。对试验数据的分析表明,该算法能够有效协调算法对问题解空间的勘探和开采操作,因而在处理复杂问题时表现出较高的性能。  相似文献   

16.
The PSOGSA is a novel hybrid optimization algorithm, combining strengths of both particle swarm optimization (PSO) and gravitational search algorithm (GSA). It has been proven that this algorithm outperforms both PSO and GSA in terms of improved exploration and exploitation. The original version of this algorithm is well suited for problems with continuous search space. Some problems, however, have binary parameters. This paper proposes a binary version of hybrid PSOGSA called BPSOGSA to solve these kinds of optimization problems. The paper also considers integration of adaptive values to further balance exploration and exploitation of BPSOGSA. In order to evaluate the efficiencies of the proposed binary algorithm, 22 benchmark functions are employed and divided into three groups: unimodal, multimodal, and composite. The experimental results confirm better performance of BPSOGSA compared with binary gravitational search algorithm (BGSA), binary particle swarm optimization (BPSO), and genetic algorithm in terms of avoiding local minima and convergence rate.  相似文献   

17.
为了解决传统的强化学习算法应用于移动机器人未知环境的路径规划时存在收敛速度慢、迭代次数多、收敛结果不稳定等问题,提出一种改进的Q-learning算法。在状态初始化时引入人工势场法,使得越靠近目标位置状态值越大,从而引导智能体朝目标位置移动,减少算法初始阶段因对环境探索产生的大量无效迭代;在智能体选择动作时改进[ε]-贪婪策略,根据算法的收敛程度动态调整贪婪因子[ε],从而更好地平衡探索和利用之间的关系,在加快算法收敛速度的同时提高收敛结果的稳定性。基于Python的Tkinter标准化库搭建的格栅地图仿真结果表明,改进的Q-learning算法相较于传统算法在路径规划时间上缩短85.1%,收敛前迭代次数减少74.7%,同时算法的收敛结果稳定性也得到了提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号