首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
基于MAXQ方法的分层强化学习   总被引:1,自引:0,他引:1  
强化学习是机器学习领域的一个重要分支,但在强化学习系统中,学习的数量会随着状态变量的个数成指数级增长,从而形成"维数灾".为此提出了一种基于MAXQ的分层强化学习方法,通过引入抽象机制将强化学习任务分解到不同层次上来分别实现,使得每层上的学习任务仅需在较小的空间中进行,从而大大减少了学习的数量和规模.并给出具体算法--MAXQ-RLA.  相似文献   

3.
随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设,在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前,通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习以及示教学习方法做一定介绍,此外还介绍了逆强化学习在应用过程中所需要解决的问题以及基于逆强化学习的示教学习方法.  相似文献   

4.
交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实时交通信息离散化建模并与相应车道上的等待时间、队列长度、延迟时间、相位信息等整合作为状态输入,在对相位序列及动作、奖励做出恰当定义的基础上,在线学习交通信号的控制策略,实现交通信号Agent的自适应控制。为验证所提算法,在SUMO(Simulation of Urban Mobility)中相同设置下,将其与3种典型的深度强化学习算法进行对比。实验结果表明,基于分布式的深度强化学习算法在交通信号Agent的控制中具有更好的效率和鲁棒性,且在交叉路口车辆的平均延迟、行驶时间、队列长度、等待时间等方面具有更好的性能表现。  相似文献   

5.
为提升无线电均衡分配效果,提出基于深度强化学习的无线电频谱均衡分配方法。首先,建立无线电信道信干比水平最小和无线电系统吞吐量最大的目标函数,根据无线电系统通信特点设定约束条件;其次,利用深度强化学习技术对目标函数求解,获得最优无线电频谱均衡分配策略;最后,进行实验对比分析。实验结果表明,该方法的无线电总信干比水平和无线电吞吐量均高于两种传统方法。  相似文献   

6.
提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agent的学习过程从多样样本池中选取样本学习,可有效避免浪费学习资源。实验包括在仿真房间模型上与Q-Learning算法的对比实验和与经典PID控制方法的对比实验。实验结果表明,所提出的并行算法有更快的学习速率和收敛速度,能更快地求解出最优策略,并拥有更高的运行效率。  相似文献   

7.
本文提出一种基于定性模糊网络的强化学习知识传递方法。该方法通过建立系统的定性模型,并用定性模糊网络抽取基于定性动作的次优策略的共同特征获得与系统参数无关知识。这些知识能有效描述参数值不同的系统所具有的共同控制规律,加快在新参数值的系统中强化学习的收敛速度。  相似文献   

8.
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。  相似文献   

9.
王童  李骜  宋海荦  刘伟  王明会 《控制与决策》2022,37(11):2799-2807
针对现有基于深度强化学习(deep reinforcement learning, DRL)的分层导航方法在包含长廊、死角等结构的复杂环境下导航效果不佳的问题,提出一种基于option-based分层深度强化学习(hierarchical deep reinforcement learning, HDRL)的移动机器人导航方法.该方法的模型框架分为高层和低层两部分,其中低层的避障和目标驱动控制模型分别实现避障和目标接近两种行为策略,高层的行为选择模型可自动学习稳定、可靠的行为选择策略,从而有效避免对人为设计调控规则的依赖.此外,所提出方法通过对避障控制模型进行优化训练,使学习到的避障策略更加适用于复杂环境下的导航任务.在与现有DRL方法的对比实验中,所提出方法在全部仿真测试环境中均取得最高的导航成功率,同时在其他指标上也具有整体优势,表明所提出方法可有效解决复杂环境下导航效果不佳的问题,且具有较强的泛化能力.此外,真实环境下的测试进一步验证了所提出方法的潜在应用价值.  相似文献   

10.
多智能体学习中基于知识的强化函数设计方法   总被引:1,自引:0,他引:1  
强化函数的设计是构建多智能体学习系统的一个难点。提出了一种基于知识的强化函数设计方法,根据实际应用的特点,将经验信息和先验知识引入到强化函数中,提高了强化学习的性能。通过在RobotSoccer中的应用和实验,基于知识的强化函数的学习效果要优于传统的强化函数。  相似文献   

11.
基于路径匹配的在线分层强化学习方法   总被引:1,自引:0,他引:1  
如何在线找到正确的子目标是基于option的分层强化学习的关键问题.通过分析学习主体在子目标处的动作,发现了子目标的有效动作受限的特性,进而将寻找子目标的问题转化为寻找路径中最匹配的动作受限状态.针对网格学习环境,提出了单向值方法表示子目标的有效动作受限特性和基于此方法的option自动发现算法.实验表明,基于单向值方法产生的option能够显著加快Q学习算法,也进一步分析了option产生的时机和大小对Q学习算法性能的影响.  相似文献   

12.
基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产生干扰.针对这一问题,提出了一种可学习的样本加权机制,通过对生成样本重加权以减少它们对训练过程的负面影响.该影响的量化方法为,先使用待评估样本更新价值和策略网络,再在真实样本上计算更新前后的损失值,使用损失值的变化量来衡量待评估样本对训练过程的影响.实验结果表明,按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法.  相似文献   

13.
卫星网络的无线信号全球覆盖,已经成为现代通信技术的重要部分。低轨卫星网络因其覆盖范围广、传播时延低等特点受到广泛关注,卫星网络不受地面地理环境因素的限制,对于海洋环境和偏远地区的网络覆盖服务具有不可替代的重要地位,路由在其中至关重要。文章基于OPNET的仿真软件,进行了强化学习路由方法的设计,并且测试得到结果。结果表明,强化学习的路由方法也能同样实现和传统路由路径计算方法的一致效果,并且在输入数据的灵活度上更有优势。  相似文献   

14.
强化学习方法是人工智能领域中比较重要的方法之一,自从其提出以来已经有了很大的发展,并且能用来解决很多的问题。但是在遇到大规模状态空间问题时,使用普通的强化学习方法就会产生“维数灾”现象,所以提出了关系强化学习,把强化学习应用到关系领域可以在一定的程度上解决“维数灾”难题。在此基础上,简单介绍关系强化学习的概念以及相关的算法,以及以后有待解决的问题。  相似文献   

15.
16.
作为解决序贯决策的机器学习方法,强化学习采用交互试错的方法学习最优策略,能够契合人类的智能决策方式。基于课程学习的深度强化学习是强化学习领域的一个研究热点,它针对强化学习智能体在面临高维状态空间和动作空间时学习效率低、难以收敛的问题,通过抽取一个或多个简单源任务训练优化过程中的共性知识,加速或改善复杂目标任务的学习。论文首先介绍了课程学习的基础知识,从四个角度对深度强化学习中的课程学习最新研究进展进行了综述,包括基于网络优化的课程学习、基于多智能体合作的课程学习、基于能力评估的课程学习、基于功能函数的课程学习。然后对课程强化学习最新发展情况进行了分析,并对深度强化学习中的课程学习的当前存在问题和解决思路进行了总结归纳。最后,基于当前课程学习在深度强化学习中的应用,对课程强化学习的发展和研究方向进行了总结。  相似文献   

17.
高能物理计算是典型的数据密集型计算.分布式存储系统的吞吐率和响应时间是最关键的性能指标,往往也是重点关注的性能优化目标.存储系统中存在大量可供调节的参数,这些参数的设置对系统的性能有着很大的影响.目前,这些参数被直接设置为静态值,或者由经验丰富的管理员定义一些启发式规则来自动调整.考虑到数据访问模式和硬件配置的多样性,以及依靠人类经验来找到数百个交互参数的启发式规则的难度,这2种方法的效果都不太乐观.实际上,如果把调节引擎看作是智能体,把存储系统看作是环境,存储系统的参数调节问题是典型的顺序决策问题.因此,基于高能物理计算的数据访问特点,提出了用强化学习的方法来进行自动化的参数调优.实验表明:在相同的测试环境下,以Lustre文件系统默认参数为基准,该方法可使其吞吐率提升30%左右.  相似文献   

18.
针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep [Q] Networks(DQN)算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN(Dynamic Target Deep [Q] Network)算法。利用公测平台OpenAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升。  相似文献   

19.
强化学习在游戏对弈、机器人控制等领域内已取得良好成效。为进一步提高训练效率,将元学习拓展至强化学习中,由此所产生的元强化学习已成为当前强化学习领域中的研究热点。元知识质量是决定元强化学习效果的关键因素,基于梯度的元强化学习以模型初始参数为元知识指导后续学习。为提高元知识质量,提出了一种通用元强化学习方法,通过加权机制显式表现训练过程中子任务对训练效果的贡献。该方法利用不同子任务所得的梯度更新向量与任务集内所有梯度更新向量的相似性作为更新权重,完善梯度更新过程,提高以模型初始参数为元知识的质量,使训练好的模型在一个良好的起点上解决新任务。该方法可通用在基于梯度的强化学习中,达到使用少量样本快速解决新任务的目标。在二维导航任务和仿真机器人运动控制任务的对比实验中,该方法优于其他基准算法,证明了加权机制的合理性。  相似文献   

20.
基于强化学习的智能机器人避碰方法研究   总被引:9,自引:0,他引:9  
张汝波  周宁  顾国昌  张国印 《机器人》1999,21(3):204-209
本文采用强化学习方法实现了智能机器人的避碰行为学习.文中首先介绍了强化学习 原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器 人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号