首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了提高基于强化学习的自动驾驶车控制算法的学习效率,提出了一种结合专家经验的自动驾驶策略学习算法(deep deterministic policy gridient with expert,DDPGwE)。DDPGwE采用基于DDPG的强化学习框架进行模型在线训练,使用真实的人类驾驶数据对actor网络进行预训练,同时在actor网络中加入LSTM预测机制,提升自动驾驶车对将要发生状况的预判。在仿真平台TORCS中的实验结果表明,所提算法相较于原始DDPG算法,训练时间大大缩短,收敛速度加快,提高了模型的稳定性和泛化能力。  相似文献   

2.
基于强化学习的模糊自适应控制器   总被引:1,自引:0,他引:1  
提出了一个强化学习系统中模糊自适应控制器网络结构及其有关算法的改进。并在此基础上给出了二阶欠阻尼系统和强非线性系统的强化学习控制仿真结果。仿真结果表明,基于强化学习的模糊自适应控制器可以对一类复杂系统实现自学习控制,达到令人满意的控制精度。最后,作者还对进一步研究的问题进行了探讨。  相似文献   

3.
作为量子机器学习的一个新兴子领域,量子深度强化学习旨在利用量子神经网络构建一个量子智能体,使其通过与环境进行不断交互习得一个最优策略,以达到期望累积回报最大化.然而,现有量子深度强化学习方法在训练过程中需要与经典环境进行大量交互,从而导致大量多次调用量子线路.为此,该文提出了一种基于情景记忆的量子深度强化学习模型,称为...  相似文献   

4.
针对基于深度强化学习的交通信号控制方法存在难以及时更新交叉口信号控制策略的问题,提出基于改进深度强化学习的单交叉口交通信号控制方法. 构建新的基于相邻采样时间步实时车辆数变化量的奖励函数,以及时跟踪并利用交叉口交通状态动态的变化过程. 采用双网络结构提高算法学习效率,利用经验回放改善算法收敛性. 基于SUMO的仿真测试结果表明,相比传统控制方法和深度强化学习方法,所提方法能明显缩短交叉口车辆平均等待时间和平均排队长度,提高交叉口通行效率.  相似文献   

5.
针对非线性系统,在非线性广义最小方差控制律的基础上,提出了一种基于核学习辨识模型的自适应单步预测控制(KLAOPC)算法.首先辨识出非线性系统的核学习模型,并利用Taylor近似线性化方法获得控制律.采用中值定理证明了控制律的收敛性,并利用自适应校正项来提高其控制性能.核学习辨识模型容易获得,且在小样本情况下具有较好的推广性能.KLAOPC控制律具有简单的解析形式,需要调整的参数少且计算量小,适合非线性系统的实时控制.仿真结果表明,与其他控制算法相比,KLAOPC控制器有很好的控制效果,对过程的噪声和扰动等均具有较强的自适应性和鲁棒性.  相似文献   

6.
针对深度神经网络模型在终端设备上部署时面临计算和存储等资源不足的问题,模型剪枝是一种有效的模型压缩方案,在保证模型精度的前提下减少模型的参数量并降低计算复杂度。传统的剪枝方案对于剪枝率及剪枝标准的设置大多依据先验知识,忽略了深度模型中不同层的剪枝敏感度和参数分布差异,缺乏细粒度的优化。对此,提出了一种基于强化学习的滤波器剪枝方案,在满足目标稀疏度的基础上最小化模型剪枝后的精度损失,并采用参数化深度Q学习算法求解构建混合变量的非线性优化问题。实验结果表明,所提方案能够为深度模型每一层选择合适的剪枝标准与剪枝率,减小了模型剪枝后的精度损失。  相似文献   

7.
针对蒸汽发生器精确建模困难和低工况下控制性能差的问题,本文提出了一种基于深度强化学习优化的智能分层(IH)控制器.使用串级PI控制器作为初级控制器,用于直接控制水位.高级控制器采用经过深度强化学习优化的智能体控制器,负责实时对串级PI的参数进行优化,以便获得更好的控制性能.在高级控制器智能体的训练过程中,通过构建状态信...  相似文献   

8.
9.
指出了MRED算法的局限性,并利用一个二阶指数许可函数来设计非线性自适应控制算法,避免了单一静态阈值参数的不足,实现了许可控制的平滑化.实验仿真结果表明:该算法有效提高了集群利用率,避免了集群负载崩溃情况,提高了系统的稳定性与可靠性.  相似文献   

10.
针对开放性频谱共享模型,提出了一种基于非合作博弈的自适应功率控制算法. 该算法分为外部更新和内部更新,在外部更新时,用户进行周期性信息交互;在内部更新时,用户自适应控制功率. 仿真结果表明,该算法与传统的分布式算法相比减少了信息交互量,并且能得到近似最优解.  相似文献   

11.
针对缺乏精确模型的生物发酵过程中温度的大滞后过程,传统的PID难以达到满意的控制效果.基于专家系统的模糊控制能对一些非线性、模型不是很精确的系统进行控制,在一定程度上能够克服大滞后给系统带来的不利影响,然而模糊控制对延迟时间较大的系统进行控制时容易产生振荡.针对生物发酵过程大滞后系统,本文采用非线性划分的模糊语言变量的...  相似文献   

12.
根据纸机3段热泵控制系统参数易变化的特点,提出了一种基于增益自整定神经元自适应的二自由度PI纸机干燥部控制算法,通过仿真表明此算法在参数变化的情况下优于单自由度PI算法,建议实际控制中可采用此算法。  相似文献   

13.
为确保执行重复运动的工业机器人位置、速度的跟踪精度,提出一种可变增益自适应迭代学习控制算法。首先在PD反馈部分增加指数可变增益来加快算法收敛速度,然后在参数自适应部分设计广义误差函数来进一步减小轨迹跟踪误差,增强系统稳定性。通过Lyapunov函数对可变增益自适应迭代学习控制算法的收敛性进行了理论证明,最后利用仿真验证了该控制算法能有效减小机器人轨迹跟踪误差,并加快算法的收敛速度。  相似文献   

14.
随着机器人和人工智能技术的快速发展,行业对智能机器人的需求提高,提升机器人智能化水平是急需解决的问题.四足机器人作为具有代表性的腿足式机器人之一,因其友好的外形和结构优势,广受研究人员喜爱.首先介绍了目前国内外具有代表性的研究团队开发出的几款较为先进的四足机器人平台.然后介绍了一些研究人员使用深度强化学习方法训练四足机...  相似文献   

15.
针对大口径轴孔装配任务中存在的惯性冲击大、力控不稳定、装配精度差等问题,提出基于深度强化学习与模糊策略的大口径轴孔装配策略.该策略通过模糊动作生成器对强化学习算法输出的装配动作进行补偿,实现精确的状态跟踪.通过深度确定性决策梯度(DDPG)算法采集环境状态数据并计算输出动作,引导机器人改变装配状态.引入模糊动作生成器,与DDPG算法结合生成DDPGFA装配策略,利用模糊策略添加动作系数,提高装配动作准确性.在合理制定奖赏函数和模糊规则的基础上,实现训练过程的快速收敛.通过设定安全阈值保证在线学习过程中系统的受力安全.大口径轴孔装配仿真和实验结果表明,与未采用模糊动作的强化学习装配策略相比,DDPGFA策略能在更稳定的步数下完成装配,且离线训练速度提升约15%,装配接触力减小约30%.  相似文献   

16.
为解决大规模敏捷软件项目调度问题,首先,将其分解为故事选择、故事分配和任务分配3个强耦合子问题,并引入用户故事的新增与删除、每个冲刺阶段中员工工作时长的变化等动态事件,考虑团队开发速度、任务时长和技能等约束,以最大化项目所完成用户故事总价值为目标建立大规模敏捷软件项目调度数学模型;其次,根据问题特征设计了马尔可夫决策过程,采用10个状态特征描述每个冲刺阶段开始时的敏捷调度环境,12个复合调度规则作为智能体的候选动作,并按照调度模型的目标函数定义奖励;最后,提出一种基于复合调度规则的优先经验回放双重深度Q网络算法来求解所建模型,引入双重深度Q网络(DDQN)策略和优先经验回放策略,避免深度Q网络的过估计问题,并提高经验回放池中轨迹信息的利用效率。为了验证所提算法的有效性,在6个大规模敏捷软件项目调度算例中进行了实验,分析了所提算法的收敛性。根据算法性能测度,与已有代表性算法DQN、双重深度Q网络以及仅使用单一复合调度规则的方法进行对比。结果表明:所提算法在6个不同算例中均获得了最高的平均累计奖励值。  相似文献   

17.
为了更充分地利用可满足问题(SAT)的数据分布中的信息,从而提升算法性能,提出了一种基于深度强化学习的随机局部搜索启发式方法。把随机局部搜索算法中变量的选择看作强化学习任务,训练强化学习Agent学习策略作为随机局部搜索算法选择翻转变量的启发式,以期望通过端到端的方式获得效率更好的翻转变量的选择方法。实验结果表明,本文方法是有效的,并且与经典随机局部搜索算法ProbSAT相比,本文方法在性能上也有一定的优势,可以在更少的决策步骤内求出问题的解。  相似文献   

18.
针对传统的DDPG算法训练时间长和收敛速度慢的问题,提出一种将引导式学习和优选经验回放机制相结合融入DDPG的算法.改进的DDPG算法在训练初期的动作输出为引导式学习和策略网络共同作用的结果,后期引导式学习不再参与控制.同时引入经验池分离技术,将优势经验样本和劣势经验样本分开存储和固定比例随机抽取.在TORCS平台上进...  相似文献   

19.
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键.针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法.首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,...  相似文献   

20.
暖通空调系统运行能耗是建筑能耗的主要方面,为了降低能耗节约资源,暖通空调系统优化控制就显得尤为重要.随着深度强化学习(DRL)的发展,其在工程优化控制中的表现良好,更多的暖通空调系统开始采用基于DRL的优化控制方法,但针对类似地暖的热惰性大的系统应用研究相对较少.因此,文中将DRL算法应用到地面辐射供暖系统优化控制中,并综合考虑人体热舒适、工作效率及系统能耗,分别与传统的地暖通断控制和PID控制效果进行对比分析.结果表明,DRL控制在室内热舒适度略优于传统通断控制和PID控制,但工作效率及能耗方面相对略差一些.该研究对象是针对于单房间区域模型,但包括了三个不同的地区,验证了DRL控制策略在地板辐射供暖系统的可行性,为进一步多房间模型研究提供基础.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号