期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王威王硕玉张天琪杨俊友《机器人技术与应用》2023,(2):39-43

在使用轮式助行机器人辅助行走和康复训练过程中,机器人运动控制的稳定性和轨迹跟踪的准确性是人机交互的重要研究内容。本文将强化学习中的深度确定性策略梯度（DDPG）算法与比例积分微分（PID）控制器相结合,提出了一种轮式助行机器人轨迹跟踪方法。首先,对轮式助行机器人底盘的运动学模型进行了分析。其次,介绍了强化学习中的DDPG算法与PID控制器相结合的自适应PID控制器的实现原理和控制结构。最后进行了仿真实验。实验结果表明,与传统PID控制器相比,基于DDPG算法的PID控制器能在机器人系统跟踪期望轨迹时自适应调整参数,使机器人始终按照期望轨迹运动。同时,得益于强化学习的试错机制,控制器具有较强的抗干扰能力。相似文献

2.

基于DDPG算法的冰蓄冷空调系统运行策略优化

万典典刘智伟陈语池明《控制工程》2022,(3):441-446

空调的不合理运行会增加建筑物总能耗,加大电网峰谷负荷差,影响电网的安全运行。针对此问题,提出一种基于深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法的冰蓄冷空调系统运行策略优化方法,以平滑冰蓄冷空调系统的功率曲线和降低系统运行费用为目标,求解各个时刻制冷主机和蓄冰槽的运行功率。通过仿真实验分析DDPG算法的性能,结果表明,该方法不仅平滑了空调系统的功率曲线,实现了电网调峰的目标,同时降低了空调系统的运行费用,具有良好的经济效益。与传统的主机优先和融冰优先方法相比,该方法的功率平滑效果和经济效益都更好。相似文献

3.

基于自监督网络的DDPG算法的建筑能耗控制

殷雨竹陈建平傅启明陆悠吴宏杰《计算机系统应用》2022,31(2):161-167

针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,预测下一个状态特征向量,同时将预测误差作为好奇心设计内部奖赏... 相似文献

4.

改进的DDPG对话策略优化算法

赵崟江李艳玲林民《计算机工程与设计》2021,42(2):411-418

针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep de-terministic policy gradient,DDPG)算法来优化对话策略.在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其适用于离散动作空间任务;在环境方面,引入一个环境模... 相似文献

5.

基于DDPG的冷源系统节能优化控制策略

闫军威黄琪周璇《控制与决策》2021,36(12):2955-2963

针对传统冷源系统节能优化方式机理建模复杂,缺乏自我学习能力,优化速度较慢等问题,提出一种基于数据驱动和自我学习机制的冷源系统节能优化控制策略,设计冷源马尔可夫决策过程模型,并采用深度确定性策略梯度算法(DDPG)解决维数灾难与避免控制动作离散化问题.以夏热冬暖地区某大型办公建筑中央空调冷源系统为研究对象,对冷源系统控制策略进行节能优化,实现在满足室内热舒适性要求的前提下,减少系统能耗的目标.在对比实验中,DDPG控制策略下的冷源系统总能耗相比PSO控制策略和规则控制策略减少了6.47%和14.42%,平均室内热舒适性提升了5.59%和18.71%,非舒适性时间占比减少了5.22%和76.70%.仿真结果表明,所提出的控制策略具备有效性与实用性,相比其他控制策略在节能优化方面具有较明显的优势. 相似文献

6.

铅锌烧结过程质量产量的智能集成优化控制 总被引：2，自引：0，他引：2

徐辰华吴敏《控制理论与应用》2008,25(4):688-692

针对铅锌烧结过程具有大滞后、多约束的特点,建立烧结块质量产量神经网络预测模型和优化控制模型,提出一种融合聚类搜索粗优化和混沌遗传细优化的智能集成优化控制方法.首先采用模糊聚类算法进行优化样本查询,所得结果作为问题的次优解;然后采用最优保存对简单遗传混沌算法进行二次优化,求取问题的最优解;最后对智能集成方法进行实际验证,系统运行结果表明.该方法较好地实现了高产、优质的生产目标.并且具有全局收敛性和工业有效性,为解决复杂工业过程的优化控制问题提供了一种有效、实用的新思路. 相似文献

7.

Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法 总被引：1，自引：0，他引：1

陈亮梁宸张景异刘韵婷《控制与决策》2021,36(1):75-82

现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式有效且可扩展,提出一种混合DDPG(Mi-DDPG)算法.首先,在Actor网络加入双向循环神经网络(BRNN)作为同兵种agent信息交流层;然后,在Critic网络加入其他兵种agent信息来学习多agent协同策略.另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理.实验中,在不同的场景下用Mi-DDPG算法与其他算法进行对比,Mi-DDPG在收敛速度和任务完成度方面有明显提高,具有在现实世界应用的潜在价值. 相似文献

8.

基于分布式深度强化学习的微电网实时优化调度

郭方洪何通吴祥董辉刘冰《控制理论与应用》2022,39(10):1881-1889

随着海量新能源接入到微电网中, 微电网系统模型的参数空间成倍增长, 其能量优化调度的计算难度不断上升. 同时, 新能源电源出力的不确定性也给微电网的优化调度带来巨大挑战. 针对上述问题, 本文提出了一种基于分布式深度强化学习的微电网实时优化调度策略. 首先, 在分布式的架构下, 将主电网和每个分布式电源看作独立智能体. 其次, 各智能体拥有一个本地学习模型, 并根据本地数据分别建立状态和动作空间, 设计一个包含发电成本、交易电价、电源使用寿命等多目标优化的奖励函数及其约束条件. 最后, 各智能体通过与环境交互来寻求本地最优策略, 同时智能体之间相互学习价值网络参数, 优化本地动作选择, 最终实现最小化微电网系统运行成本的目标. 仿真结果表明, 与深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)相比, 本方法在保证系统稳定以及求解精度的前提下, 训练速度提高了17.6%, 成本函数值降低了67%, 实现了微电网实时优化调度. 相似文献

9.

基于深度强化学习的无人机飞行控制训练系统构建研究

李延波李光《自动化技术与应用》2023,(10):20-23+166

无人机智能化训练过程需要与实际环境进行交互,设计基于X-Plane的深度强化学习训练系统,可以实现无人机飞行控制、空战仿真推演、智能算法评估功能,同时系统实现采用DDPG算法的F-18战斗机平稳飞行试验,形成一套完整的无人机智能化训练仿真系统。相似文献

10.

基于深度强化学习的多路口信号控制优化研究

赵纯董小明《计算机应用研究》2022,39(8)

新起的智能交通系统在改善交通流量,优化燃油效率,减少延误和提高整体驾驶经验方面有望发挥重要作用。现今,交通拥堵是困扰人类的一个极其严重的问题,特别是一些城市交通密集的十字路口处可能会更加严重。对信号控制系统的奖励机制进行了改进,将所有路口共享奖励的机制改进为每个交叉口共享唯一的奖励,并且通过密集采样策略与多路口信号控制相结合的方式,运用时下热门的深度强化学习来解决交通信号灯配时问题。仿真实验都是基于现在国际主流的交通模拟软件（SUMO）完成,从实验结果表明,改进后的深度强化学习多路口信号控制方法相较于传统强化学习方法控制效果更佳。相似文献

11.

深度确定性策略梯度与模糊PID的协同温度控制

吴敏王晓璐姜玉东钟磊莫飞杨《控制理论与应用》2022,39(12):2358-2365

针对现有温度控制系统控温时间长、误差大的问题, 本文提出了一种基于深度确定性策略梯度(DDPG)和模糊自整定PID的协同温度控制. 首先, 模糊PID在控制大滞后系统时, 控制器不能立刻对产生的干扰起抑制作用, 且无法保证大滞后系统的稳定性等问题, 本文建立了模糊PID和DDPG算法相结合的温度控制模型, 该模型将模糊PID作为主控制器, DDPG算法作为辅助控制, 利用双控制器模型实现温度协同控制. 接着, 利用遗传算法对模糊PID的隶属函数和模糊规则进行寻优, 获得模型参数最优解. 最后, 在仿真实验中验证所提方法的有效性. 仿真实验结果表明, 本文提出的算法可有效减少噪声干扰, 减小控制系统的响应时间、误差和超调量. 相似文献

12.

基于深度强化学习的二连杆机械臂运动控制方法

王建平王刚毛晓彬马恩琪《计算机应用》2021,41(6):1799-1804

针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法.首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制.对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一... 相似文献

13.

基于局部策略交互探索的深度确定性策略梯度的工业过程控制方法

邓绍斌朱军周晓锋李帅刘舒锐《计算机应用》2022,42(5):1642-1648

为了实现对非线性、滞后性和强耦合的工业过程稳定精确的控制,提出了一种基于局部策略交互探索的深度确定性策略梯度（LPIE-DDPG）的控制方法用于深度强化学习的连续控制。首先,使用深度确定性策略梯度（DDPG）算法作为控制策略,从而极大地减小控制过程中的超调和振荡现象;同时,使用原控制器的控制策略作为局部策略进行搜索,并以交互探索规则进行学习,提高了学习效率和学习稳定性;最后,在Gym框架下搭建青霉素发酵过程仿真平台并进行实验。仿真结果表明,相较于DDPG,LPIE-DDPG在收敛效率上提升了27.3%;相较于比例-积分-微分（PID）,LPIE-DDPG在温度控制效果上有更少的超调和振荡现象,在产量上青霉素浓度提高了3.8%。可见所提方法能有效提升训练效率,同时提高工业过程控制的稳定性。相似文献

14.

基于强化学习的一类具有输入约束非线性系统最优控制

罗傲肖文彬周琪鲁仁全《控制理论与应用》2022,39(1):154-164

针对部分系统存在输入约束和不可测状态的最优控制问题,本文将强化学习中基于执行–评价结构的近似最优算法与反步法相结合,提出了一种最优跟踪控制策略.首先,利用神经网络构造非线性观测器估计系统的不可测状态.然后,设计一种非二次型效用函数解决系统的输入约束问题.相比现有的最优方法,本文提出的最优跟踪控制方法不仅具有反步法在处理... 相似文献

15.

基于异步奖励深度确定性策略梯度的边缘计算多任务资源联合优化

周恒《计算机应用研究》2023,40(5)

移动边缘计算（MEC）系统中,因本地计算能力和电池能量不足,终端设备可以决定是否将延迟敏感性任务卸载到边缘节点中执行。针对卸载过程中用户任务随机产生且系统资源动态变化问题,提出了一种基于异步奖励的深度确定性策略梯度（asynchronous reward deep deterministic policy gradient,ARDDPG）算法。不同于传统独立任务资源分配采用顺序等待执行的策略,该算法在任务产生的时隙即可执行资源分配,不必等待上一个任务执行完毕,以异步模式获取任务计算奖励。ARDDPG算法在时延约束下联合优化了任务卸载决策、动态带宽分配和计算资源分配,并通过深度确定性策略梯度训练神经网络来探索最佳优化性能。仿真结果表明,与随机策略、基线策略和DQN算法相比,ARDDPG算法在不同时延约束和任务生成率下有效降低了任务丢弃率和系统的时延和能耗。相似文献

16.

基于强化学习的煤矸石分拣机械臂智能控制算法研究

张永超于智伟丁丽林《工矿自动化》2021,47(1):36-42

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。相似文献

17.

一类非线性动态系统基于强化学习的最优控制制

陈学松刘富春《控制与决策》2013,28(12):1889-1893

提出一类非线性不确定动态系统基于强化学习的最优控制方法. 该方法利用欧拉强化学习算法估计对象的未知非线性函数, 给出了强化学习中回报函数和策略函数迭代的在线学习规则. 通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化, 实现了对值函数的估计和控制策略的改进. 基于值函数的梯度值和时序误差指标值, 给出了该算法的步骤和误差估计定理. 小车爬山问题的仿真结果表明了所提出方法的有效性.

相似文献

18.

基于深度强化学习的城市交通信号控制算法

舒凌洲吴佳王晨《计算机应用》2019,39(5):1495-1499

针对城市交通信号控制中如何有效利用相关信息优化交通控制并保证控制算法的适应性和鲁棒性的问题，提出一种基于深度强化学习的交通信号控制算法，利用深度学习网络构造一个智能体来控制整个区域交通。首先通过连续感知交通环境的状态来选择当前状态下可能的最优控制策略，环境的状态由位置矩阵和速度矩阵抽象表示，矩阵表示法有效地抽象出环境中的主要信息并减少了冗余信息；然后智能体以在有限时间内最大化车辆通行全局速度为目标，根据所选策略对交通环境的影响，利用强化学习算法不断修正其内部参数；最后，通过多次迭代，智能体学会如何有效地控制交通。在微观交通仿真软件Vissim中进行的实验表明，对比其他基于深度强化学习的算法，所提算法在全局平均速度、平均等待队长以及算法稳定性方面展现出更好的结果。其中，与基线相比，平均速度提高9%，平均等待队长降低约13.4%。实验结果证明该方法能够适应动态变化的复杂的交通环境。相似文献

19.

Nonlinear control of coal-fired steam power plants

《Control Engineering Practice》2017

This work proposes a nonlinear control strategy for steam power plants that efficiently controls the superheated steam temperature while accommodating large and frequent variations in power demand. The variables to be controlled are the pressure in the boiler, power generation, and superheater/reheater temperatures. The proposed strategy decomposes the overall plant into three separate subsystems and applies decoupling with deadtime compensation for each one of them. The derived strategy is implemented within a MATLAB/Simulink environment for different setpoint tracking and disturbance rejection cases, showing excellent performance and robustness. 相似文献