期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

武曲张义郭坤王玺《小型微型计算机系统》2021,(2):334-339

在路径规划领域已经涌现出了诸多的优秀的经典算法,但这些传统方法往往基于静态环境,对于动态可变环境缺乏处理能力.本文提出一种结合LSTM强化学习动态环境路径规划算法.首先,本文以环境图像作为输入,最大限度了保证了原始的信息来源.而后构建了自动编码器用来对环境图像进行特征降维,降低了整体模型的复杂程度.最后采用深度强化学习算法DDPG进行路径规划,其中Actor部分采用LSTM的网络构建,使Actor在决策时可以参考前序信息,做到有预测的避开动态障碍.最后通过实验证明了本文算法的可行性和高效性. 相似文献

2.

基于随机方差减小方法的DDPG算法

下载免费PDF全文

杨薛钰陈建平傅启明陆悠吴宏杰《计算机工程与应用》2021,57(19):104-111

针对深度确定性策略梯度算法（DDPG）收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法（SVR-DDPG）。该算法通过利用随机方差减小梯度技术（SVRG）提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。相似文献

3.

基于DDPG算法的微网负载端接口变换器自抗扰控制

下载免费PDF全文

周雪松张心茹赵浛宇王博赵明问虎龙《电力系统保护与控制》2023,51(21):66-75

直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法整定线性自抗扰控制器参数的方法。依靠引入了智能算法的自抗扰微电网控制系统,实现了控制器参数的自适应调整,从而实现了微电网接口变换器的稳定运行。通过仿真对比了各类典型工况下,DDPG-LADRC与传统线性自抗扰控制器(linear active disturbance rejection control, LADRC)、双闭环比例-积分控制器的性能差异,验证了所提控制策略的有效性。而参数摄动下的鲁棒性分析结果结合多项指标下的系统整体性分析,充分体现了控制器参数的智能化调整所带来的多工况自适应性增益的优越性,具备较强的工程价值。相似文献

4.

基于DDPG的柔性伺服系统级联陷波器设计

下载免费PDF全文

钟靖龙宋宝刘永兴徐必业《微电机》2022,(5):40-44+61

针对柔性伺服系统的多频谐振抑制问题,提出一种基于DDPG的级联陷波器参数整定方法。以系统速度环开环bode图及陷波器bode图预处理结果作为训练数据,并以相位裕度作为奖励函数训练神经网络,实现所设计的伺服系统级联陷波器深度及宽度参数优化训练。搭建了三质量柔性伺服系统实验平台,并开展了多频谐振抑制实验,实验结果表明所提出的参数选择方法能够找到具有最大相位裕度的陷波器参数,并有效地抑制系统多频谐振。相似文献

5.

基于深度强化学习的机械臂控制快速训练方法

赵寅甫冯正勇《计算机工程》2022,48(8):113-120

人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型（2D模型）再复杂模型（3D模型）的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。相似文献

6.

双掺杂多晶Si栅MOSFET的截止频率研究

齐锐代月花陈军宁李俊生《半导体技术》2010,35(6):534-537

在前期对双掺杂多晶Si栅(DDPG)LDMOSFET的电场、阈值电压、电容等特性所作分析的基础上,仍然采用双掺杂多晶Si栅结构,以低掺杂漏/源MOS(LDDMOS)为基础,重点研究了DDPG-LDDMOSFET的截止频率特性.通过MEDICI软件,模拟了栅长、栅氧化层厚度、源漏区结深、衬底掺杂浓度以及温度等关键参数对器件截止频率的影响,并与相同条件下P型单掺杂多晶Si栅(p-SDPG)MOSFET的频率特性进行了比较.仿真结果发现,在栅长90 nm、栅氧厚度2 nm,栅极P,n掺杂浓度均为5×1019cm-3条件下,截止频率由78.74 GHz提高到106.92 GHz,幅度高达35.8%.此结构很好地改善了MOSFET的频率性能,得出的结论对于结构的设计制作和性能优化具有一定的指导作用,在射频领域有很好的应用前景. 相似文献

7.

复合多晶硅栅LDD MOSFET制造工艺研究

方磊代月花陈军宁《微电子学》2011,41(3)

通过工艺模拟软件TSUPREM,设计了一种复合多晶硅栅(DDPG-MOS FET)的制造工艺,并使用MEDICI软件对采用该工艺的器件的频率特性和瞬态特性进行分析。结果表明,DDPG-MOS制造工艺简单、完全与CMOS工艺兼容,其结构明显改善了传统MOSFET的多项性能,在射频领域具有很好的应用前景。相似文献

8.

基于奖励预测误差的内在好奇心方法

谭庆李辉吴昊霖王壮邓书超《计算机应用》2022,42(6):1822-1828

针对状态预测误差直接作为内在好奇心奖励,在状态新颖性与奖励相关度低的任务中强化学习智能体不能有效探索环境的问题,提出一种基于奖励预测误差的内在好奇心模块（RPE-ICM）。RPE-ICM利用奖励预测误差网络（RPE-Network）学习并修正状态预测误差奖励,并将奖励预测误差（RPE）模型的输出作为一种内在奖励信号去平衡探索过度与探索不足,使得智能体能够更有效地探索环境并利用奖励去学习技能,从而达到更好的学习效果。在不同的MuJoCo环境中使用RPE-ICM、内在好奇心模块（ICM）、随机蒸馏网络（RND）以及传统的深度确定性策略梯度（DDPG）算法进行对比实验。结果表明,相较于传统DDPG、ICM-DDPG以及RND-DDPG,基于RPE-ICM的DDPG算法的平均性能在Hopper环境中分别提高了13.85%、13.34%和20.80%。相似文献

9.

基于DDPG的综合化航电系统多分区任务分配优化方法

赵长啸李道俊汪鹏辉田毅《电讯技术》2024,64(1):58-66

综合化航电系统（Integrated Modular Avionics,IMA）通过时空分区机制实现共享资源平台下的多航电功能集成,分区间的任务分配方法的优劣决定着航电系统的整体效能。针对航电任务集合在多分区内的分配调度问题,提出了一种基于深度强化学习的优化方法。构建了航电系统模型与任务模型,以系统资源限制与任务实时性需求为约束,以提高系统资源利用率为优化目标,将任务分配过程描述为序贯决策问题。引入马尔科夫决策模型,建立基于深度确定性策略梯度（Deep Deterministic Policy Gradient,DDPG）法的IMA任务分配模型并提出通用分配架构;引入状态归一化、行为噪声等策略训练技巧,提高DDPG算法的学习性能和训练能力。仿真结果表明,提出的优化算法迭代次数达到500次时开始收敛,分析800次之后多分区内驻留任务方案在能满足约束要求的同时,最低处理效率提升20.55%。相较于传统分配方案和AC(Actor-Critic)算法,提出的DDPG算法在收敛能力、优化性能以及稳定性上均有显著优势。相似文献

10.

基于深度强化学习的端到端无人驾驶决策

黄志清曲志伟张吉张严心田锐《电子学报》2000,48(9):1711-1719

端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG（Deep Deterministic Policy Gradient）的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息（如车辆转角,车辆速度,道路距离等）作为输入状态,输出车辆驾驶动作（加速,刹车,转向）的连续型控制量.然后在TORCS（The Open Racing Car Simulator）平台下不同的行驶环境中进行训练并验证,结果表明该模型可以实现端到端的无人驾驶决策.最后与离散型动作输出的DQN（Deep Q-learning Network）模型进行对比分析,实验结果表明DDPG决策模型具有更优越的决策控制效果. 相似文献