首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 302 毫秒
1.
为满足自适应巡航系统跟车模式下的舒适性需求并兼顾车辆安全性和行车效率,解决已有算法泛化性和舒适性差的问题,基于深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),提出一种新的多目标车辆跟随决策算法.根据跟随车辆与领航车辆的相互纵向运动学特性,建立车辆跟随过程的马尔可夫决策过程(Markov decision process,MDP)模型.结合最小安全距离模型,设计一个高效、舒适、安全的车辆跟随决策算法.为提高模型收敛速度,改进了DDPG算法经验样本的存储方式和抽取策略,根据经验样本重要性的不同,对样本进行分类存储和抽取.针对跟车过程的多目标结构,对奖赏函数进行模块化设计.最后,在仿真环境下进行测试,当测试环境和训练环境不同时,依然能顺利完成跟随任务,且性能优于已有跟随算法.  相似文献   

2.
强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量.  相似文献   

3.
区别于传统深度强化学习中通过从经验回放单元逐个选择的状态转移样本进行训练的方式,针对采用整个序列轨迹作为训练样本的深度Q网络(Deep Q Network,DQN),提出基于遗传算法的交叉操作扩充序列样本的方法.序列轨迹是由智能体与环境交互的试错决策过程中产生,其中会存在相似的关键状态.以两条序列轨迹中的相似状态作为交叉点,能产生出当前未出现过的序列轨迹,从而达到扩充序列样本数量、增大序列样本的多样性的目的,进而增加智能体的探索能力,提高样本效率.与深度Q网络随机采样训练样本和采用序列样本向后更新的算法(Episodic Backward Update,EBU)进行对比,所提出的方法在Playing Atari 2600视频游戏中能取得更高的奖赏值.  相似文献   

4.
王星  杜伟  陈吉  陈海涛 《控制与决策》2020,35(8):1887-1894
作为样本生成的重要方法之一,生成式对抗网络(GAN)可以根据任意给定数据集中的数据分布生成样本,但它在实际的训练过程中存在生成样本纹理模糊、训练过程不稳定以及模式坍塌等问题.针对以上问题,在深度卷积生成式对抗网络(DCGAN)的基础上,结合残差网络,设计一种基于深度残差生成式对抗网络的样本生成方法RGAN.该样本生成方法利用残差网络和卷积网络分别构建生成模型和判别模型,并结合正负样本融合训练的学习优化策略进行优化训练.其中:深度残差网络可以恢复出丰富的图像纹理;正负样本融合训练的方式可以增加对抗网络的鲁棒性,有效缓解对抗网络训练不稳定和模式坍塌现象的发生.在102 Category Flower Dataset数据集上设计多个仿真实验,实验结果表明RGAN能有效提高生成样本的质量.  相似文献   

5.
由深度学习(deep learning, DL)和强化学习(reinforcement learning, RL)结合形成的深度强化学习(deep reinforcement learning, DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.  相似文献   

6.
深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智能体完成战术机动,实现绕过障碍物抵达优势区域进行射击等战术行为,算法拥有更快的收敛速度和更好的稳定性,可得到更高的回合奖励,达到了提高智能军事决策效率的目的。  相似文献   

7.
为了解决多智能体协同训练过程中的团队奖励稀疏导致样本效率低下、无法进行有效探索以及对参数敏感的问题,本研究在MAPPO算法的基础上引入了分阶段的思想,提出了基于多阶段强化学习的多智能体协同算法MSMAC。该算法将训练划分为2个阶段:一是构建基于进化策略优化的单智能体策略网络,二是对多智能体策略网络进行协同训练。在多智能体粒子环境下的实验结果表明,基于多阶段的强化学习算法不仅提升了协作性能,而且提高了样本的训练效率和模型的收敛速度。  相似文献   

8.
张建行  刘全 《计算机科学》2021,48(10):37-43
强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法.首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储.然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量.在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Op-timization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较.实验结果表明,EER-DDPG方法有更好的性能表现.  相似文献   

9.
赵英男  刘鹏  赵巍  唐降龙 《自动化学报》2019,45(10):1870-1882
实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样本所在序列的累积回报对深度Q网络训练有影响.累积回报大的序列中的样本相对于累积回报小的序列中的样本更能加速深度Q网络的收敛速度,并提升策略的质量.本文提出深度Q学习的二次主动采样方法.首先,根据序列累积回报的分布构造优先级对经验池中的序列进行采样.然后,在已采样的序列中根据样本的TD-error(Temporal-difference error)分布构造优先级对样本采样.随后用两次采样得到的样本训练深度Q网络.该方法从序列累积回报和TD-error两个方面选择样本,以达到加速深度Q网络收敛,提升策略质量的目的.在Atari平台上进行了验证.实验结果表明,用经过二次主动采样得到的样本训练深度Q网络取得了良好的效果.  相似文献   

10.
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.  相似文献   

11.
提高区块链系统吞吐量是广泛应用区块链的关键问题之一。针对以上问题,将分片技术应用到区块链系统中,通过使区块链并行处理事务提高区块链的吞吐量。将区块链分片选择问题建立为马尔科夫决策过程(Markov decision process,MDP),并设计了基于深度强化学习(deep reinforcement learning,DRL)的区块链分片最优选择策略(branching dueling Q-network shard-based blockchain,BDQSB)。所采用的BDQSB算法克服了传统DRL算法行为空间维度高、神经网络难以训练的缺点。仿真实验结果表明,所提出的方法可以有效降低行为空间维度,提高区块链处理事务的吞吐量和可扩展性。  相似文献   

12.
小基站的密集随机部署会产生严重干扰和较高能耗问题,为降低网络干扰、保证用户网络服务质量(QoS)并提高网络能效,构建一种基于深度强化学习(DRL)的资源分配和功率控制联合优化框架。综合考虑超密集异构网络中的同层干扰和跨层干扰,提出对频谱与功率资源联合控制能效以及用户QoS的联合优化问题。针对该联合优化问题的NP-Hard特性,提出基于DRL框架的资源分配和功率控制联合优化算法,并定义联合频谱和功率分配的状态、动作以及回报函数。利用强化学习、在线学习和深度神经网络线下训练对网络资源进行控制,从而找到最佳资源和功率控制策略。仿真结果表明,与枚举算法、Q-学习算法和两阶段算法相比,该算法可在保证用户QoS的同时有效提升网络能效。  相似文献   

13.
季颖  王建辉 《控制与决策》2022,37(7):1675-1684
提出一种基于深度强化学习的微电网在线优化调度策略.针对可再生能源的随机性及复杂的潮流约束对微电网经济安全运行带来的挑战,以成本最小为目标,考虑微电网运行状态及调度动作的约束,将微电网在线调度问题建模为一个约束马尔可夫决策过程.为避免求解复杂的非线性潮流优化、降低对高精度预测信息及系统模型的依赖,设计一个卷积神经网络结构学习最优的调度策略.所提出的神经网络结构可以从微电网原始观测数据中提取高质量的特征,并基于提取到的特征直接产生调度决策.为了确保该神经网络产生的调度决策能够满足复杂的网络潮流约束,结合拉格朗日乘子法与soft actor-critic,提出一种新的深度强化学习算法来训练该神经网络.最后,为验证所提出方法的有效性,利用真实的电力系统数据进行仿真.仿真结果表明,所提出的在线优化调度方法可以有效地从数据中学习到满足潮流约束且具有成本效益的调度策略,降低随机性对微电网运行的影响.  相似文献   

14.
In this paper, a simulation optimization method for scheduling loading operations in container terminals is developed. The method integrates the intelligent decision mechanism of optimization algorithm and evaluation function of simulation model, its procedures are: initializing container sequence according to certain dispatching rule, then improving the sequence through genetic algorithm, using simulation model to evaluate objective function of a given scheduling scheme. Meanwhile, a surrogate model based on neural network is designed to predict objective function and filter out potentially bad solutions, thus to decrease the times of running simulation model. Numerical tests show that simulation optimization method can solve the scheduling problem of container terminals efficiently. And the surrogate model can improve the computation efficiency of simulation optimization.  相似文献   

15.
周奚  薛善良 《计算机科学》2016,43(Z11):21-25
综合粗糙集理论和人工神经网络的优点,提出了改进的粗糙集理论算法,并结合人工神经网络,实现了一种无线传感器网络(Wireless Sensor Network,WSN)节点智能故障诊断方法。首先基于WSN的应用环境和故障特征的分析,通过数据采集、数据预处理和数据压缩来获得诊断决策表,并利用粗糙集中改进的归纳属性约简算法(Improved Inductive Attribute Reduction Algorithm,IIARA)对决策表进行属性约简,从而提取对故障诊断贡献最大的最小故障诊断特征集合,进而确定后端径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)的拓扑结构。最后通过网络训练建立故障征兆与故障类型之间的非线性映射关系,得到诊断结果。仿真实验结果显示,该诊断算法在对WSN节点进行故障诊断时,可以有效地减少网络输入层个数,简化神经网络结构,减少网络的训练时间,提高模型的诊断准确性。  相似文献   

16.
Distributed manufacturing plays an important role for large-scale companies to reduce production and transportation costs for globalized orders. However, how to real-timely and properly assign dynamic orders to distributed workshops is a challenging problem. To provide real-time and intelligent decision-making of scheduling for distributed flowshops, we studied the distributed permutation flowshop scheduling problem (DPFSP) with dynamic job arrivals using deep reinforcement learning (DRL). The objective is to minimize the total tardiness cost of all jobs. We provided the training and execution procedures of intelligent scheduling based on DRL for the dynamic DPFSP. In addition, we established a DRL-based scheduling model for distributed flowshops by designing suitable reward function, scheduling actions, and state features. A novel reward function is designed to directly relate to the objective. Various problem-specific dispatching rules are introduced to provide efficient actions for different production states. Furthermore, four efficient DRL algorithms, including deep Q-network (DQN), double DQN (DbDQN), dueling DQN (DlDQN), and advantage actor-critic (A2C), are adapted to train the scheduling agent. The training curves show that the agent learned to generate better solutions effectively and validate that the system design is reasonable. After training, all DRL algorithms outperform traditional meta-heuristics and well-known priority dispatching rules (PDRs) by a large margin in terms of solution quality and computation efficiency. This work shows the effectiveness of DRL for the real-time scheduling of dynamic DPFSP.  相似文献   

17.
为了解决交叉路口场景下无人驾驶决策模型成功率低,模型不稳定,车辆通行效率低的问题,从两个方面对TD3算法作出改进,提出了基于GA-TD3算法的交叉路口决策模型。首先引入记忆模块,使用GRU神经网络来提升决策模型的成功率;其次在状态空间引入社会注意力机制,更加关注与社会车辆的交互行为,保证模型稳定性的同时提升车辆的通行效率。采用CARLA仿真器进行20 000回合的模型训练后,TD3算法通过路口的成功率为92.4%,GA-TD3算法的成功率为97.6%,且车辆的通行时间缩短了3.36 s。GA-TD3算法模型在学习效率和通行效率上均有所提升,从而缓解城市中的交通压力,提高驾驶效率。  相似文献   

18.
从知识发现和数据挖掘的角度,利用粗糙集和BP神经网络的基本理论和方法,建立基于粗糙集和BP神经网络的核心企业绩效改进决策模型框架结构,并给出其中的基于分辨矩阵的指标约简方法和基于梯度的BP算法。最后结合一个实例,首先对其基于平衡记分卡的指标体系进行了约简,然后将约简的评价指标输入到BP神经网络中进行智能训练,并与未进行指标约简的训练结果进行了对照分析,二者结果基本一致。在此基础上,依据指标的权重,提出核心企业绩效改进的决策意见和措施。  相似文献   

19.
目前在战略指挥员决策行为研究方面存在着定性描述多、定量分析少的问题,部分理论研究成果检验性差、可信度低。因此,合理设计战略指挥员智能决策算法,建模战略指挥员决策过程,通过计算机仿真剖析决策特点和规律,分析预测决策方案选择,将是增强纯理论研究成果可信度的有力支撑。为此,该文从计算机工程实现的角度出发,把战略指挥员实际决策过程在逻辑上划分为客观决策、主观决策和决策调整三个阶段,给出了各个阶段中基于CBR和BP神经网络技术的智能决策子算法,并对各个子算法实现中所需的基础数据源,即战略决策基础案例库和战略指挥员决策行为案例库进行了详细的讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号