期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

唐恒亮唐滋芳董晨刚尹棋正海秋茹《北京工业大学学报》2021,47(8):895-903

针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势. 相似文献

2.

多AGV的路径规划与任务调度研究

于会群王意乐黄贻海《上海电力学院学报》2022,38(1):89-93,97

自动化分拣仓储包含大量的分拣任务, 需要多个自动导引车(AGV)来辅助人工完成快速分拣任务。为了提高效率, 在保障AGV电量的前提下, 以AGV完成任务的空载时间与AGV的空置率为优化目标, 对多AGV的碰撞进行了冲突分析, 并通过改进的Q-learning算法来生成AGV的无冲突搬运路径; 为了完成多AGV路径和调度综合优化, 提出了一种改进遗传算法, 算法采用精英保留和轮盘赌的方式选择个体, 运用自适应的交叉和变异算子来进行进化操作。最后, 通过仿真验证了算法的有效性。相似文献

3.

基于UCB算法的交替深度Q网络

下载免费PDF全文

吴卿源谭晓阳《南京师范大学学报》2022,(1):024-29

在深度强化学习中,智能体需要与环境进行交互学习,这就需要智能体能够很好地去平衡利用与探索. 因此如何提升算法的样本有效性,增加算法的探索能力,一直是深度强化学习领域中非常重要的研究方向. 结合已有研究成果,提出了一种交替使用多个不同初始化深度Q网络方法,使用网络随机初始化带来的探索性能. 基于最大置信度上界算法先构造一种交替选择深度Q网络策略. 并将该调度网络策略与多个随机初始化的深度Q网络结合,得到基于最大置信度上界的交替深度Q网络算法. 在多个不同的标准强化学习实验环境上的实验结果表明,该算法比其他基准算法有更高的样本效率和算法学习效率. 相似文献

4.

复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策

殷辰堃纪宏萱张严心《北京工业大学学报》2023,(4):403-414

机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于SAC的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性. 相似文献

5.

基于混合教-学算法的汽车装配线物料供应调度

周炳海彭涛《浙江大学学报(工学版)》2018,52(10):1854-1863

针对汽车装配线的物料调度问题,以装配线不缺货为约束,构建多设备联合配送的准时化物料供应模型.开展问题域的描述,以优化规划期内的线边库存水平为目标,构建数学规划模型.基于标准教-学算法（TLBO）的框架,提出求解这一复杂组合优化问题的混合教-学算法（HTLBO）.根据问题的特点,设计特定的编码与解码方法,确定各个设备的配送任务及排序.通过融合交换、反转和插入变异算子,构建局部搜索流程,以强化算法的全局开发能力.结合问题的性质,提出基于束搜索技术的剪枝方法,以强化算法的深度寻优能力.开展仿真实验,测试结果验证了该调度算法的可行性和有效性. 相似文献

6.

基于DRL的MEC任务卸载与资源调度算法

薛宁霍如曾诗钦汪硕黄韬《北京邮电大学学报》2019,42(6):64-69,104

为提高多接入边缘计算（MEC）任务卸载效率,提出了一个任务卸载和异构资源调度的联合优化模型.考虑异构的通信资源和计算资源,联合最小化用户的设备能耗、任务执行时延和付费,并利用深度强化学习（DRL）算法对该模型求最优的任务卸载算法.仿真结果表明,该优化算法比银行家算法的设备能耗、时延和付费的综合指标提升了27.6%. 相似文献

7.

基于博弈论与强化学习的多智能体路径规划算法

熊文博郭磊焦彤宇《深圳大学学报(理工版)》2024,(3):274-282

针对平面上多个智能体构成的路径规划求解算法普遍存在的速度慢效率低等问题进行研究,将多智能体路径规划问题归结为非零和随机博弈,使用多智能体强化学习算法赢或快速学习-策略爬山（win or learn fast-policy hill-climbing, WoLF-PHC）得到纳什均衡策略,为各智能体做出无冲突的最优路径决策,提出能够快速自适应的WoLF-PHC(fast adaptive WoLF-PHC, FA-WoLF-PHC)算法,通过构建目标函数,使用梯度下降对学习率进行自适应更新．在猜硬币和自定义收益矩阵2个博弈场景中使用FA-WoLF-PHC,并与策略爬山（policy hill-climbing, PHC）算法和Wolf-PHC算法进行比较．结果表明,FA-WoLF-PHC算法的学习速度较WoLF-PHC算法有所提升,并有效减小了WoLF-PHC算法和PHC算法在学习过程中出现的振荡现象．在多智能体路径规划问题中,FA-WoLF-PHC算法的学习速度比WoLF-PHC算法提高了16.01%．将路径规划问题的环境栅格地图扩大为6×6,智能体数量增加为3个时,FA-WoLF-P... 相似文献

8.

基于改进指针网络的卫星对地观测任务规划方法

马一凡赵凡宇王鑫金仲和《浙江大学学报(工学版)》2021,55(2):395-401

针对卫星观测任务规划问题约束复杂、求解空间大和输入任务序列长度不固定的特点,使用深度强化学习（DRL）方法对卫星观测任务规划问题进行求解. 综合考虑时间窗口约束、任务间转移机动时间和卫星电量、存储约束,对卫星观测任务规划问题进行建模. 基于指针网络（PN）的运行机制建立序列决策算法模型,使用Mask向量来考虑卫星观测任务规划问题中的各类约束,并通过Actor Critic强化学习算法对模型进行训练,以获得最大的收益率. 借鉴多头注意力（MHA）机制的思想对PN进行改进,提出多头注意力指针网络（MHA-PN）算法. 根据实验结果可以看出,MHA-PN算法显著提高了模型的训练速度和泛化性能,训练好的MHA-PN算法模型可以直接对输入序列进行端到端的推理,避免传统启发式算法迭代求解的过程,具有较高的求解效率. 相似文献

9.

深度强化学习智能驾驶汽车增广决策模型

田彦涛季言实唱寰谢波《吉林大学学报(工学版)》2023,(3):682-692

针对状态机决策模型不能有效处理冰雪环境下丰富的上下文信息和不确定因素影响等问题,构建了一种基于深度Q网络算法（DQN）的深度强化学习智能体。使用运动规划器对该智能体进行增广,将基于规则的决策规划模块和深度强化学习模型整合在一起,建立了DQN-planner模型,从而提高了强化学习智能体的收敛速度和驾驶能力。最后,基于CARLA模拟仿真平台对DQN模型和DQN-planner模型在低附着系数冰雪路面上的驾驶能力进行了对比实验,分别就训练过程和验证结果进行了分析。相似文献

10.

基于强化学习的多智能体协作实现

陈雪江杨东勇《浙江工业大学学报》2004,32(5):516-520

基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题.本文提出了多智能体协作的两层强化学习方法.该方法主要通过在单个智能体中构筑两层强化学习单元来实现.第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略.所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好. 相似文献

11.

基于全局视觉的车间AGV手势调度系统设计

李晓帆刘泽平陈世海麻方达姚明杰符朝兴《青岛大学学报(工程技术版)》2023,(1):34-42

针对传统的自动导引运输车(automated guided vehicle, AGV)调度方式在半自动生产车间不能满足当前实际生产需求等问题，本文以YOLOv5m为目标检测算法，基于全局视觉构建环境电子地图与路径规划，建立一种基于全局视觉的实时AGV手势调度系统。该系统在全局视觉下通过实时检测工作人员的手势，将手势信息传达给系统信息处理模块，经过解释器处理后，根据不同的手势向AGV发送相应的命令。同时，为验证目标检测的准确率，在全局视觉环境下，基于YOLOv5算法和PyTorch,建立深度学习框架训练目标检测模型，并进行实验验证。实验结果表明，AGV的识别准确率为99.9%,手势的识别准确率为99.7%,且二者检测的置信度均处于0.91～0.99之间，说明模型的检测速度符合实际要求。该系统节省了人力，提高了AGV调度效率，功能和实时性均满足车间实际生产需求，具备良好的稳定性。该研究实现了车间AGV的智能化手势调度，具有一定的实际应用价值。相似文献

12.

正交多智能体算法求解管网直接优化调度模型 总被引：1，自引：0，他引：1

陈磊张土乔《哈尔滨工业大学学报》2008,40(4):644-649

针对传统遗传算法存在高维空间寻优能力较差的问题,提出采用正交多智能体算法求解管网直接优化调度模型.对智能体的随机初始种群进行正交操作,得到较优初始种群,通过智能体的竞争和自学习,找到较优解.结果表明:与正交自适应遗传算法相比,正交多智能体算法具有更强全局搜索能力和更快寻优速度,并且正交多智能体算法优化方案较大提高了水泵运行效率,可节电2.96%. 相似文献

13.

基于MAS的AGVS分布式作业调度方法

邹敢牛林刘祥明《河南理工大学学报(自然科学版)》2016,(4):533-538

针对自动导引车传统集中式作业调度方法存在可靠性差、信息传输效率低和难以应用于大规模系统的问题,提出一种基于多智能体系统(MAS)技术的分布式作业调度方法,详细设计自动导引车系统作业调度问题的MAS模型体系结构、各智能体的行为、协商机制、竞拍值计算等MAS的相关要素,提出允许小车智能体间交换任务和任务智能体有条件重新拍卖的方法来优化调度方案。通过仿真对所提出的方法进行了验证,结果表明,相比传统调度方法,本文提出的方法具有更好的环境适应性、更稳定的综合性能。相似文献

14.

基于改进强化学习的多智能体追逃对抗

薛雅丽叶金泽李寒雁《浙江大学学报(工学版)》2023,(8):1479-1486+1515

针对多智能体追逃问题，提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法（MADDPG）和双延迟-确定策略梯度算法（TD3）相结合，提出多智能体双延迟-确定策略梯度算法（MATD3）.针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题，提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数，将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励，提出DEPER-MATD3算法.基于此算法设计仿真实验，并与其他算法对比，实验结果表明，该算法有效解决了过估计问题，且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高，追击者有更大的概率追击到逃逸者. 相似文献

15.

一种集群通信的多智能体强化学习算法

《沈阳理工大学学报》2021,(4)

人工智能中的许多任务需要多个智能体的协作,而智能体间有效通信是进行高效协作不可或缺的一步。为保证智能体间的通信高效,提出一种集群通信的多智能体强化学习算法MACDDPG,采用一种智能体集群机制将每个智能体分成不同的智能体群,只允许智能体群内部的智能体进行通信;为加速收敛,采用集中训练、分散执行的框架;以多智能体粒子环境MPE为测试环境,设置多个不同的智能体相互协作来共同完成的任务。实验表明:在MPE环境中的4种任务场景下,使用MACDDPG算法比使用其他算法得分更高,且收敛速度更快;通过消融实验验证了MACDDPG算法中集群模块的有效性。相似文献

16.

基于多智能体Q学习算法的能源互联园区协调调度

黄文杰崔雪陈君饶云杰《武汉大学学报(工学版)》2022,(11):1141-1148

针对能源互联园区中各主体利益诉求不同以至于难以协调调度的问题,提出了基于多智能体Q学习算法的能源互联园区协调调度方法。首先,将能源互联园区主体划分为5个智能体;其次,构建了各智能体的决策模型,并确立了以智能体之间利益均衡为目标的目标函数;最后,以某能源互联园区为算例进行仿真,利用Q学习算法进行求解,在能源供应商、可再生能源服务商、电动汽车收益最大以及园区能源服务商成本最低时,达到利益均衡点,得到园区各设备和负荷的出力、需求分布,即为园区协调调度下的最优均衡运行策略。算例结果表明,所提方法的有效性和实用性可为未来能源互联园区的调度提供参考。相似文献

17.

一类功能型布局制造系统调度问题

孔继利苑春荟杨福兴贾国柱《北京邮电大学学报》2015,38(3):55-60

为有效对功能型布局制造系统进行调度,构建批量零件的加工与搬运时间模型,设计考虑了搬运车辆总投入数量、搬运次数均衡程度、搬运车辆总空载转移时间等指标的基于单运输工序的搬运车辆协作调度算法. 研究结果表明,本算法可为同类型批量零件制定精确的生产与搬运作业计划,生成用于支撑搬运车辆调度算法所需的时间信息;可对搬运车辆进行准确调度,特别是与其他搬运车辆调度算法相比,在搬运车辆总投入数量、搬运次数均衡程度等方面具有明显优势. 相似文献

18.

Soft-HGRNs:用于多智能体部分可观察场景的随机性层次图递归网络（英文）

任一翔叶振辉陈弈宁姜晓红宋广华《信息与电子工程前沿(英文版)》2023,(1):117-131

近年来,多智能体深度强化学习（multi-agent deep reinforcement learning, MADRL）的研究进展使其在现实世界的任务中更加实用,但其相对较差的可扩展性和部分可观测的限制为MADRL模型的性能和部署带来了更多的挑战。人类社会可以被视为一个大规模的部分可观测环境,其中每个人都具备与他人交流并记忆经验的功能。基于人类社会的启发,我们提出一种新的网络结构,称为层次图递归网络（hierarchicalgraphrecurrent network,HGRN）,用于部分可观测环境下的多智能体合作任务。具体来说,我们将多智能体系统构建为一个图,利用新颖的图卷积结构来实现异构相邻智能体之间的通信,并采用一个递归单元来使智能体具备记忆历史信息的能力。为了鼓励智能体探索并提高模型的鲁棒性,我们进而设计一种最大熵学习方法,令智能体可以学习可配置目标行动熵的随机策略。基于上述技术,我们提出一种名为Soft-HGRN的基于值的MADRL算法,及其名为SAC-HGRN的actor-critic变体。在三个同构场景和一个异构环境中进行实验;实验结果不仅表明我们的方法相比四个MAD... 相似文献

19.

基于深度强化学习架构的多能互补微网日前经济调度研究

罗永建刘承锡董旭柱《武汉大学学报(工学版)》2023,(11):1393-1404

可再生能源出力和负荷的不确定性给多能互补微网的优化调度带来挑战,传统方法如随机优化和模型预测控制等需要精确的模型参数。针对含源荷不确定性的多能互补微网日前优化调度问题,提出了基于柔性行动器-评判器框架的深度强化学习方法,实现了自适应源荷不确定特征的微网经济调度。首先,考虑设备非线性效率,建立了多能互补微网的优化调度数学模型;其次,基于柔性行动器-评判器构建了智能体和环境交互的深度强化学习框架,并设计了状态空间、动作空间、奖励函数和神经网络结构;最后,通过算例仿真验证了算法的有效性。相似文献

20.

离散制造智能工厂场景的AGV路径规划方法

下载免费PDF全文

郭心德丁宏强《广东工业大学学报》2021,38(6):70-76

自动导引车(Automated Guided Vehicle, AGV)的自主路径规划是离散制造智能工厂中物流系统的重要组成部分, AGV可以大大提高离散智能制造的智能化和自动化能力, 而传统的AGV导航方式自由度较低。本文研究面向离散制造智能工厂场景下的AGV自主路径规划问题, 应用深度强化学习方法提高自主路径规划的自由度。设计了一种多模态环境信息感知的神经网络结构, 并将AGV在全局障碍下的路径规划预训练策略引入到复杂的离散制造智能工厂场景下的路径规划, 实现了AGV从环境感知到动作决策的端到端路径规划。实验结果表明, 采用本文提出算法的AGV能够在复杂的离散制造智能工厂环境进行自主规划路径, 并具有较高的成功率和避障能力。相似文献