期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

童亮陆际联《计算机测量与控制》2005,13(2):174-176

为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。相似文献

2.

多智能体深度强化学习的图像特征分类方法

张泽崴张建勋邹航李林南海《计算机工程与应用》2024,(7):222-228

为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个移动的同构智能体去收集部分图像信息,并研究智能体如何形成对图像的局部理解并采取行动,以及如何从局部观察的图像中提取相关特征并分类,以此降低数据复杂性和过滤掉不相关数据。通过改进的值函数分解方法训练智能体策略网络,对环境的全局回报按照每个智能体的贡献进行拆分,解决智能体的信度分配问题。该方法在MNIST手写数字数据集和NWPU-RESISC45遥感图像数据集上进行了验证,相比基线算法能够学习到更加有效的联合策略,分类过程拥有更好的稳定性,同时精确率也有提升。相似文献

3.

基于值分解的多目标多智能体深度强化学习方法

宋健王子磊《计算机工程》2023,49(1):31-40

多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该方法是否能够充分地衡量各智能体之间的关系、区分合作和竞争动作,同时也需要解决高维数据的处理以及算法效率等应用难点。针对多目标多智能体合作场景,在QMIX模型的基础上提出一种基于目标的值分解深度强化学习方法,并使用注意力机制衡量智能体之间的群体影响力,利用智能体的目标信息实现量两阶段的值分解,提升对复杂智能体关系的刻画能力,从而提高强化学习方法在多目标多智能体合作场景中的性能。实验结果表明,相比QMIX模型,该方法在星际争霸2微观操控平台上的得分与其持平,在棋盘游戏中得分平均高出4.9分,在多粒子运动环境merge和cross中得分分别平均高出25分和280.4分,且相较于主流深度强化学习方法也具有更高的得分与更好的性能表现。相似文献

4.

基于值分解的多智能体深度强化学习综述

熊丽琴曹雷赖俊陈希亮《计算机科学》2022,(9):172-182

基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类：简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。相似文献

5.

基于多智能体深度强化学习的协作导航应用

马佩鑫程钰侯健范庆来《计算机系统应用》2023,32(8):95-104

多机器人协作导航目前广泛应用于搜索救援、物流等领域, 协作策略与目标导航是多机器人协作导航面临的主要挑战. 为提高多个移动机器人在未知环境下的协作导航能力, 本文提出了一种新的分层控制协作导航(hierarchical control cooperative navigation, HCCN) 策略, 利用高层目标决策层和低层目标导航层, 为每个机器人分配一个目标点, 并通过全局路径规划和局部路径规划算法, 引导智能体无碰撞地到达分配的目标点. 通过Gazebo平台进行实验验证, 结果表明, 文中所提方法能够有效解决协作导航过程中的稀疏奖励问题, 训练速度至少可提高16.6%, 在不同环境场景下具有更好的鲁棒性, 以期为进一步研究多机器人协作导航提供理论指导, 应用至更多的真实场景中. 相似文献

6.

一种多智能体系统中的协作机制

景博李剑钱越英《计算机工程与应用》2005,41(4):96-98

在多智能体系统MAS中,自治的agent在完成任务时常常会出现任务重叠的“正交互”现象,从而使得系统效率低下。为了解决这一问题,文章提出了一种agent协作机制,采用最短路径的方法来找出agent最优的合作对象,优化整个系统处理问题的能力。实验证明该方法是有效的。相似文献

7.

增强协作多智能体强化学习中的全局信用分配机制

姚兴虎宋光鑫《计算技术与自动化》2021,40(1):149-154

针对协作多智能体强化学习中的全局信用分配机制很难捕捉智能体之间的复杂协作关系及无法有效地处理非马尔可夫奖励信号的问题,提出了一种增强的协作多智能体强化学习中的全局信用分配机制。首先,设计了一种新的基于奖励高速路连接的全局信用分配结构,使得智能体在决策时能够考虑其所分得的局部奖励信号与团队的全局奖励信号;其次,通过融合多步奖励信号提出了一种能够适应非马尔可夫奖励的值函数估计方法。在星际争霸微操作实验平台上的多个复杂场景下的实验结果表明:所提方法不仅能够取得先进的性能,同时还能大大提高样本的利用率。相似文献

8.

基于强化学习的多智能体动态协作规则提取

李晓萌杨煜普许晓鸣《模式识别与人工智能》2002,15(4)

在分布式的动态环境下,多智能体系统的协作是建立在规则集合上的动态过程,因此需要建立动态的协作规则.多智能体强化学习的平稳状态本质上即是智能体之间的协作规则,据此提出一种基于强化学习的协作规则提取的方法,并由此构成智能体决策的新结构,最后用实例进行分析和证明了所提出的方法与单纯的强化学习方法相比较,具有如下优点:1)提取的规则可以加快多智能体的协作决策过程;2)规则的动态变化可以适应环境的动态变化;3)规则可以避免多次重复的学习过程. 相似文献

9.

基于值分布的多智能体分布式深度强化学习算法

陈妙云王雷盛捷《计算机系统应用》2022,31(1):145-151

近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distribut... 相似文献

10.

一种基于分布式强化学习的多智能体协调方法 总被引：2，自引：0，他引：2

范波潘泉张洪才《计算机仿真》2005,22(6):115-118

多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。相似文献

11.

深度强化学习研究综述

杨思明单征丁煜李刚伟《计算机工程》2021,47(12):19-29

深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。相似文献

12.

基于强化学习的路径规划技术综述

闫皎洁张锲石胡希平《计算机工程》2021,47(10):16-25

路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径.阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learning等基于值的代表方法与策略梯度、模仿学习等基于策略的代表方法,并分析其融合策略和深度强化学... 相似文献

13.

基于二阶时序差分误差的双网络DQN算法

陈建平周鑫傅启明高振付保川吴宏杰《计算机工程》2020,46(5):78-85,93

针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。相似文献

14.

基于协作协进化的多智能体机器人协作研究 总被引：2，自引：0，他引：2

汤琼杨东勇《计算机工程与应用》2004,40(28):64-66,101

协作问题一直是自主多智能体机器人系统研究的关键问题之一。基于多智能体机器人系统的CCP协作协议所生成的各智能体机器人的任务序列依赖于目标的初始顺序,因此难以得到最优解。文章提出了利用协作协进化来实现多智能体机器人之间协作的一种机制。该方法采用基于协作种群的技术来生成多智能体机器人任务执行序列,在给定的任务分解产生的所有可能解中寻找最优解,并通过交换局部知识和并行决策等手段来优化系统的性能。利用该机制,对3个智能体协作搬运8个物体进行计算机模拟,结果表明,该机制在优化任务执行序列方面作用明显,从而能有效提高多智能体机器人系统的性能。相似文献

15.

基于深度强化学习的云边协同DNN推理

刘先锋梁赛李强张锦《计算机工程》2022,48(11):30-38

现有基于云边协同的深度神经网络(DNN)推理仅涉及边缘设备同构情况下的静态划分策略,未考虑网络传输速率、边缘设备资源、云服务器负载等变化对DNN推理计算最佳划分点的影响,以及异构边缘设备集群间DNN推理任务的最佳卸载策略。针对以上问题,提出基于深度强化学习的自适应DNN推理计算划分和任务卸载算法。以最小化DNN推理时延为优化目标,建立自适应DNN推理计算划分和任务卸载的数学模型。通过定义状态、动作空间和奖励,将DNN推理计算划分和任务卸载组合优化问题转换为马尔可夫决策过程下的最优策略问题。利用深度强化学习方法,从经验池中学习动态环境下边缘设备与云服务器间DNN推理计算划分和异构边缘集群间任务卸载的近似最优策略。实验结果表明,与经典DNN推理算法相比,该算法在异构动态环境下的DNN推理时延约平均降低了28.83%,能更好地满足DNN推理的低时延需求。相似文献

16.

基于单点多步博弈的网络防御策略选取方法

杨林王永杰《计算机工程》2021,47(1):154-164

当前复杂环境下网络安全问题频发,而现有攻防博弈网络防御模型未考虑网络攻击单点多步的特性,无法有效进行网络防御.针对网络攻防实际需求,通过模拟攻防环境和过程,提出一种基于单点多步网络攻防博弈模型的防御策略选取方法.建立单点多步攻防博弈模型,将全局博弈缩小为漏洞上的局部博弈以适应各种防御体系的攻防分析,采用漏洞评分系统量化... 相似文献

17.

基于改进合同网协议的多Agent协作模型

林琳刘锋《微机发展》2010,(3):71-75

合同网是用于分布式问题求解环境下各Agent进行通信和协作的一种协议,各个Agent内部的知识、能力和策略在问题求解过程中总是动态变化的。为了能够得到实用性强且易于实现的协作模型,分析了传统经典合同网的缺点并进行了改进,利用熟人模型对投标者进行了合理的筛选。采用Agent的主动感知特性,改进了任务Agent接受任务的被动性。在投标过程中引人信任度、感知系数和活跃度等智能参数,防止了投标者在投标过程中的自私性,平衡了各个合同承担者的负载。通过实验证明,改进的合同网降低了网络通信量,提高了多Agent系统协作的效率。相似文献

18.

A visual path-following learning approach for industrial robots using DRL

《Robotics and Computer》2021

Manufacturing companies are in constant need for improved agility. An adequate combination of speed, responsiveness, and business agility to cope with fluctuating raw material costs is essential for today’s increasingly demanding markets. Agility in robots is key in operations requiring on-demand control of a robot’s tool position and orientation, reducing or eliminating extra programming efforts. Vision-based perception using full-state or partial-state observations and learning techniques are useful to create truly adaptive industrial robots. We propose using a Deep Reinforcement Learning (DRL) approach to solve path-following tasks using a simplified virtual environment with domain randomisation to provide the agent with enough exploration and observation variability during the training to generate useful policies to be transferred to an industrial robot. We validated our approach using a KUKA KR16HW robot equipped with a Fronius GMAW welding machine. The path was manually drawn on two workpieces so the robot was able to perceive, learn and follow it during welding experiments. It was also found that small processing times due to motion prediction (3.5 ms) did not slow down the process, which resulted in smooth robot operations. The novel approach can be implemented onto different industrial robots to carry out different tasks requiring material deposition. 相似文献

19.

车联网中基于DDQN的边云协作任务卸载机制

于晶鲁凌云李翔《计算机工程》2022,48(12):156-164

面对车载终端数据计算量的爆炸式增长,计算卸载是缓解车辆资源不足的有效手段。相比于单独研究云计算或边缘计算,让两者相互协作可以实现优势互补,提高系统的整体服务质量。在车联网中,制定适应环境动态性的卸载决策存在较大困难,其中任务的紧急程度也是一个不容忽视的因素。构建一个基于软件定义网络的边云协作任务卸载架构,并设计任务优先级的度量标准,将动态环境中的任务卸载决策问题建模为马尔可夫决策过程,从而最大化由时延和成本构成的任务平均效用。为了求解任务卸载决策,提出基于双深度Q网络的任务卸载决策算法以及基于优先级的资源分配方案,并设计一种卸载比例计算方法,以保障卸载的任务量能够在通信时间内上传完成的同时最小化任务处理时延。实验结果表明,相比于全部本地、全部卸载和平均分配资源3种固定的卸载算法,该算法时延和效用性能提高了2倍以上,在车辆数目适中的情况下,任务的完成比例可以稳定保持在100%。相似文献

20.

ABC2 an Agenda Based Multi-Agent Model for Robots Control and Cooperation

Vicente Matellán Daniel Borrajo 《Journal of Intelligent and Robotic Systems》2001,32(1):93-114

This paper presents a model for the control of autonomous robots that allows cooperation among them. The control structure is based on a general purpose multi-agent architecture using a hybrid approach made up by two levels. One level is composed of reactive skills capable of achieving simple actions by their own. The other one uses an agenda used as an opportunistic planning mechanism to compound, activate and coordinate the basic skills. This agenda handles actions both from the internal goals of the robot or from other robots. This two level approach allows the integration of real-time response of reactive systems needed for robot low-level behavior, with a classical high level planning component that permits a goal oriented behavior. The paper describes the architecture itself, and its use in three different domains, including real robots, as well as the issues arising from its adaptation to the RoboCup simulator domain. 相似文献