期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐勇苟志丽王金环姜凯辰《控制与决策》2021,36(9):2187-2194

集群运动的自组织控制相较于控制理论方法更具鲁棒性与灵活性,其中具有强大自组织特性的生物种群多表现为单体的等级交互,其特点是交互双方各自影响互不对称,由于信息交互繁杂导致构建等级交互模型仍充满挑战.鉴于此,使用深度学习技术分析红鼻鱼的集群运动实验数据,构建多参数输入的单体等级交互模型,有针对地设计成对交互的深度网络结构,并进行合理训练以获取交互模型,基于视觉压力挑选出关键邻居,将此模型用于该邻居的等级交互,相较于其他邻居选择方式,所提出智能控制方法与真实鱼类的集群运动具有较一致的宏观特性.仿真实验表明:所提出方法能扩展应用到更大规模的集群聚合运动控制中,使得单体仅利用局部信息即可实现大规模的集群运动;该方法具有使用简单、规模灵活、计算快速的特点,在多机器人控制、智能交通系统、饱和集群攻击以及多智能体物流等领域具有广阔的应用前景. 相似文献

2.

智能车辆深度强化学习的模型迁移轨迹规划方法

余伶俐邵玄雅龙子威魏亚东周开军《控制理论与应用》2019,36(9):1409-1422

针对智能驾驶车辆传统路径规划中出现车辆模型跟踪误差和过度依赖问题,提出一种基于深度强化学习的模型迁移的智能驾驶车辆轨迹规划方法.首先,提取真实环境的抽象模型,该模型利用深度确定性策略梯度(DDPG)和车辆动力学模型,共同训练逼近最优智能驾驶的强化学习模型;其次,通过模型迁移策略将实际场景问题迁移至虚拟抽象模型中,根据该环境中训练好的深度强化学习模型计算控制与轨迹序列;而后,根据真实环境中评价函数选择最优轨迹序列.实验结果表明,所提方法能够处理连续输入状态,并生成连续控制的转角控制序列,减少横向跟踪误差;同时通过模型迁移能够提高模型的泛化性能,减小过度依赖问题. 相似文献

3.

基于强化学习DDPG算法的轮式助行机器人控制方法

王威王硕玉张天琪杨俊友《机器人技术与应用》2023,(2):39-43

在使用轮式助行机器人辅助行走和康复训练过程中，机器人运动控制的稳定性和轨迹跟踪的准确性是人机交互的重要研究内容。本文将强化学习中的深度确定性策略梯度（DDPG）算法与比例积分微分（PID）控制器相结合，提出了一种轮式助行机器人轨迹跟踪方法。首先，对轮式助行机器人底盘的运动学模型进行了分析。其次，介绍了强化学习中的DDPG算法与PID控制器相结合的自适应PID控制器的实现原理和控制结构。最后进行了仿真实验。实验结果表明，与传统PID控制器相比，基于DDPG算法的PID控制器能在机器人系统跟踪期望轨迹时自适应调整参数，使机器人始终按照期望轨迹运动。同时，得益于强化学习的试错机制，控制器具有较强的抗干扰能力。相似文献

4.

基于深度强化学习的二连杆机械臂运动控制方法

王建平王刚毛晓彬马恩琪《计算机应用》2021,41(6):1799-1804

针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制。对比分析所提出的三种模型后,选择深度确定性策略梯度（DDPG）算法进行进一步研究来改进其适用性,从而缩短机械臂模型的调试时间,顺利避开障碍物到达目标。实验结果表明,所提深度强化学习方法能够有效控制二连杆机械臂的运动,改进后的DDPG算法控制模型的收敛速度提升了两倍并且收敛后的稳定性增强。相较于传统控制方法,所提深度强化学习控制方法效率更高,适用性更强。相似文献

5.

基于深度强化学习的机器人运动控制研究进展

董豪杨静李少波王军段仲静《控制与决策》2022,37(2):278-292

复杂未知环境下智能感知与自动控制是目前机器人在控制领域的研究热点之一,而新一代人工智能为其实现智能自动化赋予了可能.近年来,在高维连续状态-动作空间中,尝试运用深度强化学习进行机器人运动控制的新兴方法受到了相关研究人员的关注.首先,回顾了深度强化学习的兴起与发展,将用于机器人运动控制的深度强化学习算法分为基于值函数和策略梯度2类,并对各自典型算法及其特点进行了详细介绍;其次,针对仿真至现实之前的学习过程,简要介绍5种常用于深度强化学习的机器人运动控制仿真平台;然后,根据研究类型的不同,综述了目前基于深度强化学习的机器人运动控制方法在自主导航、物体抓取、步态控制、人机协作以及群体协同等5个方面的研究进展;最后,对其未来所面临的挑战以及发展趋势进行了总结与展望. 相似文献

6.

基于深度强化学习的AGV智能导航系统设计

贺雪梅匡胤《计算机应用研究》2022,39(5)

针对现有的AGV在大规模未知复杂环境中进行自主导航配送的问题,基于深度强化学习完成了AGV智能导航系统设计。首先,结合传感器对周围的障碍物进行探测感知,利用DDPG（deep deterministic policy gradient）算法实现AGV小车从环境的感知输入到动作的直接输出控制,帮助AGV完成自主导航和避障任务。此外,针对训练样本易受环境干扰的问题,提出了一种新颖的DL（disturb learning）- DDPG算法,通过对学习样本中相关数据进行高斯噪声预处理,帮助智能体适应噪声状态下的训练环境,提升了AGV在真实环境中的鲁棒性。仿真实验表明,经改进后的DL-DDPG 算法能够为AGV导航系统提供更高效的在线决策能力,使AGV小车完成自主导航与智能控制。相似文献

7.

基于深度强化学习的双足机器人斜坡步态控制方法 总被引：1，自引：0，他引：1

吴晓光刘绍维杨磊邓文强贾哲恒《自动化学报》2021,47(8):1976-1987

为提高准被动双足机器人斜坡步行稳定性, 本文提出了一种基于深度强化学习的准被动双足机器人步态控制方法. 通过分析准被动双足机器人的混合动力学模型与稳定行走过程, 建立了状态空间、动作空间、episode过程与奖励函数. 在利用基于DDPG改进的Ape-X DPG算法持续学习后, 准被动双足机器人能在较大斜坡范围内实现稳定行走. 仿真实验表明, Ape-X DPG无论是学习能力还是收敛速度均优于基于PER的DDPG. 同时, 相较于能量成型控制, 使用Ape-X DPG的准被动双足机器人步态收敛更迅速、步态收敛域更大, 证明Ape-X DPG可有效提高准被动双足机器人的步行稳定性. 相似文献

8.

结构交互驱动的机器人深度强化学习控制方法

余超董银昭郭宪冯旸赫卓汉逵张强《软件学报》2023,34(4):1749-1764

针对深度强化学习在高维机器人行为控制中训练效率低下和策略不可解释等问题,提出一种基于结构交互驱动的机器人深度强化学习方法(structure-motivated interactive deep reinforcement learning, SMILE).首先,利用结构分解方法将高维的单机器人控制问题转化为低维的多关节控制器协同学习问题,从而缓解连续运动控制的维度灾难难题;其次,通过两种协同图模型(ATTENTION和PODT)动态推理控制器之间的关联关系,实现机器人内部关节的信息交互和协同学习;最后,为了平衡ATTENTION和PODT协同图模型的计算复杂度和信息冗余度,进一步提出两种协同图模型更新方法 APDODT和PATTENTION,实现控制器之间长期关联关系和短期关联关系的动态自适应调整.实验结果表明,基于结构驱动的机器人强化学习方法能显著提升机器人控制策略学习效率.此外,基于协同图模型的关系推理及协同机制,可为最终学习策略提供更为直观和有效的解释. 相似文献

9.

基于强化学习的水下高速航行体纵向运动控制研究

白涛董勤浩冯梓昆李雪华《智能系统学报》2023,(5):902-916

水下高速航行体由于空泡特性导致其数学模型存在强非线性和强不确定性,经典控制方法如线性二次型调节控制（linear quadratic regulator, LQR）、切换控制等很难实现有效控制。针对水下高速航行体模型难以准确解耦或线性化处理;经典控制方法难以充分考虑水下环境复杂多变性以及在应对扰动时控制器可能会出现过饱和现象的问题,采用智能控制中的强化学习算法,使用在不基于准确模型的条件下与环境不断探索与交互得到控制策略的策略,完成了深度确定性策略梯度（deep deterministic policy gradient,DDPG）智能体控制器的设计。实验结果证明,设计的控制器能够保证水下高速航行体纵向运动的稳定控制,在执行器不超过饱和范围内能够应对扰动并完成下潜控制任务,具有较强的鲁棒性和更好的适应性。相似文献

10.

基于MASAC的无人机集群对抗博弈方法

王尔申刘帆宏晨郭靖何宁赵琳薛健《中国科学:信息科学》2022,(12):2254-2269

随着无人机智能化水平的提高和集群控制技术的发展,无人机集群对抗智能决策方法将成为未来无人机作战的关键技术.无人机集群对抗学习环境具有维度高、非线性、信息有缺失、动作空间连续等复杂特点.近年来,以深度学习和强化学习为代表的人工智能技术取得了很大突破,深度强化学习在解决复杂环境下智能决策问题方面展现出了不俗能力.本文受多智能体集中式训练–分布式执行框架和最大化策略熵思想的启发,提出一种基于非完全信息的多智能体柔性行动器–评判器(multi-agent soft actor-critic, MASAC)深度强化学习方法,建立基于多智能体深度强化学习的无人机集群对抗博弈模型,构建连续空间多无人机作战环境,对红蓝双方无人机集群的非对称性对抗进行仿真实验,实验结果表明MASAC优于现有流行的多智能体深度强化学习方法,能使博弈双方收敛到收益更高的博弈均衡点.进一步对MASAC的收敛情况进行实验和分析,结果显示MASAC具有良好的收敛性和稳定性,能够保证MASAC在无人机集群对抗智能决策方面的实用性. 相似文献

11.

揭示生物集群系统内部信息耦合机制的深度网络模型

刘磊黄景然赵佳佳黄宇玲高岩《控制与决策》2023,38(5):1403-1411

生物集群在自然界中广泛存在,如鱼群、鸟群、兽群等,这些集群通过内部的信息耦合能涌现出有序的协同行为.但是,集群内部交互复杂、情况多变,导致微观层面的行为分析还缺乏行之有效的标准工具.对此,以鱼群运动数据为研究对象,借助图注意力网络对鱼群中的单体行为进行自动化建模,目的是提炼出适于复杂系统分析的通用网络工具.首先将单体的感知信息映射到高维状态空间,然后生成软注意力数值以表征单体之间的交互强度,再对所生成的软注意力数值规范化,所得规范结果既可作为多邻居信息耦合的关键指标,又可通过解码器将所抽取的注意力信息稀疏解耦为运动决策.实验结果表明:所生成的注意力数值不但能揭示群体内部的信息耦合关系,还能进一步对隐藏交互强度可视化,从而为鱼群的视觉交互理论提供新的科学证据.所提出分析工具拥有信息耦合可解释、交互强度可显现、系统规模可缩放、状态偏移可泛化等优良特性,有望发展成为复杂系统解耦分析的标准范式,在社会行为分析、机器人集群控制以及智能交通系统安全性评价等方面具有潜在的应用价值. 相似文献

12.

Hybrid autonomous control for multi mobile robots

《Advanced Robotics》2013,27(1):83-99

Reinforcement learning can be an adaptive and flexible control method for autonomous system. It does not need a priori knowledge; behaviors to accomplish given tasks are obtained automatically by repeating trial and error. However, with increasing complexity of the system, the learning costs are increased exponentially. Thus, application to complex systems, like a many redundant d.o.f. robot and multi-agent system, is very difficult. In the previous works in this field, applications were restricted to simple robots and small multi-agent systems, and because of restricted functions of the simple systems that have less redundancy, effectiveness of reinforcement learning is restricted. In our previous works, we had taken these problems into consideration and had proposed new reinforcement learning algorithm, 'Q-learning with dynamic structuring of exploration space based on GA (QDSEGA)'. Effectiveness of QDSEGA for redundant robots has been demonstrated using a 12-legged robot and a 50-link manipulator. However, previous works on QDSEGA were restricted to redundant robots and it was impossible to apply it to multi mobile robots. In this paper, we extend our previous work on QDSEGA by combining a rule-based distributed control and propose a hybrid autonomous control method for multi mobile robots. To demonstrate the effectiveness of the proposed method, simulations of a transportation task by 10 mobile robots are carried out. As a result, effective behaviors have been obtained. 相似文献

13.

Cooperative behavior control of robot group using stress antibody allotment reward

Sung-Geun Kim Shinya Taguchi Su-Ill Hong Hee-Hyol Lee 《Artificial Life and Robotics》2014,19(1):16-21

Lately, development in robotics for utilizing in both industry and home is in much progress. In this research, a group of robots is made to handle relatively complicated tasks. Cooperative action among robots is one of the research areas in robotics that is progressing remarkably well. Reinforcement learning is known as a common approach in robotics for deploying acquisition of action under dynamic environment. However, until recently, reinforcement learning is only applied to one agent problem. In multi-agent environment where plural robots exist, it was difficult to differentiate between learning of achievement of task and learning of performing cooperative action. This paper introduces a method of implementing reinforcement learning to induce cooperation among a group of robots where its task is to transport luggage of various weights to a destination. The general Q-learning method is used as a learning algorithm. Also, the switching of learning mode is proposed for reduction of learning time and learning area. Finally, grid world simulation is carried out to evaluate the proposed methods. 相似文献

14.

多智能体强化学习及其在足球机器人角色分配中的应用 总被引：2，自引：0，他引：2

段勇崔宝侠徐心和《控制理论与应用》2009,26(4):371-376

足球机器人系统是一个典型的多智能体系统, 每个机器人球员选择动作不仅与自身的状态有关, 还要受到其他球员的影响, 因此通过强化学习来实现足球机器人决策策略需要采用组合状态和组合动作. 本文研究了基于智能体动作预测的多智能体强化学习算法, 使用朴素贝叶斯分类器来预测其他智能体的动作. 并引入策略共享机制来交换多智能体所学习的策略, 以提高多智能体强化学习的速度. 最后, 研究了所提出的方法在足球机器人动态角色分配中的应用, 实现了多机器人的分工和协作. 相似文献

15.

A multi-agent reinforcement learning approach to robot soccer

Yong Duan Bao Xia Cui Xin He Xu 《Artificial Intelligence Review》2012,38(3):193-211

In this paper, a multi-agent reinforcement learning method based on action prediction of other agent is proposed. In a multi-agent system, action selection of the learning agent is unavoidably impacted by other agents’ actions. Therefore, joint-state and joint-action are involved in the multi-agent reinforcement learning system. A novel agent action prediction method based on the probabilistic neural network (PNN) is proposed. PNN is used to predict the actions of other agents. Furthermore, the sharing policy mechanism is used to exchange the learning policy of multiple agents, the aim of which is to speed up the learning. Finally, the application of presented method to robot soccer is studied. Through learning, robot players can master the mapping policy from the state information to the action space. Moreover, multiple robots coordination and cooperation are well realized. 相似文献

16.

一种基于梯度的多智能体元深度强化学习算法

赵春宇赖俊陈希亮张人文《计算机应用研究》2024,41(5)

多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化（MAMPPO）方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。相似文献

17.

Using communication to reduce locality in distributed multiagent learning

MAJA J. MATARIC 《人工智能实验与理论杂志》2013,25(3):357-369

Abstract. This paper attempts to bridge the fields of machine learning, robotics, and distributed AI. It discusses the use of communication in reducing the undesirable effects of locality in fully distributed multi-agent systems with multiple agents robots learning in parallel while interacting with each other. Two key problems, hidden state and credit assignment, are addressed by applying local undirected broadcast communication in a dual role: as sensing and as reinforcement. The methodology is demonstrated on two multi-robot learning experiments. The first describes learning a tightly-coupled coordination task with two robots, the second a loosely-coupled task with four robots learning social rules. Communication is used to (1) share sensory data to overcome hidden state and (2) share reinforcement to overcome the credit assignment problem between the agents and bridge the gap between local individual and global group pay-off. 相似文献

18.

书法机器人研究综述

郭冬梅闵华松《控制与决策》2022,37(7):1665-1674

书法机器人将书法创作与机器人技术相融合,通过控制机械臂模拟人的书写行为和书法创作,再现艺术魅力.机器人书法作为机器人运动规划的典型应用,对传统书法文化的传承和教育具有深远意义.按照书法机器人的研究脉络,回顾分析书法机器人的发展历程.首先介绍笔画分离与提取关键技术,总结虚拟笔刷建模的两种经典笔触模型;然后详细阐述书写轨迹涉及到的核心技术,应用不同的书写轨迹规划控制书写路径,在此基础上分析目前书写评价指标,讨论书法机器人的评价模型;最后回顾总结已有的研究进展及流程,对比传统书法机器人和智能书法机器人各自的优缺点,提出将传统的书写轨迹路径、笔触模型融入到智能书法机器人训练模块中,以弥补其在笔画书写顺序方面的不足.同时,展望书法机器人未来的研究方向和发展趋势,指出未来书法机器人可围绕深度神经网络、深度神经进化、深度强化学习等开展研究. 相似文献