期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

殷辰堃纪宏萱张严心《北京工业大学学报》2023,(4):403-414

机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于SAC的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性. 相似文献

2.

基于改进强化学习的多智能体追逃对抗

薛雅丽叶金泽李寒雁《浙江大学学报(工学版)》2023,(8):1479-1486+1515

针对多智能体追逃问题，提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法（MADDPG）和双延迟-确定策略梯度算法（TD3）相结合，提出多智能体双延迟-确定策略梯度算法（MATD3）.针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题，提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数，将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励，提出DEPER-MATD3算法.基于此算法设计仿真实验，并与其他算法对比，实验结果表明，该算法有效解决了过估计问题，且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高，追击者有更大的概率追击到逃逸者. 相似文献

3.

信号交叉口网联电动汽车自适应学习生态驾驶策略

庄伟超丁昊楠董昊轩殷国栋王茜周朝宾徐利伟《吉林大学学报(工学版)》2023,(1):82-93

提出了一种面向信号交叉口的自适应学习生态驾驶策略。首先,搭建了电动汽车纵向动力学模型,建立了信号灯交叉路口的虚拟交通仿真环境;其次,以车辆能耗最小化与通行效率最大化为目标,耦合设计强化学习奖励函数,基于深度确定性策略梯度算法（DDPG）对车辆加速度进行实时控制与训练;最后,通过蒙特卡洛试验法,验证本文提出的强化学习生态驾驶策略在不同初始交通场景下的有效性与鲁棒性。仿真结果表明,相较于常规“加速-匀速-制动（ACB）”策略,本文提出的强化学习生态驾驶策略在单路口和多路口场景下均可有效提升通行效率和能量效率。同时,智能网联汽车数字孪生试验平台的多次实车试验表明,本文的强化学习算法控制效果良好,可以有效减少车辆路口等待时长,降低能耗同时提高通行效率。相似文献

4.

基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

高敬鹏王国轩高路《吉林大学学报(工学版)》2024,(3):797-806

针对完全合作型任务中,多智能体深度确定性策略梯度（MADDPG）算法存在信度分配以及训练稳定性差的问题,提出了一种基于异步合作更新的LSTM-MADDPG多智能体协同决策算法。基于差异奖励和值分解思想,利用长短时记忆（LSTM）网络提取轨迹序列间特征,优化全局奖励划分方法,实现各智能体的动作奖励分配;结合算法联合训练需求,构建高质量训练样本集,设计异步合作更新方法,实现LSTM-MADDPG网络的联合稳定训练。仿真结果表明,在协作捕获场景中,本文算法相较于QMIX的训练收敛速度提升了20.51%;所提异步合作更新方法相较于同步更新,归一化奖励值均方误差减小了57.59%,提高了算法收敛的稳定性。相似文献

5.

基于Q学习的异构多智能体系统最优一致性

程薇燃李金娜《辽宁石油化工大学学报》2022,42(4):59

对有领导者的异构离散多智能体系统的最优一致性问题,提出了一种无模型的基于非策略强化学习的控制协议设计方法。由于异构多智能体系统的状态矩阵不同,其局部邻居误差的动态表达式比较复杂。与现有的多智能体系统分布式控制方案相比,所提算法减少了计算的复杂性。首先,建立由增广变量构造的多智能体系统全局邻居误差动态表达式。其次,通过二次型形式的值函数得到耦合贝尔曼方程和Hamilton?Jacobi?Bellman（HJB）方程。再次,求解耦合HJB方程的最优解,得到多智能体最优一致性的纳什均衡解,并给出纳什均衡证明。从次,基于无模型的非策略Q学习算法,求解多智能体最优一致性的纳什均衡解。最后,利用批判神经网络结构,结合梯度下降法实现了所提出的算法,并通过仿真实例验证了算法的有效性。相似文献

6.

组合动作空间深度强化学习的人群疏散引导方法

薛怡然吴锐刘家锋《哈尔滨工业大学学报》2021,53(8):29-38

人群疏散引导系统可在建筑物内发生灾害时有效保护生命安全,减少人员财产损失。针对现有人群疏散引导系统需要人工设计模型和输入参数,工作量大且容易造成误差的问题,本文提出了基于深度强化学习的端到端智能疏散引导方法,设计了基于社会力模型的强化学习智能体仿真交互环境。使智能体可以仅以场景图像为输入,通过与仿真环境的交互和试错自主学习场景模型,探索路径规划策略,直接输出动态引导标志信息,指引人群有效疏散。针对强化学习深度Q网络(DQN)算法在人群疏散问题中因为动作空间维度较高,导致神经网络复杂度指数增长的"维度灾难"现象,本文提出了将Q网络输出层按动作维度分组的组合动作空间DQN算法,显著降低了网络结构复杂度,提高了系统在多个引导标志复杂场景中的实用性。在不同场景的仿真实验表明本文方法在逃生时间指标上优于静态引导方法,达到人工构造模型方法的相同水平。说明本文方法可以有效引导人群,提高疏散效率,同时降低人工构造模型的工作量并减小人为误差。相似文献

7.

基于结构平衡的社交网络舆情正向引导学习方法探讨

下载免费PDF全文

杜亚军吴越李显勇陈晓亮刘文君范永全《西华大学学报(自然科学版)》2019,38(2):1-11

社交网络已经成为人们获取信息和进行社会交往的重要平台。一个话题经过众多网民评论与传播, 可能演变成社会关注的热点舆情。在社交网络文本大数据背景下, 从话题产生源头把握其演化趋势和发展规律, 对负向或弱正向话题采用适当的策略加以引导, 使其朝着正向发展, 对社会稳定具有重要意义。当前国内外相关研究尚处于起步阶段, 理论方法和研究手段还不成熟。在综述的基础上, 文章系统地提出网络舆情引导策略的理论与方法, 包括社交网络舆情生命周期与结构平衡协同演化模型;基于网络结构平衡的结构洞分析、关键节点人物识别、同质化分析的舆情引导模型特征参数分析;社交网络舆情正向引导式学习模型、算法及系统。相似文献

8.

基于强化学习的多路口可变车道协同控制方法

徐小高夏莹杰朱思雨邝砾《浙江大学学报(工学版)》2022,56(5):987

为了解决传统的可变导向车道控制方法无法适应多路口场景下的复杂交通流的问题,提出基于多智能体强化学习的多路口可变导向车道协同控制方法来缓解多路口的交通拥堵状况. 该方法对多智能体强化学习 (QMIX)算法进行改进,针对可变导向车道场景下的全局奖励分配问题,将全局奖励分解为基本奖励与绩效奖励,提高了拥堵场景下对车道转向变化的决策准确性. 引入优先级经验回放算法,以提升经验回放池中转移序列的利用效率,加速算法收敛. 实验结果表明,本研究所提出的多路口可变导向车道协同控制方法在排队长度、延误时间和等待时间等指标上的表现优于其他控制方法,能够有效协调可变导向车道的策略切换,提高多路口下路网的通行能力. 相似文献

9.

基于事件触发和欺骗攻击的多智能体一致性控制

王誉达查利娟刘金良费树岷《南京信息工程大学学报》2019,(4)

本文研究了基于事件触发和欺骗攻击的多智能体一致性问题.为了降低智能体间无线通信网络负载,本文引入事件触发机制来减少智能体之间通信的冗余数据传输量.由于智能体间无线通信网络易遭受网络攻击,因此考虑无线通信网络环境下欺骗攻击的影响,建立了一类基于事件触发和欺骗攻击的多智能体系统数学模型.基于此模型,通过利用Lyapunov稳定性理论、多智能体一致性理论和线性矩阵不等式技术分别给出多智能体一致性控制的稳定性条件和控制器设计算法.最后,通过仿真算例验证了所提出设计方法的有效性. 相似文献

10.

CIDDPG的多智能体通信优化方法研究

《沈阳理工大学学报》2021,(4)

多智能体系统在进行协作时,会面临智能体数量多导致博弈关系复杂、不能及时做出正确决策的问题,高效的通信是多智能体协作的有效方式。提出一种基于通信的高效信息学习算法—CIDDPG,在多智能体DDPG算法上建立通信机制,实现智能体之间的沟通交流;并在DDPG算法的策略网络中加入调度模块,以修剪无用信息,提高通信效率;在价值网络中引入注意力机制,有选择地关注来自其他智能体的信息,使其在复杂的环境中高效实现智能体间合作、竞争等互动。两种不同场景的实验证明,CIDDPG算法能够获得比其他算法更高的平均奖励值,且收敛速度快。相似文献

11.

工业设计决策网络构建及其动态演化仿真

杨延璞龚政兰晨昕雷紫荆王欣蕊《浙江大学学报(工学版)》2021,55(12):2298-2306

针对工业设计过程多阶段方案决策的意见演化问题,融合复杂网络理论建立工业设计决策网络模型,通过意见动力学进行决策意见动态演化仿真.基于图论建立设计决策有权无向网络,以网络效率变化确定决策者权重,借助意见距离识别设计决策网络节点信任集合,利用加权平均意见驱动设计决策网络更新与演化. 提出工业设计决策网络的演化仿真流程,结合产品设计方案决策数据进行动态仿真分析,结果表明：信任阈值决定设计决策网络拓扑构成,随着网络演化的进行,决策个体间意见差异逐步缩小并最终达成共识;设计决策网络分析能够析出噪声节点及其意见变化,在实际产品设计决策中应重点关注;意见演化能够辅助确定工业设计方案决策轮次,明确方案在各指标上的表现并识别设计改进方向;仿真分析有助于发现设计决策中的关键因素和意见演化规律. 相似文献

12.

输入约束下高阶智能体均方一致性研究

林伯先李灿灿李维豪秦开宇陈熙《电子科技大学学报(自然科学版)》2020,49(6):818-825

该文对高阶多智能体系统拓扑结构Markov切换且控制输入受到非凸约束时的均方一致性问题进行了研究。首先,引入了一个非凸约束算子,并且根据多智能体系统中邻居节点信息设计了系统的控制协议;之后,利用非负矩阵的性质,得到了当高阶多智能体系统拓扑结构是Markov切换时,系统能够实现均方一致性的充要条件;最后,通过数值仿真验证了在该控制协议下,系统能够达到均方一致性。相似文献

13.

ADHD远程反馈治疗系统的研究

李科《电子科技大学学报(自然科学版)》2011,40(3):461-464

利用脑电反馈治疗技术让注意力缺陷伴多动症(ADHD)患者在家里接受远程的评估和治疗是一种全新的远程医疗模式.该文提出了一种基于Multi-Agent的远程医疗系统的结构与协作模型,设计和实现了针对ADHD的远程评估和反馈治疗系统,建立基于多Agent同的多参数评估决策体系,将层次分析法用于协同医疗决策和对ADHD的评估... 相似文献

14.

FDI攻击下非线性多智能体系统分布式无模型自适应控制

下载免费PDF全文

曲燊车伟伟《广东工业大学学报》2022,39(5):75-82

为研究受到虚假数据注入攻击的单输入单输出非线性多智能体系统的分布式无模型自适应控制问题,提出了一种新的分布式动态线性化方法, 以获得非线性多智能体的等效线性数据模型。与现有多智能体的分布式无模型自适应控制在控制器设计中有所不同, 本文设计的控制器不需要网络拓扑结构的信息, 仅使用系统的输入输出数据。仿真算例验证了所提出的分布式无模型自适应控制算法可以实现多智能体系统的均方有界趋同控制。算法保证了多智能体系统在受到网络攻击时可以实现趋同控制目标。相似文献

15.

智能CAPP系统及其加工资源动态决策 总被引：1，自引：0，他引：1

王忠宾许娟张永忠陈禹六《中国矿业大学学报》2006,35(3):317-322

为了提高计算机辅助工艺规划（CAPP）系统的柔性、可扩展性、可重用性和动态适应性，基于并行工程理念，采用多代理技术，提出了一种智能CAPP系统体系结构．在研究了智能CAPP系统的工作机理基础上，利用BP神经网络和相关算法实现了车间加工资源的动态决策．结果表明：基于多代理的智能CAPP系统由若干代理构成，每个代理具有独立的功能、结构、推理机和知识库，它们通过协作完成对整个工艺计划问题的求解，在系统结构上具有可重构、可扩展的能力；企业的应用表明，通过CAPP和车间生产计划的集成，基于BP神经网络实现制造资源的动态决策，使得工艺计划的可执行性提高了近1／3．相似文献

16.

基于影响图的Agent建模及其在Robocup中的应用

张润梅《安徽建筑工业学院学报》2004,12(2):27-29

讨论了用影响图对多Agents环境建模的方法.Robocup是一个典型的多Agents系统,其中的球和球员都可以看作是Agent.以Robocup仿真比赛为例,给出单Agent和多Agents模型,并给出传球问题的决策实现过程. 相似文献

17.

社会协作的多智能体进化

潘晓英焦李成《西安电子科技大学学报(自然科学版)》2009,36(2):274-280

提出了一种新的求解函数优化的算法．借鉴社会协作机制,定义可信任度表示智能体的历史活动信息,控制智能体间的相互作用; 引入“熟人关系网”模型构建和更新智能体的局部环境,利用多智能体之间的协作特性来加快算法收敛速度; 并构造了非一致变异算子保证智能体种群的多样性．仿真实验结果表明,与性能优越的多智能体遗传算法相比,该算法能以更少的函数评价次数找到精度更高的最优解．相似文献

18.

Multidisciplinary design optimization for air-condition production system based on multi-agent technique

杨海东鄂加强屈挺《中南工业大学学报(英文版)》2012,19(2):527-536

In order to guarantee the overall production performance of the multiple departments in an air-condition production industry, multidisciplinary design optimization model for production system is established based on the multi-agent technology. Local operation models for departments of plan, marketing, sales, purchasing, as well as production and warehouse are formulated into individual agents, and their respective local objectives are collectively formulated into a multi-objective optimization problem. Considering the coupling effects among the correlated agents, the optimization process is carried out based on self-adaptive chaos immune optimization algorithm with mutative scale. The numerical results indicate that the proposed multi-agent optimization model truly reflects the actual situations of the air-condition production system. The proposed multi-agent based multidisciplinary design optimization method can help companies enhance their income ratio and profit by about 33% and 36%, respectively, and reduce the total cost by about 1.8%. 相似文献