共查询到17条相似文献,搜索用时 62 毫秒
1.
模块化机器人是由一定数量、具有独立功能的标准模块组合而成的。自重构问题是目前模块化机器人研究领域的热点与难点。传统的图论算法或者搜索算法在模块数量较多、复杂度较大时,无法在多项式时间内寻找到通用最优解。文中从群智能体深度强化学习的角度出发,将每个同构模块视为具有学习与感知能力的单智能体,提出了基于QMIX的模块化机器人自重构算法。针对该算法,设计了一种新型的奖励函数,并在限制智能体的动作空间的基础上,实现了智能体并行化移动,在一定程度上解决了多智能体之间的协调合作问题,从而实现了从初始构型向目标构型的转变。实验以9个模块为例,对比了该算法与基于A*的传统搜索算法在成功率以及平均步数上的差异。实验结果表明,在时间步数限制合理的情况下,基于QMIX的模块化机器人自重构算法的成功率能够达到95%以上,两种算法的平均步数大约在12步左右,QMIX自重构算法能够逼近传统算法的效果。 相似文献
2.
3.
多机器人动态编队的强化学习算法研究 总被引:8,自引:0,他引:8
在人工智能领域中,强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注.随着分布式人工智能中多智能体理论的不断发展,分布式强化学习算法逐渐成为研究的重点.首先介绍了强化学习的研究状况,然后以多机器人动态编队为研究模型,阐述应用分布式强化学习实现多机器人行为控制的方法.应用SOM神经网络对状态空间进行自主划分,以加快学习速度;应用BP神经网络实现强化学习,以增强系统的泛化能力;并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益.为了明确控制任务,系统使用黑板通信方式进行分层控制.最后由仿真实验证明该方法的有效性. 相似文献
4.
5.
6.
针对同构阵列式模块化自重构机器人的特点,说明该机器人系统是一个分布式的多智能体系统,结合agent技术,对自重构模块的组成进行了分析,并提出一种能够准确描述该类机器人的拓扑结构、运动、位置及模块间连接关系的特征向量矩阵;对自重构模块的翻转、平移运动和元模块的构成及运动形式进行了描述,搭建了分布式多智能体的控制结构,结合模块的空间矢量进行路径规划,利用Java3D技术建立了可视化的模块化自重构机器人仿真环境,在此平台上对模块的运动进行了仿真,验证了该控制算法和仿真平台的有效性。 相似文献
7.
8.
文中针对自重构机器人的重构问题提出了一种基于网络的分析方法.自重构模块机器人"AMOEBA-I"的9种不同构形组成了一个构形网络.机器人的每种构形被看成带有权值的有向构形网络中的一个节点.一种构形向另一种构形的转换可描述为一条非负值的有向路径.将图论应用于构形变化的分析,根据构形的拓扑信息相应定义了重构路径、可重构矩阵和路径矩阵.在此基础上,将图论中的算法应用于重构路径的计数和最佳重构路径的选择.数值分析与仿真实验结果验证了该方法的可行性.同时,该方法还可以用于其他自重构机器人的构形控制与自重构规划. 相似文献
9.
10.
蛇形机器人通过改变自身的形状可以在复杂的地形环境中有效地运动,然而传统的一体化设计面临着任务搜救效率低、机器人本体维修困难、机体灵活性差等挑战性问题.针对这些问题,本文研制了新一代可重构模块化蛇形机器人并研究了相应的多模态运动方法.具体而言,新型蛇形机器人可以由任意多个模块通过连接机构重构而成,每个模块都是集成了驱动、控制、通信、电源于一体的可独立运动的单元,模块之间的连接机构采用新型的便于切换的勾爪-插销机构.另外,本文针对该可重构模块化蛇形机器人进行了多模态运动方法研究,具体包括轮式机器人运动模态、平面蜿蜒模态、侧向蜿蜒模态、行波模态、攀爬模态、自主拆分模态等,并具体分析了攀爬运动及单模块转弯运动的性能.最后,基于自主研发的可重构模块化蛇形机器人样机对每种运动模态进行了实验验证. 相似文献
11.
12.
Hybrid Dynamic Control Algorithm for Humanoid Robots Based on Reinforcement Learning 总被引:1,自引:0,他引:1
Duśko M. Katić Aleksandar D. Rodić Miomir K. Vukobratović 《Journal of Intelligent and Robotic Systems》2008,51(1):3-30
In this paper, hybrid integrated dynamic control algorithm for humanoid locomotion mechanism is presented. The proposed structure
of controller involves two feedback loops: model-based dynamic controller including impart-force controller and reinforcement
learning feedback controller around zero-moment point. The proposed new reinforcement learning algorithm is based on modified
version of actor-critic architecture for dynamic reactive compensation. Simulation experiments were carried out in order to
validate the proposed control approach.The obtained simulation results served as the basis for a critical evaluation of the
controller performance. 相似文献
13.
基于再励学习的多移动机器人协调避障路径规划方法 总被引:1,自引:0,他引:1
随着多移动机器人协调系统的应用向未知环境发展,一些依赖于环境模型的路径规划方法不再适用。而利用再励学习与环境直接交互,不需要先验知识和样本数据的特点,该文将再励学习应用于多机器人协调系统中,提出了基于再励学习的避障路径规划方法,并将再励函数设计为基于行为分解的无模型非均匀结构。计算机仿真实验结果表明该方法有效,并有较好的鲁棒性,新的再励函数结构使得学习速度得以提高。 相似文献
14.
仿生水下机器人是水下机器人领域的一个重要研究方向;利用增强学习控制器对仿生水下机器人的姿态镇定问题进行了研究;增强学习控制器主要由回报函数、学习样本数据库、神经网络、动作选择以及Q学习算法等模块构成,可通过直接与环境交互生成最优动作选择策略;镇定仿生水下机器人的偏航角姿态镇定的仿真试验表明,增强学习控制器在偏航角姿态镇定方面的性能较为理想;学习样本数据库的引入显著提升了增强学习控制器的姿态镇定性能;学习样本数据库的容量对学习性能存在较大影响。 相似文献
15.
基于强化学习的多任务联盟并行形成策略 总被引:1,自引:0,他引:1
Agent coalition is an important manner of agents' coordination and cooperation. Forming a coalition, agents can enhance their ability to solve problems and obtain more utilities. In this paper, a novel multi-task coalition parallel formation strategy is presented, and the conclusion that the process of multi-task coalition formation is a Markov decision process is testified theoretically. Moreover, reinforcement learning is used to solve agents' behavior strategy, and the process of multi-task coalition parallel formation is described. In multi-task oriented domains, the strategy can effectively and parallel form multi-task coalitions. 相似文献
16.
17.
复杂网络下的路径搜索问题是网络寻优中的一个难点。现有算法主要存在以下问题:一是往往只能侧重于求解效率和求解精度中的一点;二是对动态变化的复杂网络适应性不强,求解效果不佳。因此,本文提出一种基于双分层和优化Q-Learning的改进路径搜索算法。对于求解时间随规模增加而急剧增长的问题,提出k-core和模块度结合的双分层划分网络的策略,以合理有效地减小网络规模。在子网络求解中,引入强化学习机制对网络进行动态感知,针对算法收敛较慢问题,加入自适应学习因子和记忆因子,优化更新公式,提高收敛速度。最后,在不同幂律指数(2~3)和不同规模的复杂网络下,将所提算法与Dijkstra算法、A*算法和Qrouting算法进行实验对比,结果表明该算法在保证较好求解精度的情况下,能有效地改善求解效率。 相似文献