期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

唐俊杨友波张目雷印杰《现代计算机》2023,(7):54-58

导航和避障是移动机器人自主智能中一项基础且重要的任务，其目的是引导机器人到达相应的位置。随着移动机器人的广泛使用，移动机器人常需要在大量移动障碍物的环境中导航和避障。提出了一种基于深度强化学习的导航避障算法，通过基于残差卷积和注意力机制的深度Q网络与势能奖励函数相结合，提高了在密集动态环境中导航避障的性能。仿真实验证明，当环境中动态障碍物密度大于0.4 ppm时，导航成功率大于60%。相似文献

2.

基于深度强化学习和动态窗口法的移动机器人路径规划

王鹏凯梁中华杨阔胡雅悦唐赵《计算机与数字工程》2021,49(10):2017-2022

为了应对复杂多变的环境并提高移动机器人实时避障能力,提出了一种基于深度强化学习和动态窗口法的融合路径规划方法.首先,通过将机器人的驱动控制直接作用在速度空间来执行路径规划,从而使机器人具备动态窗口特性.然后,设计并训练一个深度Q网络去逼近移动机器人的状态-动作值函数,进而与环境动态地进行交互和试错,实时调整机器人的移动轨迹,最终为机器人找到最优路径.仿真实验结果表明,论文所提方法在自定义RGB(图像像素)图像的复杂环境中能够使移动机器人保持安全适当的速度行驶,找到无碰撞的最优路径,具有较好的鲁棒性. 相似文献

3.

基于深度Q网络的人群疏散机器人运动规划算法

周婉胡学敏史晨寅魏洁玲童秀迟《计算机应用》2019,39(10):2876-2882

针对公共场合密集人群在紧急情况下疏散的危险性和效果不理想的问题，提出一种基于深度Q网络（DQN）的人群疏散机器人的运动规划算法。首先通过在原始的社会力模型中加入人机作用力构建出人机社会力模型，从而利用机器人对行人的作用力来影响人群的运动状态；然后基于DQN设计机器人运动规划算法，将原始行人运动状态的图像输入该网络并输出机器人的运动行为，在这个过程中将设计的奖励函数反馈给网络使机器人能够在"环境-行为-奖励"的闭环过程中自主学习；最后经过多次迭代，机器人能够学习在不同初始位置下的最优运动策略，最大限度地提高总疏散人数。在构建的仿真环境里对算法进行训练和评估。实验结果表明，与无机器人的人群疏散算法相比，基于DQN的人群疏散机器人运动规划算法使机器人在三种不同初始位置下将人群疏散效率分别增加了16.41%、10.69%和21.76%，说明该算法能够明显提高单位时间内人群疏散的数量，具有灵活性和有效性。相似文献

4.

基于深度强化学习和社会力模型的移动机器人自主避障

李恒刘轻尘马麒超《信息技术与网络安全》2023,(3):68-73+79

深度强化学习在移动机器人自主避障领域已得到广泛应用,其基本原理是通过模拟环境中的不断试错,结合奖励机制提升机器人的避障性能。然而,针对不同任务场景,网络训练效率存在显著差异。同时,在人群密集的场景中,机器人的行为可能对人类造成干扰。为了应对训练效率低下和机器人行为不符合社会规范的问题,提出了一种将社会力模型融入深度强化学习的自主避障策略。该策略首先将人类未来的运动轨迹考虑进奖励函数,以确保机器人理解人类意图并避免闯入人类的舒适区。其次,在训练过程中引入先验的传统控制器模型,并设计了一种基于概率的切换开关,以随机切换控制器输出,提高机器人的探索效率。实验结果表明,所提出的方法能够增加机器人与人类之间的安全距离,同时实现平稳导航。相似文献

5.

基于深度强化学习的红外单目摄像头移动机器人避障方法

张时进《信息与电脑》2023,(11):195-197

由于现有机器人避障方法绕过障碍物不能及时达到原点,研究了基于深度强化学习的红外单目摄像头移动机器人避障方法。在神经网络中,设计方法通过卷积遍历整个图像区域进行特征学习,在池化层去除冗余特征信息,将图像输入障碍物检测网络检测,生成避障场景下的深度图,运用红外单目摄像头及视觉传感器采集图像中的信息进行训练,实现避障任务。实验结果表明,在不同行驶环境下,3组移动机器人绕过障碍物后均能准确到达原点（0,0）位置。相似文献

6.

基于深度强化学习的移动机器人动态路径规划算法

下载免费PDF全文

张柏鑫杨毅镔朱华中刘安东倪洪杰《计算机测量与控制》2023,31(1):153-159

为了在复杂舞台环境下使用移动机器人实现物品搬运或者载人演出,提出了一种基于深度强化学习的动态路径规划算法。首先通过构建全局地图获取移动机器人周围的障碍物信息,将演员和舞台道具分别分类成动态障碍物和静态障碍物。然后建立局部地图,通过LSTM网络编码动态障碍物信息,使用社会注意力机制计算每个动态障碍物的重要性来实现更好的避障效果。通过构建新的奖励函数来实现对动静态障碍物的不同躲避情况。最后通过模仿学习和优先级经验回放技术来提高网络的收敛速度,从而实现在舞台复杂环境下的移动机器人的动态路径规划。实验结果表明,该网络的收敛速度明显提高,在不同障碍物环境下都能够表现出好的动态避障效果。相似文献

7.

改进深度强化学习的室内移动机器人路径规划

下载免费PDF全文

成怡郝密密《计算机工程与应用》2021,57(21):256-262

为了解决传统深度强化学习在室内未知环境下移动机器人路径规划中存在探索能力差和环境状态空间奖励稀疏的问题,提出了一种基于深度图像信息的改进深度强化学习算法。利用Kinect视觉传感器直接获取的深度图像信息和目标位置信息作为网络的输入,以机器人的线速度和角速度作为下一步动作指令的输出。设计了改进的奖惩函数,提高了算法的奖励值,优化了状态空间,在一定程度上缓解了奖励稀疏的问题。仿真结果表明,改进算法提高了机器人的探索能力,优化了路径轨迹,使机器人有效地避开了障碍物,规划出更短的路径,简单环境下比DQN算法的平均路径长度缩短了21.4%,复杂环境下平均路径长度缩短了11.3%。相似文献

8.

基于深度时空Q网络的机器人疏散人群算法

谭嵋刘士豪周婉陈国文胡学敏《计算机工程》2021,47(6):305-311

针对目前人群疏散方法中机器人灵活性低、场景适应性有限与疏散效率低的问题,提出一种基于深度强化学习的机器人疏散人群算法。利用人机社会力模型模拟突发事件发生时的人群疏散状态,设计一种卷积神经网络结构提取人群疏散场景中复杂的空间特征,将传统的深度Q网络与长短期记忆网络相结合,解决机器人在学习中无法记忆长期时间信息的问题。实验结果表明,与现有基于人机社会力模型的机器人疏散人群方法相比,该算法能够提高在不同仿真场景中机器人疏散人群的效率,从而验证了算法的有效性。相似文献

9.

基于轨迹引导的移动机器人导航策略优化算法

李忠伟刘伟鹏罗偲《计算机应用研究》2024,41(5)

针对在杂乱、障碍物密集的复杂环境下移动机器人使用深度强化学习进行自主导航所面临的探索困难,进而导致学习效率低下的问题,提出了一种基于轨迹引导的导航策略优化（TGNPO）算法。首先,使用模仿学习的方法为移动机器人训练一个能够同时提供专家示范行为与导航轨迹预测功能的专家策略,旨在全面指导深度强化学习训练;其次,将专家策略预测的导航轨迹与当前时刻移动机器人所感知的实时图像进行融合,并结合坐标注意力机制提取对移动机器人未来导航起引导作用的特征区域,提高导航模型的学习性能;最后,使用专家策略预测的导航轨迹对移动机器人的策略轨迹进行约束,降低导航过程中的无效探索和错误决策。通过在仿真和物理平台上部署所提算法,实验结果表明,相较于现有的先进方法,所提算法在导航的学习效率和轨迹平滑方面取得了显著的优势。这充分证明了该算法能够高效、安全地执行机器人导航任务。相似文献

10.

基于自适应动态窗口改进细菌算法与移动机器人路径规划

下载免费PDF全文

蒲兴成谭令《智能系统学报》2023,18(2):314-324

针对移动机器人在复杂环境下的路径规划问题,提出一种新的自适应动态窗口改进细菌算法,并将新算法应用于移动机器人路径规划。改进细菌算法继承了细菌算法与动态窗口算法（dynamic window algorithm, DWA）在避障时的优点,能较好实现复杂环境中移动机器人静态和动态避障。该改进算法主要分三步完成移动机器人路径规划。首先,利用改进细菌趋化算法在静态环境中得到初始参考规划路径。接着,基于参考路径,机器人通过自身携带的传感器感知动态障碍物进行动态避障并利用自适应DWA完成局部动态避障路径规划。最后,根据移动机器人局部动态避障完成情况选择算法执行步骤,如果移动机器人能达到最终目标点,结束该算法,否则移动机器人再重回初始路径,直至到达最终目标点。仿真比较实验证明,改进算法无论在收敛速度还是路径规划精确度方面都有明显提升。相似文献

11.

基于场景理解与改进型BUG算法的移动机器人避障

下载免费PDF全文

查荣瑞马云华燕翔郑霜《计算机测量与控制》2023,31(3):228-234

针对现有移动机器人在视觉避障上存在的局限,将深度学习算法和路径规划技术相结合,提出了一种基于深层卷积神经网络和改进Bug算法的机器人避障方法;该方法采用多任务深度卷积神经网络提取道路图像特征,实现图像分类和语义分割任务;其次,基于语义分割结果构建栅格地图,并将图像分类结果与改进的Bug算法相结合,搜索出最优避障路径;同时,为降低冗余计算,设计了特征对比结构来对避免对重复计算的特征信息,保障机器人在实际应用中实时性;通过实验结果表明,所提方法有效的平衡了多视觉任务的精度与效率,并能准确规划出安全的避障路径,辅助机器人完成导航避障。相似文献

12.

多智能体专家型策略梯度的目标跟踪与清障

孙辉辉胡春鹤张军国《控制理论与应用》2022,39(10):1854-1864

为适应复杂环境下目标跟踪机器人高效运动规划需求,本文提出一种基于多智能体强化学习的专家型策略梯度(ML-DDPG) 方法。为此首先构建了基于最小化任务单元的分布式多Actor-Critic网络架构;随后针对机器人主动障碍清除和目标跟踪任务建立了强化学习运动学模型和视觉样本预处理机制,由此提出一种专家型策略引导的最优目标价值估计方法;进一步通过并行化训练与集中式经验共享,提升了算法的训练效率;最后在不同任务环境下测试了ML-DDPG 算法的目标跟踪与清障性能表现,和其它算法对比验证了其在陌生环境中良好的迁移与泛化能力。相似文献

13.

基于分层深度强化学习的移动机器人导航方法

王童李骜宋海荦刘伟王明会《控制与决策》2022,37(11):2799-2807

针对现有基于深度强化学习(deep reinforcement learning, DRL)的分层导航方法在包含长廊、死角等结构的复杂环境下导航效果不佳的问题,提出一种基于option-based分层深度强化学习(hierarchical deep reinforcement learning, HDRL)的移动机器人导航方法.该方法的模型框架分为高层和低层两部分,其中低层的避障和目标驱动控制模型分别实现避障和目标接近两种行为策略,高层的行为选择模型可自动学习稳定、可靠的行为选择策略,从而有效避免对人为设计调控规则的依赖.此外,所提出方法通过对避障控制模型进行优化训练,使学习到的避障策略更加适用于复杂环境下的导航任务.在与现有DRL方法的对比实验中,所提出方法在全部仿真测试环境中均取得最高的导航成功率,同时在其他指标上也具有整体优势,表明所提出方法可有效解决复杂环境下导航效果不佳的问题,且具有较强的泛化能力.此外,真实环境下的测试进一步验证了所提出方法的潜在应用价值. 相似文献

14.

进化操作行为学习模型及在移动机器人避障上的应用

郜园园朱凡宋洪军《计算机应用》2013,33(8):2283-2288

针对移动机器人避障上存在的自适应能力较差的问题,结合遗传算法(GA)的进化思想,以自适应启发评价(AHC)学习和操作条件反射(OC)理论为基础,提出了一种基于进化操作行为学习模型(EOBLM)的移动机器人学习避障行为的方法。该方法是一种改进的AHC学习模式,评价单元采用多层前向神经网络来实现,利用TD算法和梯度下降法进行权值更新,这一阶段学习用来生成取向性信息,作为内在动机决定进化的方向;动作选择单元主要用来优化操作行为以实现状态到动作的最佳映射。优化过程分两个阶段来完成,第一阶段通过操作条件反射学习算法得到的信息熵作为个体适应度,执行GA学习算法搜索最优个体;第二阶段由OC学习算法选择最优个体内的最优操作行为,并得到新的信息熵值。通过移动机器人避障仿真实验,结果表明所设计的EOBLM能使机器人通过不断与外界未知环境进行交互主动学会避障的能力,与传统的AHC方法相比其自学习自适应的能力得到加强。相似文献

15.

Reinforcement learning-based dynamic obstacle avoidance and integration of path planning

Choi Jaewan Lee Geonhee Lee Chibum 《Intelligent Service Robotics》2021,14(5):663-677

Deep reinforcement learning has the advantage of being able to encode fairly complex behaviors by collecting and learning empirical information. In the current study, we have proposed a framework for reinforcement learning in decentralized collision avoidance where each agent independently makes its decision without communication with others. In an environment exposed to various kinds of dynamic obstacles with irregular movements, mobile robot agents could learn how to avoid obstacles and reach a target point efficiently. Moreover, a path planner was integrated with the reinforcement learning-based obstacle avoidance to solve the problem of not finding a path in a specific situation, thereby imposing path efficiency. The robots were trained about the policy of obstacle avoidance in environments where dynamic characteristics were considered with soft actor critic algorithm. The trained policy was implemented in the robot operating system (ROS), tested in virtual and real environments for the differential drive wheel robot to prove the effectiveness of the proposed method. Videos are available at https://youtu.be/xxzoh1XbAl0.

相似文献

16.

基于改进深度强化学习的三维环境路径规划

封硕舒红谢步庆《计算机应用与软件》2021,38(1):250-255

提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难.提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法.针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进.将改进深度强化学习算法与... 相似文献

17.

无人机反应式扰动流体路径规划 总被引：1，自引：1，他引：0

吴健发王宏伦王延祥刘一恒《自动化学报》2023,49(2):272-287

针对复杂三维障碍环境,提出一种基于深度强化学习的无人机(Unmanned aerial vehicles, UAV)反应式扰动流体路径规划架构.该架构以一种受约束扰动流体动态系统算法作为路径规划的基本方法,根据无人机与各障碍的相对状态以及障碍物类型,通过经深度确定性策略梯度算法训练得到的动作网络在线生成对应障碍的反应系数和方向系数,继而可计算相应的总和扰动矩阵并以此修正无人机的飞行路径,实现反应式避障.此外,还研究了与所提路径规划方法相适配的深度强化学习训练环境规范性建模方法.仿真结果表明,在路径质量大致相同的情况下,该方法在实时性方面明显优于基于预测控制的在线路径规划方法. 相似文献

18.

State-chain sequential feedback reinforcement learning for path planning of autonomous mobile robots

Xin MA Ya XU Guo-qiang SUN Li-xia DENG Yi-bin LI 《浙江大学学报:C卷英文版》2013,14(3):167-178

This paper deals with a new approach based on Q-learning for solving the problem of mobile robot path planning in complex unknown static environments.As a computational approach to learning through interaction with the environment,reinforcement learning algorithms have been widely used for intelligent robot control,especially in the field of autonomous mobile robots.However,the learning process is slow and cumbersome.For practical applications,rapid rates of convergence are required.Aiming at the problem of slow convergence and long learning time for Q-learning based mobile robot path planning,a state-chain sequential feedback Q-learning algorithm is proposed for quickly searching for the optimal path of mobile robots in complex unknown static environments.The state chain is built during the searching process.After one action is chosen and the reward is received,the Q-values of the state-action pairs on the previously built state chain are sequentially updated with one-step Q-learning.With the increasing number of Q-values updated after one action,the number of actual steps for convergence decreases and thus,the learning time decreases,where a step is a state transition.Extensive simulations validate the efficiency of the newly proposed approach for mobile robot path planning in complex environments.The results show that the new approach has a high convergence speed and that the robot can find the collision-free optimal path in complex unknown static environments with much shorter time,compared with the one-step Q-learning algorithm and the Q(λ)-learning algorithm. 相似文献