首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性。提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚。实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度。  相似文献   

2.
基于随机有限集理论的多伯努利滤波方法能够有效处理多目标跟踪中数目未知且时变的问题,但难以适应复杂环境下视频多目标跟踪中目标之间或背景等干扰问题,尤其是目标相互紧邻和被遮挡时,会导致跟踪精度下降,甚至目标漏跟。针对该问题,在多伯努利滤波框架下,深度分析目标的特征信息,引入抗干扰的卷积特征,提出基于卷积特征的多伯努利视频多目标跟踪算法,并在目标状态提取过程中,进一步提出模板更新,使用自适应学习速率进行更新,适应目标的变化,以解决目标紧邻相互干扰的问题。最后,引入粒子标记技术,实现对视频多目标的航迹跟踪。实验结果表明,提出算法能够有效区分复杂环境下的紧邻多目标,且具有较好的跟踪精度。  相似文献   

3.
针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法.围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学理论,搭建动作空间,依据非稀疏化思想,设计奖励函数,结合人工蜂群算法,改进DDPG算法模型...  相似文献   

4.
航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。  相似文献   

5.
针对现有基于策略梯度的深度强化学习方法应用于办公室、走廊等室内复杂场景下的机器人导航时,存在训练时间长、学习效率低的问题,本文提出了一种结合优势结构和最小化目标Q值的深度强化学习导航算法.该算法将优势结构引入到基于策略梯度的深度强化学习算法中,以区分同一状态价值下的动作差异,提升学习效率,并且在多目标导航场景中,对状态价值进行单独估计,利用地图信息提供更准确的价值判断.同时,针对离散控制中缓解目标Q值过估计方法在强化学习主流的Actor-Critic框架下难以奏效,设计了基于高斯平滑的最小目标Q值方法,以减小过估计对训练的影响.实验结果表明本文算法能够有效加快学习速率,在单目标、多目标连续导航训练过程中,收敛速度上都优于柔性演员评论家算法(SAC),双延迟深度策略性梯度算法(TD3),深度确定性策略梯度算法(DDPG),并使移动机器人有效远离障碍物,训练得到的导航模型具备较好的泛化能力.  相似文献   

6.
针对协作多智能体强化学习中的全局信用分配机制很难捕捉智能体之间的复杂协作关系及无法有效地处理非马尔可夫奖励信号的问题,提出了一种增强的协作多智能体强化学习中的全局信用分配机制。首先,设计了一种新的基于奖励高速路连接的全局信用分配结构,使得智能体在决策时能够考虑其所分得的局部奖励信号与团队的全局奖励信号;其次,通过融合多步奖励信号提出了一种能够适应非马尔可夫奖励的值函数估计方法。在星际争霸微操作实验平台上的多个复杂场景下的实验结果表明:所提方法不仅能够取得先进的性能,同时还能大大提高样本的利用率。  相似文献   

7.
针对传统运动控算法存在环境适应性较差,效率低的问题。可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制。但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建机械臂的数字孪生仿真环境,设置观察状态变量和设置奖励函数机制,并提出在该模型环境中对PPO(proximal policy optimization)与多智能体(agents)结合的M-PPO算法来加快训练速度,实现通过强化学习算法对机械臂进行智能运动控制,完成机械臂执行末端有效避障快速到达目标物体位置,并通过该算法与M-SAC(多智能体与Soft Actor-Critic结合)和PPO算法的实验结果进行分析,验证M-PPO算法在不同环境下机械臂运动控制决策调试上的有效性与先进性。实现孪生体自主规划决策,反向控制物理体同步运动的目的。  相似文献   

8.
考虑无人机群体行为决策与状态变化的内在驱动,从信息处理角度提出基于决策知识学习的多无人机航迹协同规划方法.首先,基于马尔科夫决策过程对无人机的行为状态进行知识表示,形成关于连续动作空间的决策知识;然后,提出基于知识决策学习的深度确定性策略梯度算法,实现无人机在决策知识层次上的协同规划.实验结果表明:在研发设计演示系统的基础上,所提方法通过强化学习能够得到一个最优航迹规划策略,同时使航迹综合评价和平均奖励收敛稳定,为无人机任务执行提供了决策支持.  相似文献   

9.
在多约束复杂环境下,多数无人飞行器(UAV)航迹规划方法无法从历史经验中获得先验知识,导致对多变的环境适应性较差。提出一种基于深度强化学习的航迹规划策略自学习方法,利用飞行约束条件设计UAV的状态及动作模式,从搜索宽度和深度2个方面降低航迹规划搜索规模,基于航迹优化目标设计奖惩函数,利用由卷积神经网络引导的蒙特卡洛树搜索(MCTS)算法学习得到航迹规划策略。仿真结果表明,该方法自学习得到的航迹规划策略具有泛化能力,相对未迭代训练的网络,该策略仅需17%的NN-MCTS仿真次数就可引导UAV在未知飞行环境中满足约束条件并安全无碰撞地到达目的地。  相似文献   

10.
针对动态未知环境下多智能体多目标协同问题,为实现在动态未知环境下多个智能体能够同时到达所有目标点,设计函数式奖励函数,对强化学习算法进行改进.智能体与环境交互,不断重复"探索-学习-决策"过程,在与环境的交互中积累经验并优化策略,在未预先分配目标点的情况下,智能体通过协同决策,能够避开环境中的静态障碍物和动态障碍物,同时到达所有目标点.仿真结果表明,该算法相比现有多智能体协同方法的学习速度平均提高约42.86%,同时智能体能够获得更多的奖励,可以做到自主决策自主分配目标,并且实现同时到达所有目标点的目标.  相似文献   

11.
The multi-target tracking problem is challenging when there exist occlusions, tracking failures of the detector and severe interferences between detections. In this paper, we propose a novel detection based tracking method that links detections into tracklets and further forms long trajectories. Unlike many previous hierarchical frameworks which split the data association into two separate optimization problems (linking detections locally and linking tracklets globally), we introduce a unified algorithm that can automatically relearn the trajectory models from the local and global information for finding the joint optimal assignment. In each temporal window, the trajectory models are initialized by the local information to link those easy-to-connect detections into a set of tracklets. Then the trajectory models are updated by the reliable tracklets and reused to link separated tracklets into long trajectories. We iteratively update the trajectory models by more information from more frames until the result converges. The iterative process gradually improves the accuracy of the trajectory models, which in turn improves the target ID inferences for all detections by the MRF model. Experiment results revealed that our proposed method achieved state-of-the-art multi-target tracking performance.  相似文献   

12.
高庆吉  霍璐  牛国臣 《计算机应用》2016,36(8):2311-2315
针对单目视觉对多个相似的目标跟踪因遮挡等因素影响而失效的问题,提出一种基于改进霍夫森林框架的多目标跟踪算法。在将多目标跟踪问题归结为基于目标检测的轨迹关联过程基础上,通过引入在线学习霍夫森林框架将轨迹关联计算转化为最大后验概率(MAP)问题。通过在线采集多目标样本、提取目标外观和运动特征构建霍夫森林,进行森林训练得到轨迹关联概率,从而关联多目标轨迹;而引入低秩逼近Hankel矩阵进行轨迹校验,修复了误匹配的轨迹,改进了在线更新训练样本算法的效能。实验表明,轨迹误匹配率显著改善,能有效提高单目摄像机对多个相似目标有遮挡情况下跟踪的准确性和鲁棒性。  相似文献   

13.
目的 车辆多目标跟踪是智能交通领域关键技术,其性能对车辆轨迹分析和异常行为鉴别有显著影响。然而,车辆多目标跟踪常受外部光照、道路环境因素影响,车辆远近尺度变化以及相互遮挡等干扰,导致远处车辆漏检或车辆身份切换(ID switch,IDs)问题。本文提出短时记忆与CenterTrack的车辆多目标跟踪,提升车辆多目标跟踪准确度(multiple object tracking accuracy,MOTA),改善算法的适应性。方法 利用小样本扩增增加远处小目标车辆训练样本数;通过增加的样本重新训练CenterTrack确定车辆位置及车辆在相邻帧之间的中心位移量;当待关联轨迹与检测目标匹配失败时通过轨迹运动信息预测将来的位置;利用短时记忆将待关联轨迹按丢失时间长短分级与待匹配检测关联以减少跟踪车辆IDs。结果 在交通监控车辆多目标跟踪数据集UA-DETRAC (University at Albany detection and tracking)构建的5个测试序列数据中,本文方法在维持CenterTrack优势的同时,对其表现不佳的场景获得近30%的提升,与YOLOv4-DeepSort(you only look once—simple online and realtime tracking with deep association metric)相比,4种场景均获得近10%的提升,效果显著。Sherbrooke数据集的测试结果,本文方法同样获得了性能提升。结论 本文扩增了远处小目标车辆训练样本,缓解了远处小目标与近处大目标存在的样本不均衡,提高了算法对远处小目标车辆的检测能力,同时短时记忆维持关联失败的轨迹运动信息并分级匹配检测目标,降低了算法对跟踪车辆的IDs,综合提高了MOTA。  相似文献   

14.
多模型GM-CBMeMBer滤波器及航迹形成   总被引:1,自引:0,他引:1  
连峰  韩崇昭  李晨 《自动化学报》2014,40(2):336-347
提出了一种可适用于杂波环境下对多个机动目标进行跟踪并能形成多目标航迹的多模型势平衡多目标多伯努利(Cardinality balanced multi-target multi-Bernoulli,CBMeMBer)滤波器. 随后,在多机动目标时间演化模型和观测模型均为线性高斯的假设条件下利用高斯混合(Gaussian mixture,GM)技术获得了该滤波器解析的递推形式——-多模型 GM-CBMeMBer 滤波器,并简要给出了它在非线性条件下的扩展卡尔曼(Extended Kalman,EK)滤波近似. 仿真实验结果表明所建议的多模型 GM-CBMeMBer 滤波器能有效地对多个机动目标进行跟踪而单模型 GM-CBMeMBer 滤波器则会产生明显的航迹丢失和虚假航迹,并且对于信噪比较低的仿真场景,它的性能优于多模型高斯混合概率假设密度(GM probability hypothesis density,GM-PHD)滤波器,接近于多模型高斯混合势概率假设密度(GM cardinalized PHD,GM-CPHD)滤波器.  相似文献   

15.
樊玲  张晓玲 《计算机应用》2012,32(7):2066-2069
针对多目标环境下的检测前跟踪问题,提出了基于联合多目标概率密度(JMPD)模型的检测前跟踪(TBD)算法。JMPD模型同时模拟目标数目及其联合状态,采用粒子滤波递归估计JMPD实现目标数目及其状态的估计。仿真实验表明,所提算法在较小的延时检测的情况下,能准确估计目标的出生及消亡,并且航迹跟踪精确稳定,实现了对多个微弱目标的检测及跟踪。  相似文献   

16.
自动驾驶环境下交叉口车辆路径规划与最优控制模型   总被引:1,自引:0,他引:1  
吴伟  刘洋  刘威  吴国弘  马万经 《自动化学报》2020,46(9):1971-1985
自动驾驶环境下的交叉口基于车车/车路之间的双向信息交互, 能保障自动驾驶车辆相互穿插与协作地通过交叉口, 而无需信号灯控制. 因此, 如何设计高效的面向自动驾驶车辆通行的交叉口管控模型, 已成为研究的热点. 已有研究在建模时, 均基于自动驾驶车辆在交叉口内部的行驶路径已知并作为模型输入, 且大多对交叉口内部的冲突点进行简化. 本文首先将交叉口空间离散化处理, 考虑车辆的实际尺寸并面向非常规交叉口, 使用椭圆曲线建立转弯车辆行驶路径的精确轨迹方程, 再通过外边界投影降维法建立轨迹方程和交叉口空间的映射关系. 建立了基于混合整数线性规划(Mixed integer linear programming, MILP)的自动驾驶交叉口管控模型, 以交叉口总延误最小为控制目标, 同时优化车辆在交叉口的最佳行驶路径和驶入时刻, 使用AMPL (A mathematical programming language)对模型进行编译并使用CPLEX求解器求解. 与经典感应控制和先到先服务模型进行对比, 结果表明, 本文所提出模型能对车辆进入交叉口的时刻和行驶路径进行双重优化, 显著降低自动驾驶车辆通过交叉口的车均延误, 提高交叉口空间的利用效率.  相似文献   

17.
针对长短期记忆网络(LSTM)在行人轨迹预测问题中孤立考虑单个行人,且无法进行多种可能性预测的问题,提出基于注意力机制的行人轨迹预测生成模型(AttenGAN),来对行人交互模式进行建模和概率性地对多种合理可能性进行预测。AttenGAN包括一个生成器和一个判别器,生成器根据行人过去的轨迹概率性地对未来进行多种可能性预测,判别器用来判断一个轨迹是真实的还是由生成器伪造生成的,进而促进生成器生成符合社会规范的预测轨迹。生成器由一个编码器和一个解码器组成,在每一个时刻,编码器的LSTM综合注意力机制给出的其他行人的状态,将当前行人个体的信息编码为隐含状态。预测时,首先用编码器LSTM的隐含状态和一个高斯噪声连接来对解码器LSTM的隐含状态初始化,解码器LSTM将其解码为对未来的轨迹预测。在ETH和UCY数据集上的实验结果表明,AttenGAN模型不仅能够给出符合社会规范的多种合理的轨迹预测,并且在预测精度上相比传统的线性模型(Linear)、LSTM模型、社会长短期记忆网络模型(S-LSTM)和社会对抗网络(S-GAN)模型有所提高,尤其在行人交互密集的场景下具有较高的精度性能。对生成器多次采样得到的预测轨迹的可视化结果表明,所提模型具有综合行人交互模式,对未来进行联合性、多种可能性预测的能力。  相似文献   

18.
针对现有船舶轨迹预测模型预测准确度低的问题,提出一种基于注意力机制的时域卷积网络和双向长短时记忆网络(TCN-ABiLSTM)的船舶轨迹预测模型。首先搭建TCN网络提取船舶轨迹的序列特征,之后将注意力机制引入网络调整不同属性特征的权值,凸出对轨迹预测影响更大的特征,最后搭建Bi-LSTM网络学习轨迹序列的前后状况来提取序列中更多的信息,实现对船舶未来轨迹的预测;通过实际船舶AIS数据对网络进行训练与测试实验,实验结果表明,TCN-ABiLSTM模型相比LSTM、Bi-LSTM、TCN、BiLSTM-Attention、TCN-Attention模型船舶轨迹预测精度更高,拟合程度更好,验证了所设计的TCN-ABiLSTM模型在船舶轨迹预测方面的的有效性和实用性。  相似文献   

19.
严海升  马新强 《计算机应用》2021,41(8):2219-2224
多目标回归(MTR)是一种针对单个样本同时具有多个连续型输出的回归问题。现有的多目标回归算法都基于同一个特征空间学习回归模型,而忽略了各输出目标本身的特殊性质。针对这一问题,提出基于径向基函数的多目标回归特征构建算法。首先,将各目标的输出作为额外的特征对各输出目标进行聚类,根据聚类中心在原始特征空间构成了目标特定特征空间的基;然后,通过径向基函数将原始特征空间映射到目标特定特征空间,构造目标特定的特征,并基于这些目标特定特征构建各输出目标的基回归模型;最后,用基回归模型的输出组成隐藏空间,采用低秩学习算法在其中发掘和利用输出目标之间的关联。在18个多目标回归数据集上进行实验,并把所提算法与层叠单目标回归(SST)、回归器链集成(ERC)、多层、多目标回归(MMR)等经典的多目标回归算法进行对比,结果表明所提算法在14个数据集上都取得了最好的性能,并且在18个数据集上的平均性能排序居第一位。可见所提算法构建的目标特定特征能够提高各输出目标的预测准确性,并结合低秩学习得到输出目标间的关联性以从整体上提升多目标回归的预测性能。  相似文献   

20.
任子武  朱秋国  熊蓉 《自动化学报》2015,41(6):1131-1144
人类经长期学习训练后能对高速物体 (如棒球、乒乓球等)具有快速连续反应作业的运动技能, 从深层次上揭示是由于人体在其训练过程中不断学习优选了相应手臂的动作轨迹, 并储存了丰富的经验和知识. 受人体手臂动作此行为机制启发, 本文提出一种 7-DOF灵巧臂快速连续反应-避障作业的轨迹规划方法. 该方法将灵巧臂对高速物体目标作业的轨迹规划问题转化为动作轨迹参数化优选问题, 考虑作业过程中灵巧臂的机构物理约束和障碍约束条件, 以灵巧臂目标可作业度指标构建适应度函数, 采用粒子群优化 (Particle swarm optimization, PSO)方法优选作业轨迹中的冗余参数; 在此基础上 利用灵巧臂动作轨迹参数化优选方法构建相应作业环境下的知识数据库, 实现灵巧臂对高速物体目标的快速连续反应作业. 以仿人机器人乒乓球对弈作业为例, 将该方法应用于 7-DOF灵巧臂乒乓球作业的轨迹规划中. 数值实验及实际对弈试验结果表明, 该方法不仅能使灵巧臂所规划的轨迹 满足灵巧臂机构物理约束与障碍约束条件, 同时能实现灵巧臂对乒乓球体的快速连续反应作业, 验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号