首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 116 毫秒
1.
针对长短期记忆网络(LSTM)在行人轨迹预测问题中孤立考虑单个行人,且无法进行多种可能性预测的问题,提出基于注意力机制的行人轨迹预测生成模型(AttenGAN),来对行人交互模式进行建模和概率性地对多种合理可能性进行预测。AttenGAN包括一个生成器和一个判别器,生成器根据行人过去的轨迹概率性地对未来进行多种可能性预测,判别器用来判断一个轨迹是真实的还是由生成器伪造生成的,进而促进生成器生成符合社会规范的预测轨迹。生成器由一个编码器和一个解码器组成,在每一个时刻,编码器的LSTM综合注意力机制给出的其他行人的状态,将当前行人个体的信息编码为隐含状态。预测时,首先用编码器LSTM的隐含状态和一个高斯噪声连接来对解码器LSTM的隐含状态初始化,解码器LSTM将其解码为对未来的轨迹预测。在ETH和UCY数据集上的实验结果表明,AttenGAN模型不仅能够给出符合社会规范的多种合理的轨迹预测,并且在预测精度上相比传统的线性模型(Linear)、LSTM模型、社会长短期记忆网络模型(S-LSTM)和社会对抗网络(S-GAN)模型有所提高,尤其在行人交互密集的场景下具有较高的精度性能。对生成器多次采样得到的预测轨迹的可视化结果表明,所提模型具有综合行人交互模式,对未来进行联合性、多种可能性预测的能力。  相似文献   

2.
针对当前行人轨迹预测研究仅考虑影响行人交互因素的问题,基于状态精细化长短期记忆(SR-LSTM)和注意力机制提出一种用于行人轨迹预测的社交生成对抗网络(SRA-SIGAN)模型,利用生成对抗网络(GAN)学习获得目标行人的运动规律。首先,使用SR-LSTM作为位置编码器提取运动意图信息;其次,通过设置速度注意力机制合理地为同一场景中的行人分配影响力,以更好地处理行人的交互;最后,由解码器生成预测的未来轨迹。在多个公开数据集上的测试实验结果表明,SRA-SIGAN模型的总体表现良好。特别是在Zara1数据集上,与SR-LSTM模型相比,SRA-SIGAN模型的平均位移误差(ADE)和最终位移误差(FDE)分别减小了20.0%和10.5%;与社交生成对抗网络(SIGAN)模型相比,SRA-SIGAN的ADE和FDE分别下降了31.7%和24.4%。  相似文献   

3.
孔玮  刘云  李辉  王传旭  崔雪红 《控制与决策》2021,36(12):2841-2850
为了规划合理的路径以规避行人,针对行人轨迹预测的研究具有广泛的应用价值.基于手工特征的传统方法难以预测复杂场景下的行人轨迹.深度学习以人工神经网络为架构,具有强大的学习能力,在各个领域取得了显著的效果.基于深度学习的行人轨迹预测方法已逐渐发展为一种趋势.为了宏观把握基于深度学习的行人轨迹预测的研究状况,首先,对不同方法进行组织与分类,比较不同方法的优缺点,讨论不同方法在行人轨迹预测领域的应用与发展;其次,根据行人轨迹预测模型的设计差异,对比不同算法对模型性能产生的影响;最后,针对行人轨迹预测中存在的问题,对基于深度学习的行人轨迹预测方法的未来发展进行了展望.  相似文献   

4.
为了预测行人在复杂场景中的行走轨迹,提出了一种基于生成对抗网络的可解释模型。该模型以场景中行人的历史轨迹信息和场景环境信息作为模型的输入,并在生成对抗网络中引入了物理注意力机制和社会注意力机制对行人轨迹进行预测。其中,物理注意力机制有助于建模复杂场景的整体布局并提取图像中与路径相关的显著特征,社会注意力机制能够建模不同行人之间的交互对未来轨迹的影响。在生成对抗网络的整体框架下,物理和社会注意力机制的结合使得该模型能够预测出符合物理限制和社会行为规范的多条可接受的未来路径。通过在仿真数据和真实的标准数据集上的实验,可以证明该模型能够实现对行人未来轨迹的有效预测。  相似文献   

5.
针对生成式对抗网络模型在行人轨迹预测问题中无法充分提取行人之间交互信息的问题,提出一种基于注意力机制的生成式对抗轨迹预测方法(Atten-GAN)来对行人之间的交互信息进行社会关系建模.该模型通过引入一个注意力池化模块来对同一场景中的行人进行影响力权重分配,使得模型可以充分提取行人之间的交互信息.此外,针对生成式对抗网...  相似文献   

6.
行人轨迹预测对智慧城市建设、公共危机管理具有重要意义.复杂场景中的行人轨迹不仅包含行人个体运动时序性特征,还包含行人与周围其他运动实体之间的交互性特征.如何根据场景变化,对这种时序性和交互性特征进行深度刻画并进行轨迹预测,是复杂场景行人轨迹预测的关键问题.本文采用多头注意力机制和对抗生成方法,提出一种基于多头注意力机制的生成对抗网络模型(Multi-head Attention Generative Adversarial Model,MAGAM),对复杂场景下多行人轨迹进行建模.论文首先通过多头注意力机制融合行人的相对位移信息,从不同方面学习轨迹特征空间中各子空间特征的权重信息,实现对行人之间相互影响的交互性轨迹特征刻画;然后采用对抗生成机制和多轨迹生成策略,实现对复杂场景下不同个体移动轨迹的生成与预测.最后,本文在两个公开的数据集(ETH和UCY)进行了实验验证.实验结果表明,在ADE、FDE和AnlDE三个指标上,本文提出的MAGAM模型比基准模型误差平均降低了26.90%、21.02%和24.06%.本文对模型的预测结果进行可视化分析,直观展示了本论文模型的合理性.  相似文献   

7.
随着计算机视觉和自动驾驶技术的快速发展,自动感知、理解和预测人类行为的能力变得越来越重要。各类传感器的普及使得社会中产生了大量运动物体的位置数据。基于这些数据预测行人的运动轨迹在社交预测等多个领域都有着极大的价值。为了深入了解这方面的发展,对基于图神经网络的行人轨迹预测方法进行了综述,从多个角度比较、分析和总结了行人轨迹预测的图神经网络算法,讨论了不同算法在该领域的研究与发展;在目前的公共数据集上进行了对比和分析,介绍了相应性能指标,给出了不同算法的性能比较结果,提出了目前研究仍存在的问题,拓展研究思路和方法;展望了未来可能出现的研究方向。  相似文献   

8.
芈菁  张旭秀  闫涵 《控制与决策》2024,39(7):2345-2353
行人轨迹预测在自动驾驶和社交机器人等领域有着广泛的应用.对行人间复杂的交互关系进行有效建模是提高轨迹预测准确性的关键问题.然而,基于图神经网络的方法建模行人间的复杂交互时,存在行人间交互关系不会随着时间推移而改变,并且图模型无法自适应地调整网络参数,导致预测轨迹与真实轨迹偏差较大.为此,提出基于动态进化图的行人轨迹预测方法,设计动态特征更新(DFU)以定义行人间的动态特性,对行人间动态交互进行建模以构建时间域的网络动态性,提升对行人间复杂交互关系建模的能力.采用进化图卷积单元优化编码器,灵活进化图模型网络参数,增强图模型的自适应能力.研究结果表明,在预测8个时间步长下,与STGAT模型相比,所提出模型在两个公开数据集(ETH和UCY)上取得了更好的性能,平均位移误差降低12.26%,最终位移误差降低14.10%.  相似文献   

9.
为了更好的挖掘局部特征,提升行人再识别的精度,本文提出了一种利用水平池化提取局部特征的HPLF(Horizontal Pooling for Local Feature)算法,在ResNet-50网络中对输入的联合数据集进行预处理,提取特征,对ResNet-50网络生成的特征图进行水平切割,通过分割的特征图计算两两特征...  相似文献   

10.
在蓬勃发展的自动驾驶技术中, 行人轨迹预测的结果往往会影响到自动驾驶的安全性. 行人轨迹预测技术目前面临着在实际场景中应用时与他人的交互问题, 需要在预测轨迹的同时考虑社会交互性与逻辑自洽. 因此, 提出了一种基于时空图的行人轨迹预测方法, 该方法采用图注意力网络对场景中的行人交互进行建模, 并使用一种自动生成正负样本的方法来通过对比学习降低输出轨迹的碰撞率, 达到了提高输出轨迹的安全性以及逻辑自洽的效果. 在ETH和UCY数据集上进行模型训练与测试, 结果分析表明, 本文提出的方法有效降低了碰撞率, 且预测准确度优于主流算法.  相似文献   

11.
针对单一长短时记忆(LSTM)网络在航迹预测上无法有效提取关键信息以及难以精准拟合数据分布等问题,提出基于注意力机制和生成对抗网络(GAN)的飞行器短期轨迹预测模型。首先,引入注意力机制对航迹赋予不同的权重,以提升航迹中重要特征的影响力;其次,基于LSTM提取航迹序列特征,并经汇聚层汇集时间步长内所有的飞行器特征;最后,利用GAN在对抗博弈下不断优化的特性来优化模型,从而提高模型的准确性。相较于社会生成对抗网络(SGAN),所提模型在处于爬升阶段的数据集上的平均位移误差(ADE)、最终位移误差(FDE)及最大位移误差(MDE)分别降低了20.0%、20.4%和18.3%。实验结果表明,所提模型能更精确地预测未来航迹。  相似文献   

12.
传统图像修复算法在修复区域涉及复杂非重复结构(如面部)时,不能准确捕捉到高级语义。近三年来基于深度学习的方法被应用于图像修复中,其修复结果的结构相似性较传统方法提高了10%以上。首先阐述了面部修复技术的研究发展历程,主要介绍了基于深度学习的面部修复算法,将其分为无监督和有监督两大类方法,在每一类中重点对近年来涌现的各种面部修复算法进行分析和总结;然后归纳了当前主流的六类图像数据集,以及算法性能评价指标;最后讨论了面部修复技术的未来研究方向。  相似文献   

13.
视频生成是计算机视觉和多媒体领域一个重要而又具有挑战性的任务.现有的基于对抗生成网络的视频生成方法通常缺乏一种有效可控的连贯视频生成方式.提出一种新的多模态条件式视频生成模型.该模型使用图片和文本作为输入,通过文本特征编码网络和运动特征解码网络得到视频的运动信息,并结合输入图片生成连贯的运动视频序列.此外,该方法通过对输入图片进行仿射变换来预测视频帧,使得生成模型更加可控、生成结果更加鲁棒.在SBMG(single-digit bouncing MNIST gifs),TBMG(two-digit bouncing MNIST gifs)和KTH(kungliga tekniska hgskolan human actions)数据集上的实验结果表明:相较于现有的视频生成方法,生成结果在目标清晰度和视频连贯性方面都具有更好的效果.另外定性评估和定量评估(SSIM(structural similarity index)与PSNR(peak signal to noise ratio)指标)表明提出的多模态视频帧生成网络在视频生成中起到了关键作用.  相似文献   

14.
在机器学习和数据库等领域,高质量数据集的合成一直以来是一个非常重要且充满挑战性的问题.其中,合成的高质量数据集可用来改善模型,尤其是深度学习模型的训练过程.一个健壮的模型训练过程需要大量已标注的数据集,获取这些数据集的一种方法是通过领域专家的手动标注,这种方法不仅代价大还容易出错,因此由模型自动合成高质量数据集的方法更为合理.近年来,由于计算机视觉领域的飞速发展,已经有不少致力于图像数据集合成的研究,但是这些模型不能直接应用在结构化数据表上,并且据调研,对这类数据的相关研究几乎没有.因此,提出了一个针对结构化数据表的生成模型TableGAN,该模型是生成式对抗网络(generative adversarial network, GAN)家族的一种变体,通过对抗训练的方式提高生成模型的性能.针对结构化数据的特征改变了传统GAN模型的内部结构,包括优化函数等,使其能够生成高质量的结构化数据用于改善模型的训练过程.通过在真实数据集上的大量实验表明了此模型的有效性,即在扩大后的数据集上训练模型的效果有明显提升.  相似文献   

15.
生成对抗网络(GAN)能够生成逼真的图像,已成为生成模型中的一个研究热点。针对生成对抗网络无法有效提取图像局部与全局特征间依赖关系以及各类别间的依赖关系,提出一种用于生成对抗网络的孪生注意力模型(TAGAN)。以孪生注意力机制为驱动,通过模拟局部与全局特征间的依赖关系以及各类别间依赖关系,对真实自然图像建模,创建逼真的非真实图像。孪生注意力机制包含特征注意力模型和通道注意力模型,特征注意力模型通过有选择地聚合特征,学习相似特征间的关联性,通道注意力模型通过整合各通道维度的相关特征,学习各通道的内部依赖关系。在MNIST、CIFAR10和CelebA64数据集上验证了所提出模型的有效性。  相似文献   

16.
目的 去模糊任务通常难以进行对图像纹理细节的学习,所复原图像的细节信息不丰富,图像边缘不够清晰,并且需要耗费大量时间。本文通过对图像去模糊方法进行分析,同时结合深度学习和对抗学习的方法,提出一种新型的基于生成对抗网络(generative adversarial network, GAN)的模糊图像多尺度复原方法。方法 使用多尺度级联网络结构,采用由粗到细的策略对模糊图像进行复原,增强去模糊图像的纹理细节;同时采用改进的残差卷积结构,在不增加计算量的同时,加入并行空洞卷积模块,增加了感受野,获得更大范围的特征信息;并且加入通道注意力模块,通过对通道之间的相关性进行建模,加强有效特征权重,并抑制无效特征;在损失函数方面,结合感知损失(perceptual loss)以及最小均方差(mean squared error, MSE)损失,保证生成图像和清晰图像内容一致性。结果 通过全参考图像质量评价指标峰值信噪比(peak signal to noise ratio, PSNR)、结构相似性(structural similarity,SSIM)以及复原时间来评价算法优劣。与其他方法的对比结...  相似文献   

17.
基于自然语言描述的图像合成已成为人工智能领域中的研究热点.借助生成对抗网络,该领域在高分辨率图像合成方面取得了长足的发展.然而,合成单目标图像在真实性上仍存在一定缺陷,如针对鸟类图形合成时,会出现"多头""多嘴"等异常情况.针对此类问题,提出基于自注意力机制的文本生成单目标模型SA-AttnGAN.SA-AttnGAN...  相似文献   

18.
多聚焦图像融合是一种以软件方式有效扩展光学镜头景深的技术,该技术通过综合同一场景下多幅部分聚焦图像包含的互补信息,生成一幅更加适合人类观察或计算机处理的全聚焦融合图像,在数码摄影、显微成像等领域具有广泛的应用价值。传统的多聚焦图像融合方法往往需要人工设计图像的变换模型、活跃程度度量及融合规则,无法全面充分地提取和融合图像特征。深度学习由于强大的特征学习能力被引入多聚焦图像融合问题研究,并迅速发展为该问题的主流研究方向,多种多样的方法不断提出。鉴于国内鲜有多聚焦图像融合方面的研究综述,本文对基于深度学习的多聚焦图像融合方法进行系统综述,将现有方法分为基于深度分类模型和基于深度回归模型两大类,对每一类中的代表性方法进行介绍;然后基于3个多聚焦图像融合数据集和8个常用的客观质量评价指标,对25种代表性融合方法进行了性能评估和对比分析;最后总结了该研究方向存在的一些挑战性问题,并对后续研究进行展望。本文旨在帮助相关研究人员了解多聚焦图像融合领域的研究现状,促进该领域的进一步发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号