共查询到20条相似文献,搜索用时 15 毫秒
1.
为了预测行人在复杂场景中的行走轨迹,提出了一种基于生成对抗网络的可解释模型。该模型以场景中行人的历史轨迹信息和场景环境信息作为模型的输入,并在生成对抗网络中引入了物理注意力机制和社会注意力机制对行人轨迹进行预测。其中,物理注意力机制有助于建模复杂场景的整体布局并提取图像中与路径相关的显著特征,社会注意力机制能够建模不同行人之间的交互对未来轨迹的影响。在生成对抗网络的整体框架下,物理和社会注意力机制的结合使得该模型能够预测出符合物理限制和社会行为规范的多条可接受的未来路径。通过在仿真数据和真实的标准数据集上的实验,可以证明该模型能够实现对行人未来轨迹的有效预测。 相似文献
2.
针对长短期记忆网络(LSTM)在行人轨迹预测问题中孤立考虑单个行人,且无法进行多种可能性预测的问题,提出基于注意力机制的行人轨迹预测生成模型(AttenGAN),来对行人交互模式进行建模和概率性地对多种合理可能性进行预测。AttenGAN包括一个生成器和一个判别器,生成器根据行人过去的轨迹概率性地对未来进行多种可能性预测,判别器用来判断一个轨迹是真实的还是由生成器伪造生成的,进而促进生成器生成符合社会规范的预测轨迹。生成器由一个编码器和一个解码器组成,在每一个时刻,编码器的LSTM综合注意力机制给出的其他行人的状态,将当前行人个体的信息编码为隐含状态。预测时,首先用编码器LSTM的隐含状态和一个高斯噪声连接来对解码器LSTM的隐含状态初始化,解码器LSTM将其解码为对未来的轨迹预测。在ETH和UCY数据集上的实验结果表明,AttenGAN模型不仅能够给出符合社会规范的多种合理的轨迹预测,并且在预测精度上相比传统的线性模型(Linear)、LSTM模型、社会长短期记忆网络模型(S-LSTM)和社会对抗网络(S-GAN)模型有所提高,尤其在行人交互密集的场景下具有较高的精度性能。对生成器多次采样得到的预测轨迹的可视化结果表明,所提模型具有综合行人交互模式,对未来进行联合性、多种可能性预测的能力。 相似文献
3.
行人间交互作用的复杂性给行人轨迹预测带来了挑战,且现有算法难以捕获行人间有意义的交互信息,不能直观地建模行人间的交互作用。针对以上问题,提出多头软注意力图卷积网络。首先利用多头软注意力(MS ATT)结合内卷网络Involution分别从空间图和时间图输入中提取稀疏空间和稀疏时间邻接矩阵,生成稀疏空间和稀疏时间有向图;然后,利用图卷积网络(GCN)从稀疏空间和稀疏时间有向图中学习交互作用与运动趋势特征;最后,将学习到的轨迹特征输入时间卷积网络(TCN)以预测双高斯分布参数,生成行人预测轨迹。在ETH和UCY数据集上的实验结果表明:相较于空时社交关系池化行人轨迹预测模型(SOPM),所提算法的平均位移误差(ADE)降低了2.78%;相较于稀疏图卷积网络(SGCN),所提算法的最终位移误差(FDE)降低了16.92%。 相似文献
4.
5.
针对当前行人轨迹预测研究仅考虑影响行人交互因素的问题,基于状态精细化长短期记忆(SR-LSTM)和注意力机制提出一种用于行人轨迹预测的社交生成对抗网络(SRA-SIGAN)模型,利用生成对抗网络(GAN)学习获得目标行人的运动规律。首先,使用SR-LSTM作为位置编码器提取运动意图信息;其次,通过设置速度注意力机制合理地为同一场景中的行人分配影响力,以更好地处理行人的交互;最后,由解码器生成预测的未来轨迹。在多个公开数据集上的测试实验结果表明,SRA-SIGAN模型的总体表现良好。特别是在Zara1数据集上,与SR-LSTM模型相比,SRA-SIGAN模型的平均位移误差(ADE)和最终位移误差(FDE)分别减小了20.0%和10.5%;与社交生成对抗网络(SIGAN)模型相比,SRA-SIGAN的ADE和FDE分别下降了31.7%和24.4%。 相似文献
6.
为提高行人在复杂交通场景中交互的安全性,提出一种基于social-GAN(social-generative adversarial network)的行人轨迹预测算法SAN-GAN(social angle norm-GAN)。该算法首先以行人历史位置信息与头部信息为输入,通过轨迹生成器LSTM网络(long short term memory networks)获取行人隐藏特征信息,并基于行人视野域模块捕捉行人视野域动态变化,对所有行人建立扇形视野域并筛选有效信息,从而驱动神经网络模型预测行人未来轨迹变化。将SAN-GAN与LSTM、social-LSTM(social-long short term memory networks)、social-GAN等轨迹预测算法进行对比实验,结果表明SAN-GAN算法相较于其他算法,在预测3.2 s的行人轨迹时,ADE分别平均降低65.8%、51.2%、10.7%,FDE分别平均降低73.6%、60.9%、10.4%。SAN-GAN能够有效地预测行人在复杂交通环境中进行交互的未来轨迹。 相似文献
7.
在蓬勃发展的自动驾驶技术中, 行人轨迹预测的结果往往会影响到自动驾驶的安全性. 行人轨迹预测技术目前面临着在实际场景中应用时与他人的交互问题, 需要在预测轨迹的同时考虑社会交互性与逻辑自洽. 因此, 提出了一种基于时空图的行人轨迹预测方法, 该方法采用图注意力网络对场景中的行人交互进行建模, 并使用一种自动生成正负样本的方法来通过对比学习降低输出轨迹的碰撞率, 达到了提高输出轨迹的安全性以及逻辑自洽的效果. 在ETH和UCY数据集上进行模型训练与测试, 结果分析表明, 本文提出的方法有效降低了碰撞率, 且预测准确度优于主流算法. 相似文献
8.
目前已有许多工作将Transformer运用到时间序列预测相关任务. 然而, 相比其他时间序列, 运动轨迹数据存在运动学的不确定性, 没有明显的周期特性. 为了降低噪声干扰, 增强趋势建模, 本文在Transformer架构的基础上, 提出一种基于时频域信息融合和多尺度对抗训练的目标轨迹预测方法. 将小波分解嵌入网络模型, 实现时频域自适应滤波; 并与时域注意力进行融合, 能够更有效地对观测轨迹的长期趋势特性进行编码. 并设计了一个全卷积判别器, 通过对抗训练学习序列的多尺度短期微运动表示, 进一步提高预测精度. 本文建立了一个包括2维船舶轨迹和3维飞行器轨迹的轨迹预测数据集DT作为基准, 并在此与Transformer、LogTrans、Informer等模型进行对比实验. 实验结果表明本文的方法在中长期轨迹预测任务上优于其他模型. 相似文献
9.
针对当前基于深度学习的彩色化模型在面对具有多个目标的复杂场景时存在的误着色问题,提出一种基于像素级生成对抗网络的彩色化模型.该模型在生成网络中采用全卷积网络模型处理不定尺度的输入灰度图像,并加入与真实彩色分量间的L1损失作为彩色化优化目标;在判别网络中,采用语义分割网络计算像素级Softmax损失,反向传递优化彩色化生成网络.在Pascal Segmentation及ILSVRC2012数据集上进行的彩色化图像质量比较,实验结果表明,与同类模型相比,本文模型在处理复杂场景灰度图像的彩色化任务中具有更高的着色准确率,并且对不同目标之间具有更好的区分度. 相似文献
10.
针对现有船舶轨迹预测模型预测准确度低的问题,提出一种基于注意力机制的时域卷积网络和双向长短时记忆网络(TCN-ABiLSTM)的船舶轨迹预测模型。首先搭建TCN网络提取船舶轨迹的序列特征,之后将注意力机制引入网络调整不同属性特征的权值,凸出对轨迹预测影响更大的特征,最后搭建Bi-LSTM网络学习轨迹序列的前后状况来提取序列中更多的信息,实现对船舶未来轨迹的预测;通过实际船舶AIS数据对网络进行训练与测试实验,实验结果表明,TCN-ABiLSTM模型相比LSTM、Bi-LSTM、TCN、BiLSTM-Attention、TCN-Attention模型船舶轨迹预测精度更高,拟合程度更好,验证了所设计的TCN-ABiLSTM模型在船舶轨迹预测方面的的有效性和实用性。 相似文献
11.
传统符号预测方法缺少处理二阶邻居信息的能力,难以有效提取社交网络用户的低维特征。为了有效融合节点用户邻居信息,提出了一种利用多头注意力机制学习一阶、二阶邻居信息的网络表示学习方法(signed multi-head graph attention network,SMGAT),从而改善社交网络符号预测的效果。首先融合平衡理论和状态理论采样一阶邻居、二阶邻居;然后利用多头注意力机制融合邻居的符号和结构信息,学习节点的低维特征;最后通过逻辑回归分类器实现符号预测。通过在四个真实的符号网络数据集上进行实验,结果证明SMGAT方法能够有效挖掘邻居节点的符号和结构信息,提高社交网络符号预测效果。 相似文献
12.
13.
由于时间、地点、摄影设备等因素的限制,导致在真实世界中很难获得内容相同而场景不同的图像,一种可行方式是利用生成对抗网络(GAN)在没有成对数据集的情况下对图片中的场景进行转换,但是已有基于GAN的图像场景转换方法主要关注单个类别、单向、结构简单的场景。为了解决具有丰富类别和高度复杂语义结构的图像场景转换问题,提出一种基于GAN的图像场景转换模型,以实现晴天、雨天、雾天等不同场景之间的转换。将GAN、注意力模块和场景分割模块相结合,使模型正确识别并转换感兴趣区域同时保持其他区域不变。为了进一步提高输出的多样性,提出一种新型的正则化损失来抑制潜在噪声。此外,为了避免因缺乏噪声约束而出现的模态崩溃问题,在鉴别器中嵌入噪声分离模块。实验结果表明,相较CycleGAN、UNIT、MUNIT、NICE-GAN等6种对比模型,该模型所生成图像的FID得分和KID得分平均分别提高约7.25%和19%,其能够在不同场景下生成视觉效果更佳的图像。 相似文献
14.
15.
针对单一长短时记忆(LSTM)网络在航迹预测上无法有效提取关键信息以及难以精准拟合数据分布等问题,提出基于注意力机制和生成对抗网络(GAN)的飞行器短期轨迹预测模型。首先,引入注意力机制对航迹赋予不同的权重,以提升航迹中重要特征的影响力;其次,基于LSTM提取航迹序列特征,并经汇聚层汇集时间步长内所有的飞行器特征;最后,利用GAN在对抗博弈下不断优化的特性来优化模型,从而提高模型的准确性。相较于社会生成对抗网络(SGAN),所提模型在处于爬升阶段的数据集上的平均位移误差(ADE)、最终位移误差(FDE)及最大位移误差(MDE)分别降低了20.0%、20.4%和18.3%。实验结果表明,所提模型能更精确地预测未来航迹。 相似文献
16.
为了解决推荐模型中无法挖掘用户兴趣多样性和捕捉用户行为序列之间的顺序信息,以及交互发生在元素级并非特征向量之间等问题,提出一种基于多头注意力机制和位置信息的xDeepFM推荐模型(extreme deep multiple attention and location information factorization machine,xDMALFM).首先通过多头注意力机制进行不同子空间的特征深度提取,然后利用位置信息去捕捉用户行为序列之间的顺序关系.最后,利用三个公开数据集进行对比实验,以AUC指标进行评估.实验结果表明所提算法相比xDeepFM模型具有更好的推荐性能,验证了其有效性与可行性. 相似文献
17.
目的 针对行人轨迹预测问题,已有的几种结合场景信息的方法基于合并操作通过神经网络隐式学习场景与行人运动的关联,无法直观地解释场景对单个行人运动的调节作用。除此之外,基于图注意力机制的时空图神经网络旨在学习全局模式下行人之间的社会交互,在人群拥挤场景下精度不佳。鉴于此,本文提出一种场景限制时空图卷积神经网络(scene-constrained spatial-temporal graph convolutional neural network,Scene-STGCNN)。方法 Scene-STGCNN由运动模块、基于场景的微调模块、时空卷积和时空外推卷积组成。运动模块以时空图卷积提取局部行人时空特征,避免了时空图神经网络在全局模式下学习交互的局限性。基于场景的微调模块将场景信息嵌入为掩模矩阵,用来调节运动模块生成的中间运动特征,具备实际场景下的物理解释性。通过最小化核密度估计下真实轨迹的负对数似然,增强Scene-STGCNN输出的多模态性,减少预测误差。结果 实验在公开数据集ETH (包含ETH和HOTEL)和UCY (包含UNIV、ZARA1和ZARA2)上与其他7种主流方法进行比较,就平均值而言,相对于性能第2的模型,平均位移误差(average displacement error,ADE)值减少了12%,最终位移误差(final displacement error,FDE)值减少了9%。在同样的数据集上进行了消融实验以验证基于场景的微调模块的有效性,结果表明基于场景的微调模块能有效建模场景对行人轨迹的调节作用,从而减小算法的预测误差。结论 本文提出的场景限制时空图卷积网络能有效融合场景和行人运动,在学习局部模式下行人交互的同时基于场景特征对轨迹特征做实时性调节,相比于其他主流方法,具有更优的性能。 相似文献
18.
针对传统基于生成对抗网络(GAN)模型存在生成对抗样本无效且训练效率低等问题,提出一种基于注意力机制的GAN模型,通过在生成器模块引入注意力机制,保留攻击流量攻击功能的同时,对输入向量的不同部分设置不同权值,以实现对关键特征信息的抽取,使得模型可以作出更准确的判断,同时提高训练的效率。生成器根据注意力特征图可以抽取攻击流量中的非功能特征进行修改,提高训练效率,结合判别器判别反馈结果,最终生成器可以生成保留攻击功能的有效对抗样本。实验针对基于卷积神经网络(CNN)类的深度入侵检测系统进行测试,验证了此基于注意力机制的GAN对抗攻击模型生成的对抗流量可以有效降低深度入侵检测系统的识别率,整体识别率降低超过10%,在注意力模块的帮助下模型能够针对重要特征进行训练,使得收敛速度更快、效率更高。 相似文献
19.
目的 场景文本识别(scene text recognition,STR)是计算机视觉中的一个热门研究领域。最近,基于多头自注意力机制的视觉Transformer (vision Transformer,ViT)模型被提出用于STR,以实现精度、速度和计算负载的平衡。然而,没有机制可以保证不同的自注意力头确实捕捉到多样性的特征,这将导致使用多头自注意力机制的ViT模型在多样性极强的场景文本识别任务中表现不佳。针对这个问题,提出了一种新颖的正交约束来显式增强多个自注意力头之间的多样性,提高多头自注意力对不同子空间信息的捕获能力,在保证速度和计算效率的同时进一步提高网络的精度。方法 首先提出了针对不同自注意力头上Q (query)、K (key)和V (value)特征的正交约束,这可以使不同的自注意力头能够关注到不同的查询子空间、键子空间、值子空间的特征,关注不同子空间的特征可以显式地使不同的自注意力头捕捉到更具差异的特征。还提出了针对不同自注意力头上Q 、K 和V 特征线性变换权重的正交约束,这将为Q、K和V特征的学习提供正交权重空间的解决方案,并在网络训练中带来隐式正则化的效果。结果 实验在7个数据集上与基准方法进行比较,在规则数据集Street View Text (SVT)上精度提高了0.5%;在不规则数据集CUTE80 (CT)上精度提高了1.1%;在7个公共数据集上的整体精度提升了0.5%。结论 提出的即插即用的正交约束能够提高多头自注意力机制在STR任务中的特征捕获能力,使ViT模型在STR任务上的识别精度得到提高。本文代码已公开: https://github.com/lexiaoyuan/XViTSTR。 相似文献
20.
近年来,越来越多的生成对抗网络出现在深度学习的各个领域中.条件生成对抗网络(Conditional Generative Adver-sarial Networks,cGAN)开创性地将监督学习引入到无监督的GAN网络中,这使得GAN可以生成有标签数据.传统的GAN通过多次卷积运算来模拟不同区域之间的相关性,进而生成图... 相似文献