首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
RGBT目标跟踪利用可见光(RGB)与热红外(T)两种不同模态的优势来解决单一模态目标跟踪中常见的模态受限问题,以此提升复杂环境下的目标跟踪性能。在RGBT目标跟踪算法中,精准定位目标位置和有效融合两种模态都是非常重要的问题。为了达到精准定位目标以及有效融合两种模态的目的,提出了一种探索高秩的特征图以及引入位置注意力来进行RGBT目标跟踪的新方法。该方法首先根据主干网络的深层与浅层的特征,使用位置注意力来关注目标的位置信息,接着通过探索两种模态融合前的高秩特征图,关注特征的重要性,以指导模态特征融合。为了关注目标位置信息,在行和列上使用平均池化操作。对于高秩特征指导模块,文中根据特征图的秩来指导特征图的融合。并且,为了去除冗余和噪声,实现更加鲁棒的特征表达,直接删除了秩小的特征图。在两个RGBT跟踪基准数据集上的实验结果表明,与其他RGBT目标跟踪方法相比,所提方法在准确度和成功率上取得了更好的跟踪结果。  相似文献   

2.
如何有效挖掘单模态表征并实现多模态信息的充分融合是多模态情感分析研究的重点之一。针对多模态情感分析中的模态间噪声和多模态特征融合不充分等问题,提出一种基于跨模态门控机制和改进融合方法的多模态情感分析模型。首先,利用跨模态门控机制去除模态间噪声,提取互补信息以增强模态表示。然后,利用权重和相似约束分别关注不同模态情感贡献的差异性和情感表达的一致性。最后,结合模态的多层次表示获得情感分析的结果。在三个公开数据集上的实验结果表明,所提模型是有效的,相比已有一些模型取得了更好的性能。  相似文献   

3.
为解决如何选取更具辨别力的多模态人物特征,以及在进行人物关系推理时如何更加关注特定于个人的时空交互建模的问题,提出了基于选择性特征融合的动态关系推理算法框架(SFDRI)。通过设计选择性特征融合模块,根据不同模态特征的随机函数概率分布得分,添加重采样方法以选取最相关的特征表示实现多模态特征的选择融合,并采用动态关系推理模块实现针对个人的复杂时空推理,通过在时空图上初始化交互域,利用点积计算预测人物交互关系矩阵,并同时添加每个人物特征的动态偏移以形成特定于个人的交互图,通过迭代更新交互图上的特征进行最终的群组行为的识别。结合对比实验,算法在公开的排球数据集(volleyball dataset, VD)和集体活动数据集(collective activity dataset, CAD)上分别提升了1.2%和1.5%的平均识别精度,证明了算法框架的有效性。  相似文献   

4.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,...  相似文献   

5.
针对多模态目标跟踪中大多仅考虑单个图像的异种特征融合或不同模态图像的同种特征融合,为了使得这两者间能自然集成,提出基于联合压缩感知的多模态目标统一跟踪方法.通过将多模态跟踪问题转化为多重?2-范数不等式约束下的多?1-范数联合最小化问题,并设计了能求解该联合最小化问题的特定增广拉格朗日乘子算法,从而实现快速而精准的目标跟踪,可同时处理来自同一图像或不同模态图像中的多种不同特征间的融合,并能自由地添加或删除特征.此外,还提出了基于稀疏集中度指标的目标模板协同更新方案,来筛选出表现最优的目标模板.在DCU,OTCBVS,BEPMDS,OTB50和VOT-TIR等数据集上采用逐帧跟踪的方法进行实验,结果表明在跟踪精度、成功率以及速度3个评价指标上,文中方法的平均性能分别达到了0.96,0.91和3.48.  相似文献   

6.
近年来,幽默识别逐渐成为自然语言处理领域的热点研究之一。已有的研究多聚焦于文本上的幽默识别,在多模态数据上开展此任务的研究相对较少,现有方法在学习模态间交互信息上存在不足。该文提出了基于注意力机制的模态融合模型,首先对单模态上下文进行独立编码,得到单一模态的特征向量;然后将注意力机制作用于两种模态的特征序列,使用层级注意力结构捕获多模态信息在段落上下文中的关联与交互。该文在UR-FUNNY公开数据集上进行了实验,相比之前最优结果在精确率上提升了1.37%。实验表明,该文提出的模型能很好地对多模态上下文进行建模,引入多模态交互信息和段落上下文信息可提高幽默识别的性能。  相似文献   

7.
多模态情感分析旨在通过用户上传在社交平台上的视频来判断用户的情感. 目前的多模态情感分析研究主要是设计复杂的多模态融合网络来学习模态之间的一致性信息, 在一定程度上能够提升模型的性能, 但它们大部分都忽略了模态之间的差异性信息所起到的互补作用, 从而导致情感分析出现偏差. 本文提出了一个基于双编码器表示学习的多模态情感分析模型DERL (dual encoder representation learning), 该模型通过双编码器结构学习模态不变表征和模态特定表征. 具体来说, 我们利用基于层级注意力机制的跨模态交互编码器学习所有模态的模态不变表征, 获取一致性信息; 利用基于自注意力机制的模态内编码器学习模态私有的模态特定表征, 获取差异性信息. 此外, 我们设计两个门控网络单元对编码后的特征进行增强和过滤, 以更好地结合模态不变和模态特定表征, 最后在融合时通过缩小不同多模态表示之间的L2距离以捕获它们之间潜在的相似情感用于情感预测. 在两个公开的数据集CMU-MOSI和CMU-MOSEI上的实验结果表明该模型优于一系列基线模型.  相似文献   

8.
方面级多模态情感分类任务的一个关键是从文本和视觉两种不同模态中准确地提取和融合互补信息, 以检测文本中提及的方面词的情感倾向. 现有的方法大多数只利用单一的上下文信息结合图片信息来分析, 存在对方面和上下文信息、视觉信息的相关性的识别不敏感, 对视觉中的方面相关信息的局部提取不够精准等问题, 此外, 在进行特征融合时, 部分模态信息不全会导致融合效果一般. 针对上述问题, 本文提出一种注意力融合网络AF-Net模型去进行方面级多模态情感分类, 利用空间变换网络STN学习图像中目标的位置信息来帮助提取重要的局部特征; 利用基于Transformer的交互网络对方面和文本以及图像之间的关系进行建模, 实现多模态交互; 同时补充了不同模态特征间的相似信息以及使用多头注意力机制融合多特征信息, 表征出多模态信息, 最后通过Softmax层取得情感分类的结果. 在两个基准数据集上进行实验和对比, 结果表明AF-Net能获得较好的性能, 提升方面级多模态情感分类的效果.  相似文献   

9.
面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能,而模态的普遍性和深度学习的热度促进了多模态融合技术的发展。在多模态融合技术发展前期,以提升深度学习模型分类与回归性能为出发点,阐述多模态融合架构、融合方法和对齐技术。重点分析联合、协同、编解码器3种融合架构在深度学习中的应用情况与优缺点,以及多核学习、图像模型和神经网络等具体融合方法与对齐技术,在此基础上归纳多模态融合研究的常用公开数据集,并对跨模态转移学习、模态语义冲突消解、多模态组合评价等下一步的研究方向进行展望。  相似文献   

10.
针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题,提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法。使用深度卷积神经网络代替传统的手工设计特征方式分别自动从可见模态及红外热模态的图片中提取单模态特征,根据ResNet(Residual Net)的阶段性特征图谱搭建特征金字塔网络,生成每个模态的特征金字塔,并将两个模态的特征金字塔进行逐层融合。选择深度学习通用目标检测算法--Faster R-CNN作为后续的目标定位与分类算法来解决多模态行人检测问题。在特征金字塔融合阶段,针对级联融合和较大值融合容易忽略弱特征,无法有效融合互补特征的问题,提出了一种锐化特征的特征金字塔融合方法,根据阈值强化突出强特征,互补叠加弱特征,有效利用每个模态的特征,进一步提高模型的检测效果。实验结果表明,特征金字塔聚合的多模态行人检测算法可以有效解决多模态行人检测问题,在KAIST数据集上的检测效果超过了目前该数据集上的最佳模型。  相似文献   

11.
目标跟踪是计算机视觉研究中的前沿和热点问题,在安全监控、无人驾驶等领域中有着重要的应用价值。然而,目前基于可见光数据的视觉跟踪方法,在光照变化、恶劣天气下因数据质量受限难以实现鲁棒跟踪。因此,一些研究者提出了多模态视觉跟踪任务,通过引入其他模态数据,包括红外模态、深度模态、事件模态以及文本模态,在一定程度上弥补了可见光模态在恶劣天气、遮挡、快速运动和外观歧义等条件下的不足。多模态视觉跟踪旨在挖掘可见光和其他模态数据的互补优势,在视频中实现鲁棒的目标定位,对全天时全天候感知有着重要的价值和意义,受到越来越多的研究和关注。由于主流的多模态视觉跟踪方法针对可见光—红外跟踪展开,因此,本文以阐述可见光—红外跟踪方法为主,从信息融合的角度将现有方法划分为结合式融合和判别式融合,分别进行了详细介绍和分析,并对不同类方法的优缺点进行了分析和比较。然后,本文对其他多模态视觉跟踪任务的研究工作进行了介绍,并对不同多模态视觉跟踪任务的优缺点进行了分析和比较。最后,本文对多模态视觉跟踪方法进行了总结并对未来发展进行展望。  相似文献   

12.
杜鹏  宋永红  张鑫瑶 《自动化学报》2022,48(6):1457-1468
行人再识别是实现多目标跨摄像头跟踪的核心技术, 该技术能够广泛应用于安防、智能视频监控、刑事侦查等领域. 一般的行人再识别问题面临的挑战包括摄像机的低分辨率、行人姿态变化、光照变化、行人检测误差、遮挡等. 跨模态行人再识别相比于一般的行人再识别问题增加了相同行人不同模态的变化. 针对跨模态行人再识别中存在的模态变化问题, 本文提出了一种自注意力模态融合网络. 首先是利用CycleGAN生成跨模态图像. 在得到了跨模态图像后利用跨模态学习网络同时学习两种模态图像特征, 对于原始数据集中的图像利用SoftMax 损失进行有监督的训练, 对生成的跨模态图像利用LSR (Label smooth regularization) 损失进行有监督的训练. 之后, 使用自注意力模块将原始图像和CycleGAN生成的图像进行区分, 自动地对跨模态学习网络的特征在通道层面进行筛选. 最后利用模态融合模块将两种筛选后的特征进行融合. 通过在跨模态数据集SYSU-MM01上的实验证明了本文提出的方法和跨模态行人再识别其他方法相比有一定程度的性能提升.  相似文献   

13.
Multispectral pedestrian detection is an emerging solution with great promise in many around-the-clock applications, such as automotive driving and security surveillance. To exploit the complementary nature and remedy contradictory appearance between modalities, in this paper, we propose a novel cross-modality interactive attention network that takes full advantage of the interactive properties of multispectral input sources. Specifically, we first utilize the color (RGB) and thermal streams to build up two detached feature hierarchy for each modality, then by taking the global features, correlations between two modalities are encoded in the attention module. Next, the channel responses of halfway feature maps are recalibrated adaptively for subsequent fusion operation. Our architecture is constructed in the multi-scale format to better deal with different scales of pedestrians, and the whole network is trained in an end-to-end way. The proposed method is extensively evaluated on the challenging KAIST multispectral pedestrian dataset and achieves state-of-the-art performance with high efficiency.  相似文献   

14.
目的 为提高目标跟踪的鲁棒性,针对相关滤波跟踪中的多特征融合问题,提出了一种多特征分层融合的相关滤波鲁棒跟踪算法。方法 采用多通道相关滤波跟踪算法进行目标跟踪时,从目标和周围背景区域分别提取HOG(histogram of oriented gradient)、CN(color names)和颜色直方图3种特征。提出的分层融合算法首先采用自适应加权融合策略进行HOG和CN特征的特征响应图融合,通过计算特征响应图的平滑约束性和峰值旁瓣比两个指标得到融合权重。将该层融合结果与基于颜色直方图特征获得的特征响应图进行第2层融合时,采用固定系数融合策略进行特征响应图的融合。最后基于融合后的响应图估计目标的位置,并采用尺度估计算法估计得到目标更准确的包围盒。结果 采用OTB-2013(object tracking benchmark 2013)和VOT-2014(visual object tracking 2014)公开测试集验证所提跟踪算法的性能,在对多特征分层融合参数进行分析的基础上,与5种主流基于相关滤波的目标跟踪算法进行了对比分析。实验结果表明,本文算法的目标跟踪精度有所提高,其跟踪精度典型值比Staple算法提高了5.9%(0.840 vs 0.781),同时由于有效地融合了3种特征,在多种场景下目标跟踪的鲁棒性优于其他算法。结论 提出的多特征分层融合跟踪算法在保证跟踪准确率的前提下,跟踪鲁棒性优于其他算法。当相关滤波跟踪算法采用了多个不同类型特征时,本文提出的分层融合策略具有一定的借鉴性。  相似文献   

15.
目的 在高分辨率遥感影像语义分割任务中,仅利用可见光图像很难区分光谱特征相似的区域(如草坪和树、道路和建筑物),高程信息的引入可以显著改善分类结果。然而,可见光图像与高程数据的特征分布差异较大,简单的级联或相加的融合方式不能有效处理两种模态融合时的噪声,使得融合效果不佳。因此如何有效地融合多模态特征成为遥感语义分割的关键问题。针对这一问题,本文提出了一个多源特征自适应融合模型。方法 通过像素的目标类别以及上下文信息动态融合模态特征,减弱融合噪声影响,有效利用多模态数据的互补信息。该模型主要包含3个部分:双编码器负责提取光谱和高程模态的特征;模态自适应融合模块协同处理多模态特征,依据像素的目标类别以及上下文信息动态地利用高程信息强化光谱特征,使得网络可以针对特定的对象类别或者特定的空间位置来选择特定模态网络的特征信息;全局上下文聚合模块,从空间和通道角度进行全局上下文建模以获得更丰富的特征表示。结果 对实验结果进行定性、定量相结合的评价。定性结果中,本文算法获取的分割结果更加精细化。定量结果中,在ISPRS(International Society for Photogrammetry...  相似文献   

16.
目的 多目标跟踪与分割是计算机视觉领域一个重要的研究方向。现有方法多是借鉴多目标跟踪领域先检测然后进行跟踪与分割的思路,这类方法对重要特征信息的关注不足,难以处理目标遮挡等问题。为了解决上述问题,本文提出一种基于时空特征融合的多目标跟踪与分割模型,利用空间三坐标注意力模块和时间压缩自注意力模块选择出显著特征,以此达到优异的多目标跟踪与分割性能。方法 本文网络由2D编码器和3D解码器构成,首先将多幅连续帧图像输入到2D编码层,提取出不同分辨率的图像特征,然后从低分辨率的特征开始通过空间三坐标注意力模块得到重要的空间特征,通过时间压缩自注意力模块获得含有关键帧信息的时间特征,再将两者与原始特征融合,然后与较高分辨率的特征共同输入3D卷积层,反复聚合不同层次的特征,以此得到融合多次的既有关键时间信息又有重要空间信息的特征,最后得到跟踪和分割结果。结果 实验在YouTube-VIS(YouTube video instance segmentation)和KITTI MOTS(multi-object tracking and segmentation)两个数据集上进行定量评估。在YouTub...  相似文献   

17.
目的 针对目标跟踪算法在现实场景的遮挡、光照变化和尺度变化等问题,提出一种融入时序信息和速度信息的多特征融合自适应模型更新目标跟踪算法。方法 通过提取目标的分级深度特征和手工设计方向梯度直方图(histogram of oriented gradients,HOG)特征,以全深度特征组合和深层深度特征与手工设计特征组合的方式构造两个融合特征器,提高在复杂场景下跟踪的稳健性;对融合特征进行可信度计算,选择最可靠融合特征对当前帧目标进行跟踪;在跟踪质量不可靠时,对目标表征模型进行更新,加入时间上下文信息和当前鲁棒表征信息,通过多峰值判定和运动速度判定选择最优目标预测位置作为最终结果。结果 在OTB(object tracking benchmark)2013和OTB2015数据库上进行大量测试,与其他7个算法相比,本文算法总体效果取得最优,且在不同复杂环境下也取得了优秀的跟踪效果,在OTB13和OTB15数据库中,跟踪精度分别为89.3%和83.3%,成功率分别为87%和78.3%。结论 本文算法利用深度特征与手工设计特征进行融合,对跟踪结果进行多峰值分析和运动速度判定,跟踪结果不佳时自适应更新特征进行重跟踪。实验结果表明,本文算法可以有效处理光照变化、背景杂波和遮挡等复杂因素的干扰,有效提升了跟踪质量。  相似文献   

18.
目的 针对现实场景中跟踪目标背景复杂、光照变化、快速运动、旋转等问题,提出自适应多特征融合的相关滤波跟踪算法。方法 提取目标的HOG(histogram of oriented gradients)特征和利用卷积神经网络提取高、低层卷积特征,借助一种自适应阈值分割方法评估每种特征的有效性,得到特征融合的权重比。根据权重系数融合每种特征的响应图,并据此得到目标的新估计位置,利用尺度相关滤波器计算目标尺度,得到目标尺度完成跟踪。结果 在OTB(object tracking benchmark)-2013公开数据集上进行实验,在对多特征融合进行分析的基础上,测试了本文算法在11种不同属性下的跟踪性能,并与当前流行的7种算法进行对比分析。结果表明,本文算法的成功率和精确度均排名第1,相较于基准算法DSST (discriminative scale space tracking)跟踪精确度提高了4%,成功率提高了6%。在复杂场景下比其他主流算法更具有鲁棒性。结论 本文算法以DSST相关滤波跟踪器为基准算法,借助自适应阈值分割方法评估每种特征的有效性,自适应融合两层卷积特征和HOG特征,使得判别性越强的单一特征融合权重越大,较好表达了目标的外观模型,在背景复杂、目标消失、光照变化、快速运动、旋转等场景下表现出较强的跟踪准确性。  相似文献   

19.
针对各模态之间信息密度存在差距和融合过程中可能会丢失部分情感信息等问题,提出一种基于非文本模态强化和门控融合方法的多模态情感分析模型。该模型通过设计一个音频-视觉强化模块来实现音频和视觉模态的信息增强,从而减小与文本模态的信息差距。之后,通过跨模态注意力和门控融合方法,使得模型充分学习到多模态情感信息和原始情感信息,从而增强模型的表达能力。在对齐和非对齐的CMU-MOSEI数据集上的实验结果表明,所提模型是有效的,相比现有的一些模型取得了更好的性能。  相似文献   

20.
刘子龙  王晨 《计算机应用研究》2021,38(12):3796-3800
主流的目标跟踪算法只使用可见光(RGB)图像进行跟踪任务,当跟踪场景的光照条件较差时,表征颜色和纹理特征的可见光图像会严重限制跟踪器的跟踪性能.针对单一模态目标信息存在缺失的问题,在Siam-FC网络模型以及红外—可见光图像融合思想的基础上提出了双模态权值自更新孪生网络目标跟踪方法.根据红外图像可以采集运动目标热信息的特点,有效利用了红外和可见光图像在目标跟踪领域的互补优势;使用较浅的特征提取网络AlexNet即可提取到运动目标具有鲁棒性的特征,在保证跟踪精度的同时提高了跟踪模型的跟踪速度.在公开数据集OTB2015和红外—可见光数据集RGB-T210进行实验,结果表明提出的目标跟踪算法在各种跟踪场景下都取得了较好的跟踪效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号