期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

江锴威王进张琳钰芦欣刘国庆《计算机应用研究》2023,40(4):1226-1232

跨模态行人重识别技术旨在从非重叠视域不同模态的摄像头捕获的行人图像中,识别出特定行人,行人图像间存在巨大的跨模态差异以及模态内部差异,导致识别率不高。为此,提出了一种利用局部监督的跨模态行人重识别方法(LSN)。首先将可见光图像转换成与红外图像更为接近的灰度图像,在图像层面缓解跨模态的差异,并使用共享参数的双流网络,提取具有判别性的共享特征,在特征层面缓解跨模态差异;其次,设计了局部监督网络,增强了对背景、遮挡等噪声的鲁棒性,缓解了模态内部差异;最后,设计了跨模态分组损失、联合身份损失对网络进行约束。实验结果显示,在SYSU-MM01数据集上,评价指标rank-1和mAP分别达到了53.31%、50.88%;在RegDB数据集上,达到了73.51%、68.55%,实验结果优于同类方法,验证了该方法的有效性和先进性。相似文献

2.

双粒度特征融合网络的跨模态行人再识别

下载免费PDF全文

马潇峰程文刚《中国图象图形学报》2023,28(5):1422-1433

目的可见光—红外跨模态行人再识别旨在匹配具有相同行人身份的可见光图像和红外图像。现有方法主要采用模态共享特征学习或模态转换来缩小模态间的差异,前者通常只关注全局或局部特征表示,后者则存在生成模态不可靠的问题。事实上,轮廓具有一定的跨模态不变性,同时也是一种相对可靠的行人识别线索。为了有效利用轮廓信息减少模态间差异,本文将轮廓作为辅助模态,提出了一种轮廓引导的双粒度特征融合网络,用于跨模态行人再识别。方法在全局粒度上,通过行人图像到轮廓图像的融合,用于增强轮廓的全局特征表达,得到轮廓增广特征。在局部粒度上,通过轮廓增广特征和基于部件的局部特征的融合,用于联合全局特征和局部特征,得到融合后的图像表达。结果在可见光—红外跨模态行人再识别的两个公开数据集对模型进行评估,结果优于一些代表性方法。在SYSU-MM01(Sun Yat-sen University multiple modality 01)数据集上,本文方法 rank-1准确率和平均精度均值（mean average precision,mAP）分别为62.42%和58.14%。在RegDB(Dongguk body-base... 相似文献

3.

基于语义伪标签和双重特征存储库的无监督跨模态行人重识别

孙锐余益衡张磊张旭东《模式识别与人工智能》2022,(10):904-914

现有的有监督可见光-近红外行人重识别方法需要大量人力资源去除手工标注数据,容易受到标注数据场景的限制,难以满足真实多变应用场景的泛化性.因此,文中提出基于语义伪标签和双重特征存储库的无监督跨模态行人重识别方法.首先,提出基于对比学习框架的预训练方法,利用可见光行人图像和其生成的辅助灰度图像进行训练.利用该预训练方法获取对颜色变化具有鲁棒性的语义特征提取网络.然后,使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类方法生成语义伪标签.相比现有的伪标签生成方法,文中提出的语义伪标签在生成过程中充分利用跨模态数据之间的结构信息,减少跨模态数据颜色变化带来的模态差异.此外,文中还构建实例级困难样本特征存储库和中心级聚类特征存储库,充分利用困难样本特征和聚类特征,让模型对噪声伪标签具有更强的鲁棒性.在SYSU-MM01、RegDB两个跨模态数据集上的实验验证文中方法的有效性. 相似文献

4.

跨模态行人再识别的协同学习方法

下载免费PDF全文

陈坤峰潘志松王家宝施蕾张锦焦珊珊《计算机工程与应用》2021,57(12):115-125

跨模态行人再识别是实现全天候智能视频监控系统的一项关键技术。该技术旨在匹配某一特定身份行人在不重叠摄像头场景下的可见光图像和红外图像,因而面临着巨大的类内变化和模态差异。现有方法难以较好地解决这两大困难,很大程度上是由于欠缺了对特征判别能力的有效挖掘和对多源异质信息的充分利用。鉴于以上不足,使用协同学习方法设计了一个精细化多源特征协同网络,提取多种互补性特征进行信息融合,以提升网络的学习能力。从骨干卷积网络中提取多尺度和多层次特征,实现精细化特征协同学习,以增强特征的判别能力来应对类内变化。设计了模态共有与特有特征协同模块和跨模态人体语义自监督模块,达到多源特征协同学习的目的,以提高多源异质图像信息的利用率,进而解决模态差异。在SYSU-MM01和RegDB数据集上验证了该方法的有效性和先进性。相似文献

5.

非局部注意力双分支网络的跨模态赤足足迹检索

下载免费PDF全文

鲍文霞茅丽丽王年唐俊杨先军张艳《中国图象图形学报》2022,27(7):2199-2213

目的针对目前足迹检索中存在的采集设备种类多样化、有效的足迹特征难以提取等问题,本文以赤足足迹图像为研究对象,提出一种基于非局部(non-local)注意力双分支网络的跨模态赤足足迹检索算法。方法该网络由特征提取、特征嵌入以及双约束损失模块构成,其中特征提取模块采用双分支结构,各分支均以Res Net50作为基础网络分别提取光学和压力赤足图像的有效特征;同时在特征嵌入模块中通过参数共享学习一个多模态的共享空间,并引入非局部注意力机制快速捕获长范围依赖,获得更大感受野,专注足迹图像整体压力分布,在增强每个模态有用特征的同时突出了跨模态之间的共性特征;为了增大赤足足迹图像类间特征差异和减小类内特征差异,利用交叉熵损失LCE(cross-entropy loss)和三元组损失LTRI(triplet loss)对整个网络进行约束,以更好地学习跨模态共享特征,减小模态间的差异。结果本文将采集的138人的光学赤足图像和压力赤足图像作为实验数据集,并将本文算法与细粒度跨模态检索方法 FGC(fine-grained cross-model)和跨模态行人重识别方法 HC(hetero-cente... 相似文献

6.

模态不变性特征学习和一致性细粒度信息挖掘的跨模态行人重识别

石林波李华锋张亚飞谢明鸿《模式识别与人工智能》2022,(12):1064-1077

跨模态行人重识别方法主要通过对齐不同模态的像素分布或特征分布以缓解模态差异,却忽略具有判别性的行人细粒度信息.为了获取不受模态差异影响且更具判别性的行人特征,文中提出模态不变性特征学习和一致性细粒度信息挖掘的跨模态行人重识别方法.方法主要包括模态不变性特征学习模块和语义一致的细粒度信息挖掘模块,联合两个模块,使特征提取网络获取具有判别性的特征.具体地,首先利用模态不变性特征学习模块去除特征图中的模态信息,缓解模态差异.然后,使用语义一致的细粒度信息挖掘模块,对特征图分别进行通道分组和水平分块,在充分挖掘具有判别性的细粒度信息的同时实现语义对齐.实验表明,文中方法性能较优. 相似文献

7.

基于虚拟属性学习的文本-图像行人检索方法

王成济苏家威罗志明曹冬林林耀进李绍滋《软件学报》2023,34(5):2035-2050

文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像.近年来受到学术界和工业界的广泛关注.该任务同时面临两个挑战:细粒度检索以及图像与文本之间的异构鸿沟.部分方法提出使用有监督属性学习提取属性相关特征,在细粒度上关联图像和文本.然而属性标签难以获取,导致这类方法在实践中表现不佳.如何在没有属性标注的情况下提取属性相关特征,建立细粒度的跨模态语义关联成为亟待解决的关键问题.为解决这个问题,融合预训练技术提出基于虚拟属性学习的文本-图像行人检索方法,通过无监督属性学习建立细粒度的跨模态语义关联.第一,基于行人属性的不变性和跨模态语义一致性提出语义引导的属性解耦方法,所提方法利用行人的身份标签作为监督信号引导模型解耦属性相关特征.第二,基于属性之间的关联构建语义图提出基于语义推理的特征学习模块,所提模块通过图模型在属性之间交换信息增强特征的跨模态识别能力.在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上与现有方法进行实验对比,实验结果表明了所提方法的有效性. 相似文献

8.

基于动态双注意力机制的跨模态行人重识别模型

李大伟曾智勇《计算机应用》2022,42(10):3200-3208

针对跨模态行人重识别图像间模态差异大的问题,大多数现有方法采用像素对齐、特征对齐来实现图像间的匹配。为进一步提高两种模态图像间的匹配的精度,设计了一个基于动态双注意力机制的多输入双流网络模型。首先,在每个批次的训练中通过增加同一行人在不同相机下的图片,让神经网络在有限的样本中学习到充分的特征信息;其次,利用齐次增强得到灰度图像作为中间桥梁,在保留了可见光图像结构信息的同时消除了颜色信息,而灰度图像的运用弱化了网络对颜色信息的依赖,从而加强了网络模型挖掘结构信息的能力;最后,提出了适用于3个模态间图像的加权六向三元组排序（WSDR）损失,所提损失充分利用了不同视角下的跨模态三元组关系,优化了多个模态特征间的相对距离,并提高了对模态变化的鲁棒性。实验结果表明,在SYSU-MM01数据集上,与动态双注意聚合（DDAG）学习模型相比,所提模型在评价指标Rank-1和平均精确率均值（mAP）上分别提升了4.66和3.41个百分点。相似文献

9.

基于双流结构的跨模态行人重识别关系网络

郭玉彬文向刘攀李西明《计算机应用》2023,(6):1803-1810

针对可见光-红外跨模态行人重识别中模态差异导致的识别精确率低的问题,提出了一种基于双流结构的跨模态行人重识别关系网络（IVRNBDS）。首先,利用双流结构分别提取可见光模态和红外模态行人图像的特征;然后,将行人图像的特征图水平切分为6个片段,以提取行人的每个片段的局部特征和其他片段的特征之间的关系,以及行人的核心特征和平均特征之间的关系;最后,在设计损失函数时,引入异质中心三元组损失（HC Loss）函数放松普通三元组损失函数的严格约束,从而使不同模态的图像特征可以更好地映射到同一特征空间中。在公开数据集SYSU-MM01(Sun Yat-Sen University Multi Modal re-identification）和Reg DB(Dongguk Body-based person Recognition）上的实验结果表明,虽然IVRNBDS的计算量略高于当前主流的跨模态行人重识别算法,但所提网络在相似度排名第1(Rank-1）指标和平均精度均值（m AP）指标上都有所提高,提高了跨模态行人重识别算法的识别精确率。相似文献

10.

跨模态异构行人再识别的研究进展

孙锐赵争晖杨梓高隽《模式识别与人工智能》2020,33(12):1066-1082

同构行人再识别技术研究基于可见光图像的行人检索问题,但无法完全应对复杂多变真实场景,大量研究工作开始探索基于可见光图像与其它异构数据之间的行人检索问题,即跨模态异构行人再识别.该研究相比同构行人再识别,更具挑战性.文中首先简述跨模态异构行人再识别的概念及与一般行人再识别的区别,再针对文本与图像、图像与视频、跨分辨率图像、红外图像与可见光图像、深度图与可见光图像、素描与可见光图像这6类场景,归纳整理和分析跨模态异构行人再识别的代表性工作、常用数据集及一些算法的性能表现.最后,总结目前整体研究进展,展望未来发展趋势. 相似文献

11.

融合多尺度对比池化特征的行人重识别方法

刘晓蓉李小霞秦昌辉《计算机工程》2022,48(4):292-298

行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。受行人姿态、遮挡、光照变化等因素的影响,传统的行人重识别方法中特征的表达能力有限,导致准确率降低,提出一种融合不同尺度对比池化特征的行人重识别方法。利用残差网络ResNet50提取行人图像的多尺度特征,在网络的不同层次上,通过对输入的特征进行全局平均池化和最大平均池化,将每组平均池化特征和最大池化特征相减,对相减得到的差异特征与最大池化特征进行相加,获得具有强判别性的对比池化特征。在此基础上,利用三元组损失和交叉熵损失联合优化模型,提高模型的泛化能力,同时采用重排序技术优化网络性能。实验结果表明,该方法在Market1501和DukeMTMC-reID数据集上的首位命中率分别达到96.41%和91.43%,平均精度均值为94.52%和89.30%,相比SVDNet、GLAD和PCB等方法,其行人重识别的准确率较高。相似文献

12.

基于姿态对齐的行人重识别方法

王金刘洁高常鑫桑农《控制理论与应用》2017,34(6):837-842

行人重识别是指根据输入的某个行人图片, 在视频监控网络中对该行人目标进行检索. 行人的姿态变化和监控场景的亮度变化是该任务的两个主要挑战. 针对行人的姿态变化问题, 本文首先对训练集中行人图片进行稠密图像块采样获得图像块集合, 然后对每一个图像块提取其局部表观空间特征, 最后在此特征集上聚类得到通用的行人部件字典. 由于该部件字典编码了行人的部件信息, 因此通过该字典内的每一个码元可以建立两幅行人图像中特定图像块之间的对应关系. 将两幅行人图片的图像块集合分别向部件字典投影, 可以获得2幅行人图片姿态对齐后的图像块序列. 针对监控场景的亮度变化问题, 本文在姿态对齐后的图像块上分别提取4种颜色描述子, 并将不同颜色描述子下的图像块相似性进行分数级组合以获得更好的亮度不变性. 其中不同颜色描述子之间的组合系数通过结构化输出支持向量机学习得到. 在常用的视点不变行人重识别(viewpoint invariant pedestrian recognition,VIPeR)数据集上的实验结果表明, 该方法在存在行人姿态变化和场景亮度变化干扰时获得了较好的行人重识别效果. 相似文献

13.

Image generation and constrained two-stage feature fusion for person re-identification

Zhang Tao Sun Xing Li Xuan Yi Zhengming 《Applied Intelligence》2021,51(11):7679-7689

Generative adversarial network is widely used in person re-identification to expand data by generating auxiliary data. However, researchers all believe that using too much generated data in the training phase will reduce the accuracy of re-identification models. In this study, an improved generator and a constrained two-stage fusion network are proposed. A novel gesture discriminator embedded into the generator is used to calculate the completeness of skeleton pose images. The improved generator can make generated images more realistic, which would be conducive to feature extraction. The role of the constrained two-stage fusion network is to extract and utilize the real information of the generated images for person re-identification. Unlike previous studies, the fusion of shallow features is considered in this work. In detail, the proposed network has two branches based on the structure of ResNet50. One branch is for the fusion of images that are generated by the generated adversarial network, the other is applied to fuse the result of the first fusion and the original image. Experimental results show that our method outperforms most existing similar methods on Market-1501 and DukeMTMC-reID.

相似文献

14.

面向跨模态行人重识别的单模态自监督信息挖掘

下载免费PDF全文

吴岸聪林城梽郑伟诗《中国图象图形学报》2022,27(10):2843-2859

目的在智能监控视频分析领域中,行人重识别是跨无交叠视域的摄像头匹配行人的基础问题。在可见光图像的单模态匹配问题上,现有方法在公开标准数据集上已取得优良的性能。然而,在跨正常光照与低照度场景进行行人重识别的时候,使用可见光图像和红外图像进行跨模态匹配的效果仍不理想。研究的难点主要有两方面:1)在不同光谱范围成像的可见光图像与红外图像之间显著的视觉差异导致模态鸿沟难以消除;2)人工难以分辨跨模态图像的行人身份导致标注数据缺乏。针对以上两个问题,本文研究如何利用易于获得的有标注可见光图像辅助数据进行单模态自监督信息的挖掘,从而提供先验知识引导跨模态匹配模型的学习。方法提出一种随机单通道掩膜的数据增强方法,对输入可见光图像的3个通道使用掩膜随机保留单通道的信息,使模型关注提取对光谱范围不敏感的特征。提出一种基于三通道与单通道双模型互学习的预训练与微调方法,利用三通道数据与单通道数据之间的关系挖掘与迁移鲁棒的跨光谱自监督信息,提高跨模态匹配模型的匹配能力。结果跨模态行人重识别的实验在“可见光—红外”多模态行人数据集SYSU-MM01(Sun Yat-Sen University Multi... 相似文献

15.

基于全局特征改进的行人重识别

张晓涵《计算机系统应用》2022,31(5):298-303

由于行人重识别面临姿态变化、遮挡干扰、光照差异等挑战, 因此提取判别力强的行人特征至关重要. 本文提出一种在全局特征基础上进行改进的行人重识别方法, 首先, 设计多重感受野融合模块充分获取行人上下文信息, 提升全局特征辨别力; 其次, 采用GeM池化获取细粒度特征; 最后, 构建多分支网络, 融合网络不同深度的特征预测行人身份. 本文方法在Market1501和DukeMTMC-ReID两大数据集上的mAP指标分别达到83.8%和74.9%. 实验结果表明, 本文方法有效改进了基于全局特征的模型, 提升了行人重识别的识别准确率. 相似文献

16.

Self-attention mechanism in person re-identification models

Chen Wenbai Lu Yue Ma Hang Chen Qili Wu Xibao Wu Peiliang 《Multimedia Tools and Applications》2022,81(4):4649-4667

In recent years, person re-identification based on video has become a hot topic in the field of person re-identification. The self-attention mechanism can improve the ability of deep neural networks in computer vision tasks such as image classification, image segmentation and natural language processing tasks. In order to verify whether the self-attention can improve the performance or not in person re-identification tasks, this paper applies two self-attention mechanisms, non-local attention and recurrent criss-cross attention to person re-identification model, and experiments are conducted on Market-1501, DukeMTMC-reID and MSMT17 person re-identification datasets. The results show that the self-attention mechanism can improve the accuracy of the person re-identification model. The accuracy is higher when the self-attention module is inserted into the convolutional layers of the re-identification network.

相似文献

17.

Learn Robust Pedestrian Representation Within Minimal Modality Discrepancy for Visible-Infrared Person Re-Identification

下载免费PDF全文

Yu-Jie Liu Wen-Bin Shao Xiao-Rui Sun 《计算机科学技术学报》2022,37(3):641-651

Visible-infrared person re-identification has attracted extensive attention from the community due to its potential great application prospects in video surveillance. There are huge modality discrepancies between visible and infrared images caused by different imaging mechanisms. Existing studies alleviate modality discrepancies by aligning modality distribution or extracting modality-shared features on the original image. However, they ignore a key solution, i.e., converting visible images to gray images directly, which is efficient and effective to reduce modality discrepancies. In this paper, we transform the cross-modality person re-identification task from visible-infrared images to gray-infrared images, which is named as the minimal modality discrepancy. In addition, we propose a pyramid feature integration network (PFINet) which mines the discriminative refined features of pedestrian images and fuses high-level and semantically strong features to build a robust pedestrian representation. Specifically, PFINet first performs the feature extraction from concrete to abstract and the top-down semantic transfer to obtain multi-scale feature maps. Second, the multi-scale feature maps are inputted to the discriminative-region response module to emphasize the identity-discriminative regions by the spatial attention mechanism. Finally, the pedestrian representation is obtained by the feature integration. Extensive experiments demonstrate the effectiveness of PFINet which achieves the rank-1 accuracy of 81.95% and mAP of 74.49% on the multi-all evaluation mode of the SYSU-MM01 dataset. 相似文献

18.

Cross-modality interactive attention network for multispectral pedestrian detection

《Information Fusion》2019

Multispectral pedestrian detection is an emerging solution with great promise in many around-the-clock applications, such as automotive driving and security surveillance. To exploit the complementary nature and remedy contradictory appearance between modalities, in this paper, we propose a novel cross-modality interactive attention network that takes full advantage of the interactive properties of multispectral input sources. Specifically, we first utilize the color (RGB) and thermal streams to build up two detached feature hierarchy for each modality, then by taking the global features, correlations between two modalities are encoded in the attention module. Next, the channel responses of halfway feature maps are recalibrated adaptively for subsequent fusion operation. Our architecture is constructed in the multi-scale format to better deal with different scales of pedestrians, and the whole network is trained in an end-to-end way. The proposed method is extensively evaluated on the challenging KAIST multispectral pedestrian dataset and achieves state-of-the-art performance with high efficiency. 相似文献

19.

A Siamese inception architecture network for person re-identification

Shuangqun Li Huadong Ma 《Machine Vision and Applications》2017,28(7):725-736

Person re-identification is an extremely challenging problem as person’s appearance often undergoes dramatic changes due to the large variations of viewpoints, illuminations, poses, image resolutions, and cluttered backgrounds. How to extract discriminative features is one of the most critical ways to address these challenges. In this paper, we mainly focus on learning high-level features and combine the low-level, mid-level, and high-level features together to re-identify a person across different cameras. Firstly, we design a Siamese inception architecture network to automatically learn effective semantic features for person re-identification in different camera views. Furthermore, we combine multi-level features in null space with the null Foley–Sammon transform metric learning approach. In this null space, images of the same person are projected to a single point, which minimizes the intra-class scatter to the extreme and maximizes the relative inter-class separation simultaneously. Finally, comprehensive evaluations demonstrate that our approach achieves better performance on four person re-identification benchmark datasets, including Market-1501, CUHK03, PRID2011, and VIPeR. 相似文献