摘 要: | 视频行人重识别在监控场景中起着非常重要的作用.但是,大多数现有方法没有充分利用行人视频序列的时空信息.具体来说,这些方法以相同的分辨率和网络结构处理每一帧图像,造成连续帧特征的高度相似.此外,现有方法通常通过引入各种复杂的操作提高精度,过多的计算开销使其不利于真实场景的部署.针对上述问题,本文提出了一个时序多尺度互补网络,旨在高效地为视频的连续帧提取互补的特征.具体来说,时序多尺度互补网络包含多个具有不同输入分辨率的分支.其中,高分辨率分支处理原始分辨率帧,用于保留行人的细节线索;低分辨率分支处理以不同降采样率得到的低分辨率帧,用于捕捉更全局的行人信息.通过将连续帧输入到不同分支中,连续帧能关注不同粒度的空间区域,生成互补的特征.进一步,设计了一个多分支批量归一化层,保证了训练时分支之间的互补性.最后,提出一个跨分支融合模块,将低分辨率分支的全局信息逐步传播到高分辨分支中,得到一个融合了多尺度全局粗粒度和局部细粒度互补信息的特征.在iLIDS-VID,MARS和LS-VID三个数据集上的实验显示,本文提出的方法达到了比目前最好方法更好的性能,例如,在LS-VID上提升了4.5%mAP和...
|