多帧时空注意力引导的半监督视频分割 Multiframe spatiotemporal attention-guided semisupervised video segmentation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

多帧时空注意力引导的半监督视频分割

引用本文：	罗思涵,袁夏,梁永顺.多帧时空注意力引导的半监督视频分割[J].中国图象图形学报,2024,29(5):1233-1251.

作者姓名：	罗思涵袁夏梁永顺

作者单位：	南京理工大学计算机科学与工程学院, 南京 210094;南京理工大学数学与统计学院, 南京 210094

基金项目：	国家自然科学基金项目（12071218）

摘要：	目的传统的半监督视频分割多是基于光流的方法建模关键帧与当前帧之间的特征关联。而光流法在使用过程中容易因遮挡、特殊纹理等情况产生错误，从而导致多帧融合存在问题。为了更好地融合多帧特征，本文提取第1帧的外观特征信息与邻近关键帧的位置信息，通过Transformer和改进的PAN（path aggregation network）模块进行特征融合，从而基于多帧时空注意力学习并融合多帧的特征。方法多帧时空注意力引导的半监督视频分割方法由视频预处理（即外观特征提取网络和当前帧特征提取网络）以及基于Transformer和改进的PAN模块的特征融合两部分构成。具体包括以下步骤：构建一个外观信息特征提取网络，用于提取第1帧图像的外观信息；构建一个当前帧特征提取网络，通过Transformer模块对当前帧与第1帧的特征进行融合，使用第1帧的外观信息指导当前帧特征信息的提取；借助邻近数帧掩码图与当前帧特征图进行局部特征匹配，决策出与当前帧位置信息相关性较大的数帧作为邻近关键帧，用来指导当前帧位置信息的提取；借助改进的PAN特征聚合模块，将深层语义信息与浅层语义信息进行融合。结果本文算法在DAVIS（densely annotated video segmentation）-2016数据集上的J和F得分为81.5%和80.9%，在DAVIS-2017数据集上为78.4%和77.9%，均优于对比方法。本文算法的运行速度为22帧/s，对比实验中排名第2，比PLM（pixel-level matching）算法低1.6%。在YouTube-VOS（video object segmentation）数据集上也取得了有竞争力的结果，J和F的平均值达到了71.2%，领先于对比方法。结论多帧时空注意力引导的半监督视频分割算法在对目标物体进行分割的同时，能有效融合全局与局部信息，减少细节信息丢失，在保持较高效率的同时能有效提高半监督视频分割的准确率。
关键词：	视频目标分割(VOS) 特征提取网络外观特征信息时空注意力特征聚合
收稿时间：	2023/9/11 0:00:00
修稿时间：	2024/1/3 0:00:00
Multiframe spatiotemporal attention-guided semisupervised video segmentation

Luo Sihan,Yuan Xi,Liang Yongshun.Multiframe spatiotemporal attention-guided semisupervised video segmentation[J].Journal of Image and Graphics,2024,29(5):1233-1251.

Authors:	Luo Sihan Yuan Xi Liang Yongshun

Affiliation:	School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China; School of Mathematics and Statistics, Nanjing University of Science and Technology, Nanjing 210094, China

Abstract:

Keywords:	video object segmentation(VOS) feature extraction network appearance feature information spatiotemporal attention feature aggregation

	点击此处可从《中国图象图形学报》浏览原始摘要信息
	点击此处可从《中国图象图形学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏