基于时空解耦Transformer的视频字幕去除算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于时空解耦Transformer的视频字幕去除算法

作者姓名：	涂奕飞蔡非凡王超丁友东

作者单位：	1. 上海大学上海电影学院;2. 上海电影特效工程技术研究中心

基金项目：	国家自然科学基金(61303093,61402278)；;上海市自然科学基金(19ZR1419100)；

摘要：	视频字幕在传递信息的同时，固化在视频中的字幕也阻碍了视频的重复利用。提出一种基于时空解耦Transformer的视频字幕去除算法，能够从带有字幕文本的视频序列中去除字幕文本，并重建出被字幕区域遮挡的背景图像。整体框架分为两个部分，字幕掩膜提取模块和字幕去除模块，前者快速精准地获得输入视频序列的二值字幕掩膜，将得到的二值字幕掩膜作为辅助信息，输入到基于时空解耦Transformer的字幕去除模块，进行字幕文本的去除和背景纹理的恢复，实现对整体视频字幕的去除。与现有的经典视频字幕去除方法相比，在峰值信噪比和结构相异性等图像质量指标以及视觉效果上，该方法均取得了更好的性能，实验结果验证了该方法在视频字幕去除领域的有效性。
关键词：	视频去字幕深度学习 Transformer 注意力机制