基于Vision Transformer的中文唇语识别 |
| |
引用本文: | 薛峰,洪自坤,李书杰,李雨,谢胤岑.基于Vision Transformer的中文唇语识别[J].模式识别与人工智能,2022(12):1111-1121. |
| |
作者姓名: | 薛峰 洪自坤 李书杰 李雨 谢胤岑 |
| |
作者单位: | 1. 合肥工业大学软件学院;2. 合肥工业大学计算机与信息学院 |
| |
基金项目: | 国家自然科学基金项目(No.62272143);;安徽省重大科技专项项目(No.202203a05020025); |
| |
摘 要: | 唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit, GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低.
|
关 键 词: | 唇语识别 Vision Transformer(ViT) 深度神经网络 编解码器 注意力机制 特征提取 |
|