首页 | 本学科首页   官方微博 | 高级检索  
     

基于硬注意力机制的多模态视频字幕的处理
引用本文:郭宁宁,蒋林华.基于硬注意力机制的多模态视频字幕的处理[J].计算机应用研究,2021,38(3):956-960.
作者姓名:郭宁宁  蒋林华
作者单位:上海理工大学 光电信息与计算机工程学院,上海200093;上海理工大学 光电信息与计算机工程学院,上海200093
摘    要:传统的视频字幕生成模型大多都采用编码器—译码器框架。在编码阶段,使用卷积神经网络对视频进行处理。在解码阶段,使用长短期记忆网络生成视频的相应字幕。基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型。该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述。这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较基础模型有0.2%~3.8%的提升。根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕。

关 键 词:编码器—解码器  多模态融合  注意力机制
收稿时间:2019/11/8 0:00:00
修稿时间:2021/2/18 0:00:00

Hard attention based multi-modal fusion for video caption generation
Guo Ningning and Jiang Linhua.Hard attention based multi-modal fusion for video caption generation[J].Application Research of Computers,2021,38(3):956-960.
Authors:Guo Ningning and Jiang Linhua
Affiliation:(School of Optical-Electrical&Computer Engineering,University of Shanghai for Science&Technology,Shanghai 200093,China)
Abstract:
Keywords:encoder-decoder  multi-modal fusion  attention mechanism
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号