基于硬注意力机制的多模态视频字幕的处理 Hard attention based multi-modal fusion for video caption generation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于硬注意力机制的多模态视频字幕的处理

引用本文：	郭宁宁,蒋林华.基于硬注意力机制的多模态视频字幕的处理[J].计算机应用研究,2021,38(3):956-960.

作者姓名：	郭宁宁蒋林华

作者单位：	上海理工大学光电信息与计算机工程学院,上海200093;上海理工大学光电信息与计算机工程学院,上海200093

摘要：	传统的视频字幕生成模型大多都采用编码器—译码器框架。在编码阶段,使用卷积神经网络对视频进行处理。在解码阶段,使用长短期记忆网络生成视频的相应字幕。基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型。该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述。这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较基础模型有0.2%~3.8%的提升。根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕。
关键词：	编码器—解码器多模态融合注意力机制
收稿时间：	2019/11/8 0:00:00
修稿时间：	2021/2/18 0:00:00
Hard attention based multi-modal fusion for video caption generation

Guo Ningning and Jiang Linhua.Hard attention based multi-modal fusion for video caption generation[J].Application Research of Computers,2021,38(3):956-960.

Authors:	Guo Ningning and Jiang Linhua

Affiliation:	(School of Optical-Electrical&Computer Engineering,University of Shanghai for Science&Technology,Shanghai 200093,China)

Abstract:

Keywords:	encoder-decoder multi-modal fusion attention mechanism
本文献已被维普万方数据等数据库收录！
	点击此处可从《计算机应用研究》浏览原始摘要信息
	点击此处可从《计算机应用研究》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏