首页 | 本学科首页   官方微博 | 高级检索  
     

基于ViLBERT与BiLSTM的图像描述算法
引用本文:许昊,张凯,田英杰,种法广,王子超. 基于ViLBERT与BiLSTM的图像描述算法[J]. 计算机系统应用, 2021, 30(11): 195-202. DOI: 10.15888/j.cnki.csa.008133
作者姓名:许昊  张凯  田英杰  种法广  王子超
作者单位:上海电力大学计算机科学与技术学院,上海200090;国家电网公司上海电器科学研究院,上海200437
基金项目:国家自然科学基金(61872230, 61802248, 61802249); 上海高校青年教师培养资助计划(ZZsdl18006)
摘    要:传统图像描述算法存在提取图像特征利用不足、缺少上下文信息学习和训练参数过多的问题,提出基于ViLBERT和双层长短期记忆网络(BiLSTM)结合的图像描述算法.使用ViLBERT作为编码器,ViLBERT模型能将图片特征和描述文本信息通过联合注意力的方式进行结合,输出图像和文本的联合特征向量.解码器使用结合注意力机制的BiLSTM来生成图像描述.该算法在MSCOCO2014数据集进行训练和测试,实验评价标准BLEU-4和BLEU得分分别达到36.9和125.2,优于基于传统图像特征提取结合注意力机制图像描述算法.通过生成文本描述对比可看出,该算法生成的图像描述能够更细致地表述图片信息.

关 键 词:图像描述  ViLBERT  BiLSTM  注意力机制
收稿时间:2020-12-29
修稿时间:2021-02-03

Image Caption Algorithm Based on ViLBERT and BiLSTM
XU Hao,ZHANG Kai,TIAN Ying-Jie,CHONG Fa-Guang,WANG Zi-Chao. Image Caption Algorithm Based on ViLBERT and BiLSTM[J]. Computer Systems& Applications, 2021, 30(11): 195-202. DOI: 10.15888/j.cnki.csa.008133
Authors:XU Hao  ZHANG Kai  TIAN Ying-Jie  CHONG Fa-Guang  WANG Zi-Chao
Affiliation:College of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 200090, China;Shanghai Electrical Research Institute, State Grid Corporation of China, Shanghai 200437, China
Abstract:
Keywords:image caption  Vision-and-Language?BERT (ViLBERT)  Bidirectional?Long?Short-Term?Memory (BiLSTM)  attention mechanism
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号