融合自适应常识门的图像描述生成模型 Image caption generation model with adaptive commonsense gate期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融合自适应常识门的图像描述生成模型

引用本文：	杨有,陈立志,方小龙,潘龙越.融合自适应常识门的图像描述生成模型[J].计算机应用,2022,42(12):3900-3905.

作者姓名：	杨有陈立志方小龙潘龙越

作者单位：	重庆国家应用数学中心，重庆 401331 重庆师范大学计算机与信息科学学院，重庆 401331

基金项目：	重庆师范大学研究生科研创新项目(YKC20038);重庆师范大学（人才引进/博士启动）基金资助项目(21XLB032)

摘要：	针对传统的图像描述模型不能充分利用图像信息且融合特征方式单一的问题，提出了一种融合自适应常识门（ACG）的图像描述生成模型。首先，使用基于视觉常识区域的卷积神经网络（VC R-CNN）提取视觉常识特征，并将常识特征分层输入到Transformer编码器中；然后，在编码器的每一分层中设计了ACG，从而对视觉常识特征和编码特征进行自适应融合操作；最后，将融合常识信息的编码特征送入Transformer解码器中完成训练。使用MSCOCO数据集进行训练和测试，结果表明所提模型在评价指标BLEU?4、CIDEr和SPICE上分别达到了39.2、129.6和22.7，相较于词性堆叠交叉注意网络（POS-SCAN）模型分别提升了3.2%、2.9%和2.3%。所提模型的效果明显优于使用单一显著区域特征的Transformer模型，能够对图像内容进行准确的描述。
关键词：	图像描述自然语言处理卷积神经网络视觉常识自适应常识门
收稿时间：	2021-10-11
修稿时间：	2021-12-17
Image caption generation model with adaptive commonsense gate

You YANG,Lizhi CHEN,Xiaolong FANG,Longyue PAN.Image caption generation model with adaptive commonsense gate[J].journal of Computer Applications,2022,42(12):3900-3905.

Authors:	You YANG Lizhi CHEN Xiaolong FANG Longyue PAN

Affiliation:	National Center for Applied Mathematics in Chongqing，Chongqing 401331，China College of Computer and Information Science，Chongqing Normal University，Chongqing 401331，China

Abstract:

Keywords:	image caption natural language processing Convolutional Neural Network (CNN) visual commonsense Adaptive Commonsense Gate (ACG)

	点击此处可从《计算机应用》浏览原始摘要信息
	点击此处可从《计算机应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏