首页 | 本学科首页   官方微博 | 高级检索  
     

融合自适应常识门的图像描述生成模型
引用本文:杨有,陈立志,方小龙,潘龙越.融合自适应常识门的图像描述生成模型[J].计算机应用,2022,42(12):3900-3905.
作者姓名:杨有  陈立志  方小龙  潘龙越
作者单位:重庆国家应用数学中心,重庆 401331
重庆师范大学 计算机与信息科学学院,重庆 401331
基金项目:重庆师范大学研究生科研创新项目(YKC20038);重庆师范大学(人才引进/博士启动)基金资助项目(21XLB032)
摘    要:针对传统的图像描述模型不能充分利用图像信息且融合特征方式单一的问题,提出了一种融合自适应常识门(ACG)的图像描述生成模型。首先,使用基于视觉常识区域的卷积神经网络(VC R-CNN)提取视觉常识特征,并将常识特征分层输入到Transformer编码器中;然后,在编码器的每一分层中设计了ACG,从而对视觉常识特征和编码特征进行自适应融合操作;最后,将融合常识信息的编码特征送入Transformer解码器中完成训练。使用MSCOCO数据集进行训练和测试,结果表明所提模型在评价指标BLEU?4、CIDEr和SPICE上分别达到了39.2、129.6和22.7,相较于词性堆叠交叉注意网络(POS-SCAN)模型分别提升了3.2%、2.9%和2.3%。所提模型的效果明显优于使用单一显著区域特征的Transformer模型,能够对图像内容进行准确的描述。

关 键 词:图像描述  自然语言处理  卷积神经网络  视觉常识  自适应常识门  
收稿时间:2021-10-11
修稿时间:2021-12-17

Image caption generation model with adaptive commonsense gate
You YANG,Lizhi CHEN,Xiaolong FANG,Longyue PAN.Image caption generation model with adaptive commonsense gate[J].journal of Computer Applications,2022,42(12):3900-3905.
Authors:You YANG  Lizhi CHEN  Xiaolong FANG  Longyue PAN
Affiliation:National Center for Applied Mathematics in Chongqing,Chongqing 401331,China
College of Computer and Information Science,Chongqing Normal University,Chongqing 401331,China
Abstract:
Keywords:image caption  natural language processing  Convolutional Neural Network (CNN)  visual commonsense  Adaptive Commonsense Gate (ACG)  
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号