首页 | 本学科首页   官方微博 | 高级检索  
     

基于Transformer的多方面特征编码图像描述生成算法
引用本文:衡红军,范昱辰,王家亮.基于Transformer的多方面特征编码图像描述生成算法[J].计算机工程,2023,49(2):199-205.
作者姓名:衡红军  范昱辰  王家亮
作者单位:中国民航大学 计算机科学与技术学院, 天津 300300
基金项目:国家自然科学基金(U1333109)。
摘    要:由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上述不足,提出用于编码图像内目标特征的目标Transformer编码器,以及用于编码图像内关系特征的转换窗口Transformer编码器,从不同角度对图像内不同方面的信息进行联合编码。通过拼接方法将目标Transformer编码的目标特征与转换窗口Transformer编码的关系特征相融合,达到图像内部关系特征和局部目标特征融合的目的,最终使用Transformer解码器将融合后的编码特征解码生成对应的图像描述。在MS-COCO数据集上进行实验,结果表明,所构建模型性能明显优于基线模型,BLEU-4、METEOR、ROUGE-L、CIDEr指标分别达到38.6%、28.7%、58.2%和127.4%,优于传统图像描述网络模型,能够生成更详细准确的图像描述。

关 键 词:图像描述  转换窗口  多头注意力机制  多模态任务  Transformer编码器
收稿时间:2022-04-12
修稿时间:2022-05-20

Multifaceted Feature Coding Image Caption Generation Algorithm Based on Transformer
HENG Hongjun,FAN Yuchen,WANG Jialiang.Multifaceted Feature Coding Image Caption Generation Algorithm Based on Transformer[J].Computer Engineering,2023,49(2):199-205.
Authors:HENG Hongjun  FAN Yuchen  WANG Jialiang
Affiliation:School of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China
Abstract:
Keywords:image caption  shift window  multi-headed attention mechanism  multimodal task  Transformer encoder  
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号