基于通道注意力和Transformer的图像标题生成方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于通道注意力和Transformer的图像标题生成方法

引用本文：	刘静,陈金广.基于通道注意力和Transformer的图像标题生成方法[J].计算机与现代化,2023(5):8-12.

作者姓名：	刘静陈金广

作者单位：	西安工程大学计算机科学学院

基金项目：	陕西省自然科学基础研究计划项目(2023-JC-YB-568)；;陕西省教育厅科研计划项目（22JP028）；

摘要：	图像标题生成是指通过计算机将图像翻译成描述该图像的标题语句。针对现有图像标题生成任务中，未充分利用图像的局部和全局特征以及时间复杂度较高的问题，本文提出一种基于卷积神经网络（Convolution Neural Networks,CNN）和Transformer的混合结构图像标题生成模型。考虑卷积网络所具有的空间和通道特性，首先将轻量化高精度的注意力ECA与卷积网络CNN进行融合构成注意力残差块，用于从输入图像中提取视觉特征；然后将特征输入到序列模型Transformer中，在编码器端借助自注意学习来获得所参与的视觉表示，在语言解码器中捕获标题中的细粒度信息以及学习标题序列间的相互作用，进而结合视觉特征逐步得到图像所对应的标题描述。将模型在MSCOCO数据集上进行实验，BLEU-1、BLEU-3、BLEU-4、Meteor和CIDEr指标分别提高了0.3、0.5、0.7、0.4、1.6个百分点。
关键词：	图像标题 Transformer 通道注意力卷积神经网络 Encoder-Decoder模型

设为首页 | 免责声明 | 关于勤云 | 加入收藏