结合视觉属性注意力和残差连接的图像描述生成模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

结合视觉属性注意力和残差连接的图像描述生成模型

引用本文：	周治平,张威.结合视觉属性注意力和残差连接的图像描述生成模型[J].计算机辅助设计与图形学学报,2018(8).

作者姓名：	周治平张威

作者单位：	江南大学物联网技术应用教育部工程研究中心

摘要：	使机器自动描述图像一直是计算机视觉研究的长期目标之一.为了提高图像内容描述模型的精度,提出一种结合自适应注意力机制和残差连接的长短时间记忆网络(LSTM)的图像描述模型.首先根据pointer-net网络改进基本LSTM结构,增加记录图像视觉属性信息的单元;然后利用改进的LSTM结构,设计基于图像视觉语义属性的自适应注意力机制,自适应注意力机制根据上一时刻模型隐藏层状态,自动选择下一时刻模型需要处理的图像区域;此外,为了得到更紧密的图像与描述语句之间映射关系,构建基于残差连接的双层LSTM结构;最终得到模型能够联合图像视觉特征和语义特征对图像进行内容描述.在MSCOCO和Flickr30K图像集中进行训练和测试,并使用不同的评估方法对模型进行实验验证,结果表明所提模型的性能有较大的提高.
本文献已被 CNKI 等数据库收录！