首页 | 本学科首页   官方微博 | 高级检索  
     

融合卷积注意力机制的图像描述生成模型
作者姓名:黄友文  游亚东  赵朋
作者单位:江西理工大学 信息工程学院, 江西 赣州 341000
基金项目:江西省教育厅科技项目(GJJ180443);江西理工大学校级重点课题资助项目(NSFJ2014-K18)。
摘    要:图像描述模型需要提取出图像中的特征,然后通过自然语言处理(NLP)技术将特征用语句表达出来。现有的基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的图像描述模型在提取图像关键信息时精度不高且训练速度缓慢。针对这个问题,提出了一种基于卷积注意力机制和长短期记忆(LSTM)网络的图像描述生成模型。采用Inception-ResNet-V2作为特征提取网络,在注意力机制中引入全卷积操作替代传统的全连接操作,减少了模型参数的数量。将图像特征与文本特征有效融合后送入LSTM单元中完成训练,最终产生描述图像内容的语义信息。模型采用MSCOCO数据集进行训练,使用多种评价指标(BLEU-1、BLEU-4、METEOR、CIDEr等)对模型进行验证。实验结果表明,提出的模型能够对图像内容进行准确描述,在多种评价指标上均优于基于传统注意力机制的方法。

关 键 词:图像描述  卷积神经网络  自然语言处理  长短期记忆神经网络  卷积注意力机制  
收稿时间:2019-06-04
修稿时间:2019-09-25
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号