基于深度学习的图像描述研究 Research on image interpretation based on deep learning期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于深度学习的图像描述研究

引用本文：	杨楠,南琳,张丁一,库涛.基于深度学习的图像描述研究[J].红外与激光工程,2018,47(2):203002-0203002(8).

作者姓名：	杨楠南琳张丁一库涛

作者单位：	1.中国科学院沈阳自动化研究所,辽宁沈阳 110016;

基金项目：	国家科技支撑计划（2015BAF02B01）;中国科学院网络化控制系统重点实验室（2015BAF02B00）

摘要：	卷积神经网络（Convolution Neural Networks，CNN）和循环神经网络（Recurrent NeuralNetworks，RNN）在图像分类、计算机视觉、自然语言处理、语音识别、机器翻译、语义分析等领域取得了迅速的发展，引起了研究者对计算机自动生成图像描述的广泛关注。目前图像描述存在的主要问题有输入文本数据稀疏、模型存在过拟合、模型损失函数震荡难以收敛等问题。文中使用NIC作为基线模型，针对数据稀疏问题，改变了基线模型中的文本one-hot表示，使用word2vec对文本进行映射，为了防止过拟合，在模型中加入了正则项和使用Dropout技术，并在词序记忆方面取得创新，引入联想记忆单元GRU，用于文本生成。在试验中使用AdamOptimizer优化器进行参数迭代更新。实验结果表明:改进后的模型参数减少且收敛速度大幅加快，损失函数曲线更加平滑，损失最大降至2.91，模型的准确率比NIC提高了接近15%。实验有效地验证了在模型当中使用word2vec对文本进行映射可明显缓解数据稀疏问题，加入正则项和使用Dropout技术可有效防止模型过拟合，引入联想记忆单元GRU能够大幅减少模型训练参数，加快算法收敛速度，进而提高整个模型的准确率。
关键词：	卷积神经网络循环神经网络门控循环单元自然语言处理图像描述
收稿时间：	2017-08-05
Research on image interpretation based on deep learning

Affiliation:	1.Shenyang Institute of Automation,Chinese Academy of Sciences,Shenyang 110016,China;2.University of Chinese Academy of Sciences,Beijing 100049,China

Abstract:

Keywords:

	点击此处可从《红外与激光工程》浏览原始摘要信息
	点击此处可从《红外与激光工程》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏