LSTM逐层多目标优化及多层概率融合的图像描述期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

LSTM逐层多目标优化及多层概率融合的图像描述

引用本文：	汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249.

作者姓名：	汤鹏杰王瀚漓许恺晟

作者单位：	1.同济大学计算机科学与技术系上海 201804

基金项目：	江西省教育厅科学技术研究项目GJJ170643上海高校特聘教授（东方学者）跟踪计划GZ2015005国家自然科学基金61622115国家自然科学基金61472281

摘要：	使用计算模型对图像进行自动描述属于视觉高层理解，要求模型不仅能够对图像中的目标及场景进行描述，而且能够对目标与目标之间、目标与场景之间的关系进行表达，同时能够生成符合一定语法和结构的自然语言句子.目前基于深度卷积神经网络（Convolutional neural network，CNN）和长短时记忆网络（Long-short term memory，LSTM）的方法已成为解决该问题的主流，虽然已取得巨大进展，但存在LSTM层次不深，难以优化的问题，导致模型性能难以提升，生成的描述句子质量不高.针对这一问题，受深度学习思想的启发，本文设计了基于逐层优化的多目标优化及多层概率融合的LSTM（Multi-objective layer-wise optimization/multi-layer probability fusion LSTM，MLO/MLPF-LSTM）模型.模型中首先使用浅层LSTM进行训练，收敛之后，保留原LSTM模型中的分类层及目标函数，并添加新的LSTM层及目标函数重新对模型进行训练，对模型原有参数进行微调；在测试时，将多个分类层使用Softmax函数进行变换，得到每层对单词的预测概率分值，然后将多层的概率分值进行加权融合，得到单词的最终预测概率.在MSCOCO和Flickr30K两个数据集上实验结果显示，该模型性能显著，在多个统计指标上均超过了同类其他方法.
关键词：	图像描述多目标优化逐层优化多层融合长短时记忆网络卷积神经网络
收稿时间：	2016-10-25

	点击此处可从《自动化学报》浏览原始摘要信息
	点击此处可从《自动化学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏