融合图像场景及物体先验知识的图像描述生成模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融合图像场景及物体先验知识的图像描述生成模型

引用本文：	汤鹏杰,谭云兰,李金忠.融合图像场景及物体先验知识的图像描述生成模型[J].中国图象图形学报,2017,22(9):1251-1260.

作者姓名：	汤鹏杰谭云兰李金忠

作者单位：	井冈山大学数理学院, 吉安 343009;井冈山大学流域生态与地理环境监测国家测绘地理信息局重点实验室, 吉安 343009;同济大学计算机科学与技术系, 上海 201804,井冈山大学流域生态与地理环境监测国家测绘地理信息局重点实验室, 吉安 343009;井冈山大学电子与信息工程学院, 吉安 343009,井冈山大学流域生态与地理环境监测国家测绘地理信息局重点实验室, 吉安 343009;井冈山大学电子与信息工程学院, 吉安 343009;同济大学计算机科学与技术系, 上海 201804

基金项目：	流域生态与地理环境监测国家测绘地理信息局重点实验室基金项目（WE2016015）；江西省教育厅科学技术研究项目（GJJ160750，GJJ150788）；井冈山大学科研基金项目（JZ14012）

摘要：	目的目前基于深度卷积神经网络（CNN）和长短时记忆（LSTM）网络模型进行图像描述的方法一般是用物体类别信息作为先验知识来提取图像CNN特征，忽略了图像中的场景先验知识，造成生成的句子缺乏对场景的准确描述，容易对图像中物体的位置关系等造成误判。针对此问题，设计了融合场景及物体类别先验信息的图像描述生成模型（F-SOCPK），将图像中的场景先验信息和物体类别先验信息融入模型中，协同生成图像的描述句子，提高句子生成质量。方法首先在大规模场景类别数据集Place205上训练CNN-S模型中的参数，使得CNN-S模型能够包含更多的场景先验信息，然后将其中的参数通过迁移学习的方法迁移到CNN_d-S中，用于捕捉待描述图像中的场景信息；同时，在大规模物体类别数据集Imagenet上训练CNN-O模型中的参数，然后将其迁移到CNN_d-O模型中，用于捕捉图像中的物体信息。提取图像的场景信息和物体信息之后，分别将其送入语言模型LM-S和LM-O中；然后将LM-S和LM-O的输出信息通过Softmax函数的变换，得到单词表中每个单词的概率分值；最后使用加权融合方式，计算每个单词的最终分值，取概率最大者所对应的单词作为当前时间步上的输出，最终生成图像的描述句子。结果在MSCOCO、Flickr30k和Flickr8k 3个公开数据集上进行实验。本文设计的模型在反映句子连贯性和准确率的BLEU指标、反映句子中单词的准确率和召回率的METEOR指标及反映语义丰富程度的CIDEr指标等多个性能指标上均超过了单独使用物体类别信息的模型，尤其在Flickr8k数据集上，在CIDEr指标上，比单独基于物体类别的Object-based模型提升了9%，比单独基于场景类别的Scene-based模型提升了近11%。结论本文所提方法效果显著，在基准模型的基础上，性能有了很大提升；与其他主流方法相比，其性能也极为优越。尤其是在较大的数据集上（如MSCOCO），其优势较为明显；但在较小的数据集上（如Flickr8k），其性能还有待于进一步改进。在下一步工作中，将在模型中融入更多的视觉先验信息，如动作类别、物体与物体之间的关系等，进一步提升描述句子的质量。同时，也将结合更多视觉技术，如更深的CNN模型、目标检测、场景理解等，进一步提升句子的准确率。
关键词：	图像描述卷积神经网络长短时记忆网络场景类别物体类别
收稿时间：	2017/3/3 0:00:00
修稿时间：	2017/5/5 0:00:00

	点击此处可从《中国图象图形学报》浏览原始摘要信息
	点击此处可从《中国图象图形学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏