融合多重视觉特征与语义信息的图像描述生成期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融合多重视觉特征与语义信息的图像描述生成

作者姓名：	傅煦嘉周家乐王慧锋颜秉勇

作者单位：	华东理工大学信息科学与工程学院

基金项目：	国家自然科学青年基金项目(61906068)；

摘要：	针对图像描述模型中对语义信息考虑不足，循环神经网络收敛速度慢与精度低等问题，提出一种基于多注意力融合的深层图像描述模型。通过对图像中提取到的内容信息以及文本描述信息分配不同的权重，达到提升精度的效果，融合MOGRIFIER网络解决循环神经网络收敛速度缓慢的问题。使用改进模型与传统模型在数据集MSCOCO上进行对比实验，实验结果表明，该方法能够生成更加准确的描述，在BLEU与CIDEr等关键指标上有明显提升。
关键词：	图像描述多注意力融合语义信息深层图像描述模型 MOGRIFIER网络收敛速度精度