基于多模态神经网络生成图像中文描述 |
| |
引用本文: | 陈兴.基于多模态神经网络生成图像中文描述[J].计算机系统应用,2020,29(9):191-197. |
| |
作者姓名: | 陈兴 |
| |
作者单位: | 河海大学 计算机与信息学院, 南京 211100 |
| |
摘 要: | 自动生成图片描述是自然语言处理和计算机视觉的热点研究话题,要求计算机理解图像语义信息并用人类自然语言的形式进行文字表述.针对当前生成中文图像描述整体质量不高的问题,提出首先利用FastText生成词向量,利用卷积神经网络提取图像全局特征;然后将成对的语句和图像〈S,I〉进行编码,并融合为两者的多模态特征矩阵;最后模型采用多层的长短时记忆网络对多模态特征矩阵进行解码,并通过计算余弦相似度得到解码的结果.通过对比发现所提模型在双语评估研究(BLEU)指标上优于其他模型,生成的中文描述可以准确概括图像的语义信息.
|
关 键 词: | 图像中文描述 FastText语言模型 卷积神经网络 长短时记忆网络 |
收稿时间: | 2020/1/4 0:00:00 |
修稿时间: | 2020/1/22 0:00:00 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机系统应用》浏览原始摘要信息 |
|
点击此处可从《计算机系统应用》下载全文 |
|