多场景融合的细粒度图像描述生成算法 Multi-scene Fusion Algorithm for Fine-grained Image Caption期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

多场景融合的细粒度图像描述生成算法

引用本文：	李欣晔,张承强,周雄图,郭太良,张永爱.多场景融合的细粒度图像描述生成算法[J].计算机与现代化,2021,0(9):1-6.

作者姓名：	李欣晔张承强周雄图郭太良张永爱

作者单位：	福州大学物理与信息工程学院,福建福州 350108

基金项目：	国家自然科学基金资助项目(61775038); 国家自然科学青年基金资助项目(61904031)

摘要：	针对图像描述生成任务在不同场景下表现不佳的缺点，提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法。该算法通过卷积神经网络生成视觉语义单元，使用命名实体识别对图像场景进行识别和预测，并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算，最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成。结果表明，该算法有效解决了生成的描述缺少关键场景信息的问题。在MSCOCO和Flickr30k数据集上对模型进行评估，其中MSCOCO数据集的CIDEr得分达到1.210，优于同类图像描述生成模型。
关键词：	图像描述生成卷积神经网络命名实体识别多场景注意力 Transformer结构
收稿时间：	2021-09-14
Multi-scene Fusion Algorithm for Fine-grained Image Caption

LI Xin-ye,ZHANG Cheng-qiang,ZHOU Xiong-tu,GUO Tai-liang,ZHANG Yong-ai.Multi-scene Fusion Algorithm for Fine-grained Image Caption[J].Computer and Modernization,2021,0(9):1-6.

Authors:	LI Xin-ye ZHANG Cheng-qiang ZHOU Xiong-tu GUO Tai-liang ZHANG Yong-ai

Abstract:

Keywords:	image caption CNN NER multi-scene attention Transformer structure
本文献已被万方数据等数据库收录！
	点击此处可从《计算机与现代化》浏览原始摘要信息
	点击此处可从《计算机与现代化》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏