结合全局和局部特征的BiGRU-RA图像中文描述模型 BiGRU-RA Model for Image Chinese Captioning via Global and Local Features期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

结合全局和局部特征的BiGRU-RA图像中文描述模型

引用本文：	邓珍荣,张永林,杨睿,蓝如师,黄文明,罗笑南.结合全局和局部特征的BiGRU-RA图像中文描述模型[J].计算机辅助设计与图形学学报,2021,33(1):49-58.

作者姓名：	邓珍荣张永林杨睿蓝如师黄文明罗笑南

作者单位：	广西图像图形与智能处理重点实验室桂林 541004;桂林电子科技大学计算机与信息安全学院桂林 541004;桂林电子科技大学计算机与信息安全学院桂林 541004;桂林电子科技大学计算机与信息安全学院桂林 541004;广西图像图形与智能处理重点实验室桂林 541004;桂林电子科技大学计算机与信息安全学院桂林 541004;广西图像图形与智能处理重点实验室桂林 541004;桂林电子科技大学计算机与信息安全学院桂林 541004;广西图像图形与智能处理重点实验室桂林 541004;桂林电子科技大学计算机与信息安全学院桂林 541004

基金项目：	国家重点研发计划;广西图像图形与智能处理重点实验室项目;广西科技计划;国家自然科学基金;桂林电子科技大学研究生教育创新计划

摘要：	针对目前基于全局特征的图像描述模型存在细节语义信息不足的问题,提出结合全局和局部特征的图像中文描述模型.该模型采用编码器-解码器框架,在编码阶段,分别使用残差网络(residual networks,ResNet)和Faster R-CNN提取图像的全局特征和局部特征,提高模型对不同尺度图像特征的利用.采用嵌入了残差连接结构和视觉注意力结构的双向门控循环单元(bi-directional gated recurrent unit,BiGRU)作为解码器(BiGRU with residual connection and attention,BiGRU-RA).模型可以自适应分配图像特征和文本权重,改善图像特征区域和上下文信息的映射关系.此外,加入基于强化学习的策略梯度对模型的损失函数进行改进,直接对评价指标CIDEr进行优化.在AI Challenger全球挑战赛图像中文描述数据集上进行训练和实验,实验结果表明,该模型获得更高的评分,生成的描述语句更准确、更详细.
关键词：	图像描述双向门控循环单元视觉注意力强化学习残差连接
BiGRU-RA Model for Image Chinese Captioning via Global and Local Features

Deng Zhenrong,Zhang Yonglin,Yang Rui,Lan Rushi,Huang Wenming,Luo Xiaonan.BiGRU-RA Model for Image Chinese Captioning via Global and Local Features[J].Journal of Computer-Aided Design & Computer Graphics,2021,33(1):49-58.

Authors:	Deng Zhenrong Zhang Yonglin Yang Rui Lan Rushi Huang Wenming Luo Xiaonan

Abstract:

Keywords:
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏