首页 | 本学科首页   官方微博 | 高级检索  
     

结合全局和局部特征的BiGRU-RA图像中文描述模型
引用本文:邓珍荣,张永林,杨睿,蓝如师,黄文明,罗笑南.结合全局和局部特征的BiGRU-RA图像中文描述模型[J].计算机辅助设计与图形学学报,2021,33(1):49-58.
作者姓名:邓珍荣  张永林  杨睿  蓝如师  黄文明  罗笑南
作者单位:广西图像图形与智能处理重点实验室 桂林 541004;桂林电子科技大学计算机与信息安全学院 桂林 541004;桂林电子科技大学计算机与信息安全学院 桂林 541004;桂林电子科技大学计算机与信息安全学院 桂林 541004;广西图像图形与智能处理重点实验室 桂林 541004;桂林电子科技大学计算机与信息安全学院 桂林 541004;广西图像图形与智能处理重点实验室 桂林 541004;桂林电子科技大学计算机与信息安全学院 桂林 541004;广西图像图形与智能处理重点实验室 桂林 541004;桂林电子科技大学计算机与信息安全学院 桂林 541004
基金项目:国家重点研发计划;广西图像图形与智能处理重点实验室项目;广西科技计划;国家自然科学基金;桂林电子科技大学研究生教育创新计划
摘    要:针对目前基于全局特征的图像描述模型存在细节语义信息不足的问题,提出结合全局和局部特征的图像中文描述模型.该模型采用编码器-解码器框架,在编码阶段,分别使用残差网络(residual networks,ResNet)和Faster R-CNN提取图像的全局特征和局部特征,提高模型对不同尺度图像特征的利用.采用嵌入了残差连接结构和视觉注意力结构的双向门控循环单元(bi-directional gated recurrent unit,BiGRU)作为解码器(BiGRU with residual connection and attention,BiGRU-RA).模型可以自适应分配图像特征和文本权重,改善图像特征区域和上下文信息的映射关系.此外,加入基于强化学习的策略梯度对模型的损失函数进行改进,直接对评价指标CIDEr进行优化.在AI Challenger全球挑战赛图像中文描述数据集上进行训练和实验,实验结果表明,该模型获得更高的评分,生成的描述语句更准确、更详细.

关 键 词:图像描述  双向门控循环单元  视觉注意力  强化学习  残差连接

BiGRU-RA Model for Image Chinese Captioning via Global and Local Features
Deng Zhenrong,Zhang Yonglin,Yang Rui,Lan Rushi,Huang Wenming,Luo Xiaonan.BiGRU-RA Model for Image Chinese Captioning via Global and Local Features[J].Journal of Computer-Aided Design & Computer Graphics,2021,33(1):49-58.
Authors:Deng Zhenrong  Zhang Yonglin  Yang Rui  Lan Rushi  Huang Wenming  Luo Xiaonan
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号