首页 | 本学科首页   官方微博 | 高级检索  
     

基于Se-ResNet50特征编码器的公共环境图像描述生成
引用本文:唐渔,何志琴,周宇辉.基于Se-ResNet50特征编码器的公共环境图像描述生成[J].计算机应用研究,2023,40(6):1864-1869.
作者姓名:唐渔  何志琴  周宇辉
作者单位:贵州大学,贵州大学,贵州大学
基金项目:贵州省科学技术基金资助项目(黔科合支撑[2021]一般264);贵州省科学技术基金资助项目(黔科合支撑[2021]一般442)
摘    要:针对传统公共环境图像描述模型中编码器—解码器结构在编码过程中特征提取能力不足以及解码过程中上下文信息丢失严重的问题,提出了一种基于Se-ResNet50与M-LSTM的公共环境图像描述模型。将SeNet模块添加到ResNet-50的残差路径中得到改进残差网络提取图像特征,SeNet对特征的各个部分赋予权重生成不同的注意力特征图,再融合文本特征向量输入具有额外门控运算的改进长短期记忆网络(M-LSTM)训练。模型训练结束后,输入公共环境图像就能得到描述图像内容的自然语句。该模型在多种数据集上进行了评估,实验结果表明,提出的模型在MSCOCO数据集上相较传统模型,在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、CIDEr等评价指标上分别提高了3.2%、2.1%、1.7%、1.7%、1.3%、8.2%,证明了提出的方法在评价指标、语义多样性上具有一定的优越性。

关 键 词:公共环境图像描述  SeNet  ResNet-50  长短期记忆网络
收稿时间:2022/9/27 0:00:00
修稿时间:2023/5/17 0:00:00

Public environment image caption model based on Se-ResNet-50 and M-LSTM
tang yu,he zhi qin and zhou yu hui.Public environment image caption model based on Se-ResNet-50 and M-LSTM[J].Application Research of Computers,2023,40(6):1864-1869.
Authors:tang yu  he zhi qin and zhou yu hui
Affiliation:GuiZhou University,,
Abstract:
Keywords:image caption of public environment  SeNet  ResNet-50  long short-term memory network
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号