基于深度注意力的融合全局和语义特征的图像描述模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于深度注意力的融合全局和语义特征的图像描述模型

引用本文：	及昕浩,彭玉青.基于深度注意力的融合全局和语义特征的图像描述模型[J].信息技术与网络安全,2024(2):49-53.

作者姓名：	及昕浩彭玉青

作者单位：	河北工业大学人工智能与数据科学学院

摘要：	现有的图像描述模型使用全局特征时受限于感受野大小相同，而基于对象区域的图像特征缺少背景信息。为此，提出了一种新的语义提取模块提取图像中的语义特征，使用多特征融合模块将全局特征与语义特征进行融合，使得模型同时关注图像的关键对象内容信息和背景信息。并提出基于深度注意力的解码模块，对齐视觉和文本特征以生成更高质量的图像描述语句。所提模型在Microsoft COCO数据集上进行了实验评估，分析结果表明该方法能够明显提升描述的性能，相较于其他先进模型具有竞争力。
关键词：	图像描述全局特征语义特征特征融合