首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 250 毫秒
1.
图像描述模型需要提取出图像中的特征,然后通过自然语言处理(NLP)技术将特征用语句表达出来。现有的基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的图像描述模型在提取图像关键信息时精度不高且训练速度缓慢。针对这个问题,提出了一种基于卷积注意力机制和长短期记忆(LSTM)网络的图像描述生成模型。采用Inception-ResNet-V2作为特征提取网络,在注意力机制中引入全卷积操作替代传统的全连接操作,减少了模型参数的数量。将图像特征与文本特征有效融合后送入LSTM单元中完成训练,最终产生描述图像内容的语义信息。模型采用MSCOCO数据集进行训练,使用多种评价指标(BLEU-1、BLEU-4、METEOR、CIDEr等)对模型进行验证。实验结果表明,提出的模型能够对图像内容进行准确描述,在多种评价指标上均优于基于传统注意力机制的方法。  相似文献   

2.
李康康  张静 《计算机应用》2021,41(9):2504-2509
图像描述任务是图像理解的一个重要分支,它不仅要求能够正确识别图像的内容,还要求能够生成在语法和语义上正确的句子。传统的基于编码器-解码器的模型不能充分利用图像特征并且解码方式单一。针对这些问题,提出一种基于注意力机制的多层次编码和解码的图像描述模型。首先使用Faster R-CNN(Faster Region-based Convolutional Neural Network)提取图像特征,然后采用Transformer提取图像的3种高层次特征,并利用金字塔型的融合方式对特征进行有效融合,最后构建3个长短期记忆(LSTM)网络对不同层次特征进行层次化解码。在解码部分,利用软注意力机制使得模型能够关注当前步骤所需要的重要信息。在MSCOCO大型数据集上进行实验,利用多种指标(BLEU、METEOR、ROUGE-L、CIDEr)对模型进行评价,该模型在指标BLEU-4、METEOR和CIDEr上相较于Recall(Recall what you see)模型分别提升了2.5个百分点、2.6个百分点和8.8个百分点;相较于HAF(Hierarchical Attention-based Fusion)模型分别提升了1.2个百分点、0.5个百分点和3.5个百分点。此外,通过可视化生成的描述语句可以看出,所提出模型所生成的描述语句能够准确反映图像内容。  相似文献   

3.
图像描述是将图像所包含的全局信息用语句来表示。它要求图像描述生成模型既能提取出图像信息,又能将提取出来的图像信息用语句表达出来。传统的模型是基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的,在一定程度上可以实现图像转语句的功能,但该模型在提取图像关键信息时精度不高且训练速度缓慢。针对这一问题,提出了一种基于CNN和长短期记忆(LSTM)网络改进的注意力机制图像描述生成模型。采用VGG19和ResNet101作为特征提取网络,在注意力机制中引入分组卷积替代传统的全连接操作,从而提高评价值指标。使用了公共数据集Flickr8K、Flickr30K对该模型进行训练,采用多种评价指标(BLEU、ROUGE_L、CIDEr、METEOR)对模型进行验证。实验结果表明,与引入传统的注意力机制模型相比,提出的改进注意力机制图像描述生成模型对图像描述任务的准确性有所提升,并且该模型在5种评价指标上均优于传统的模型。  相似文献   

4.
杨有  陈立志  方小龙  潘龙越 《计算机应用》2022,42(12):3900-3905
针对传统的图像描述模型不能充分利用图像信息且融合特征方式单一的问题,提出了一种融合自适应常识门(ACG)的图像描述生成模型。首先,使用基于视觉常识区域的卷积神经网络(VC R-CNN)提取视觉常识特征,并将常识特征分层输入到Transformer编码器中;然后,在编码器的每一分层中设计了ACG,从而对视觉常识特征和编码特征进行自适应融合操作;最后,将融合常识信息的编码特征送入Transformer解码器中完成训练。使用MSCOCO数据集进行训练和测试,结果表明所提模型在评价指标BLEU-4、CIDEr和SPICE上分别达到了39.2、129.6和22.7,相较于词性堆叠交叉注意网络(POS-SCAN)模型分别提升了3.2%、2.9%和2.3%。所提模型的效果明显优于使用单一显著区域特征的Transformer模型,能够对图像内容进行准确的描述。  相似文献   

5.
针对近海船舶监测系统中自动化情报生成的空缺,为了构建智能化船舶监测系统,提出基于多空间混合注意力的图像描述生成方法,对近海船舶图像进行描述。图像描述生成方法就是让计算机通过符合语言学的文字描述出图像中的内容。首先使用图像的感兴趣区域的编码特征预训练出多空间混合注意力模型,然后加入策略梯度改造损失函数对预训练好的解码模型继续进行微调,得到最终的模型。在MSCOCO(MicroSoft Common Objects in COntext)图像描述数据集上的实验结果表明,所提模型较以往的注意力模型提升了图像描述生成的评价指标,比如CIDEr分数。使用该模型在自建船舶描述数据集中能够自动描述出船舶图像的主要内容,说明所提方法能为自动化情报生成提供数据支持。  相似文献   

6.
空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network)作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。  相似文献   

7.
针对图像描述生成中对图像细节表述质量不高、图像特征利用不充分、循环神经网络层次单一等问题,提出基于多注意力、多尺度特征融合的图像描述生成算法。该算法使用经过预训练的目标检测网络来提取图像在卷积神经网络不同层上的特征,将图像特征分层输入多注意力结构中,依次将多注意力结构与多层循环神经网络相连,构造出多层次的图像描述生成网络模型。在多层循环神经网络中加入残差连接来提高网络性能,并且可以有效避免因为网络加深导致的网络退化问题。在MSCOCO测试集中,所提算法的BLEU-1和CIDEr得分分别可以达到0.804及1.167,明显优于基于单一注意力结构的自上而下图像描述生成算法;通过人工观察对比可知,所提算法生成的图像描述可以表现出更好的图像细节。  相似文献   

8.
9.
图像中物体间的关联性能够有效提升图像描述的效果,但是直接使用全局特征表示物体间的关系无法准确捕获图像的关联性特征。为准确捕获图像的关联性特征以提高描述的准确性,提出了一种基于空间关联性的图像描述生成方法。该方法使用Faster R-CNN提取图像的视觉特征和物体的空间位置信息,再将视觉特征与空间位置信息在高维空间融合后指导Transformer捕获图像的关联性特征;最后将视觉特征和关联性特征分别作为视觉注意力和空间关联性注意力的高层语义输入指导单词序列的生成。使用COCO数据集进行实验验证,在BLEU_4和CIDEr上分别得分38.1%和124.8%,相较于基线模型提升了1.8%和4.7%,证明了该方法的可行性。  相似文献   

10.
《计算机科学与探索》2017,(12):2033-2040
针对当前图像语义描述生成模型对图像内目标细节部分描述不充分问题,提出了一种结合图像动态语义指导和自适应注意力机制的图像语义描述模型。该模型根据上一时刻信息预测下一时刻单词,采用自适应注意力机制选择下一时刻模型需要处理的图像区域。此外,该模型构建了图像的密集属性信息作为额外的监督信息,使得模型可以联合图像语义信息和注意力信息进行图像内容描述。在Flickr8K和Flickr30K图像集中进行了训练和测试,并且使用了不同的评估方法对所提模型进行了验证,实验结果表明所提模型性能有较大的提高,尤其与Guiding-Long Short-Term Memory模型相比,得分提高了4.1、1.8、2.4、0.8、3.1,提升幅度达到6.3%、4.0%、7.9%、3.9%、17.3%;与Soft-Attention相比,得分分别提高了1.9、2.4、3.3、1.5、2.74,提升幅度达到2.8%、5.5%、11.1%、7.5%、14.8%。  相似文献   

11.
张凯悦  张鸿 《计算机应用》2021,41(10):3010-3016
针对已有的航运监控图像识别模型C3D里中级表征学习能力有限,有效特征的提取容易受到噪声的干扰,且特征的提取忽视了整体特征与局部特征之间关系的问题,提出了一种新的基于注意力机制网络的航运监控图像识别模型。该模型基于卷积神经网络(CNN)框架,首先,通过特征提取器提取图像的浅层次特征;然后,基于CNN对不同区域激活特征的不同响应强度,生成注意力信息并实现对局部判别性特征的提取;最后,使用多分支的CNN结构融合局部判别性特征和图像全局纹理特征,从而利用局部判别性特征和图像全局纹理特征的交互关系提升CNN学习中级表征的能力。实验结果表明,所提出的模型在航运图像数据集上的识别准确率达到91.8%,相较于目前的C3D模型提高了7.2个百分点,相较于判别滤波器组卷积神经网络(DFL-CNN)模型提高了0.6个百分点。可见所提模型能够准确判断船舶的状态,可以有效应用于航运监控项目。  相似文献   

12.
赵小虎  李晓 《计算机应用》2021,41(6):1640-1646
针对图像语义描述方法中存在的图像特征信息提取不完全以及循环神经网络(RNN)产生的梯度消失问题,提出了一种基于多特征提取的图像语义描述算法。所构建模型由三个部分组成:卷积神经网络(CNN)用于图像特征提取,属性提取模型(ATT)用于图像属性提取,而双向长短时记忆(Bi-LSTM)网络用于单词预测。该模型通过提取图像属性信息来增强图像表示,从而精确描述图中事物,并且使用Bi-LSTM捕捉双向语义依赖,从而进行长期的视觉语言交互学习。首先,使用CNN和ATT分别提取图像全局特征与图像属性特征;其次,将两种特征信息输入到Bi-LSTM中生成能够反映图像内容的句子;最后,在Microsoft COCO Caption、Flickr8k和Flickr30k数据集上验证了所提出算法的有效性。实验结果表明,与m-RNN方法相比,所提出的算法在描述性能方面提高了6.8~11.6个百分点。所提算法能够有效地提高模型对图像的语义描述性能。  相似文献   

13.
吴蕾  杨晓敏 《计算机应用》2021,41(4):1172-1178
针对前馈卷积神经网络(CNN)感受野较小、获取上下文信息不足、其特征提取卷积层只能提取到浅层特征的问题,提出改进的基于通道注意力反馈网络的遥感图像融合算法。首先,通过两层卷积层分别初步提取全色(PAN)图像的细节特征和低分辨率多光谱(LMS)图像的光谱特征;其次,将提取的特征和网络反馈的深层特征相结合,并将其输入到通道注意力机制模块中以得到初步精细化特征;然后,经过反馈模块生成表征能力更强的深层特征;最后,将生成的深层特征经过含有反卷积的重建层,从而得到高分辨率多光谱(HMS)图像。在三个不同卫星图像数据集上的实验结果表明:所提算法能很好地提取PAN图像的细节特征和LMS图像的光谱特征,同时其恢复出来的HMS图像在主观视觉上更加清晰,并且在客观评价指标上优于对比算法,同时在均方根误差(RMSE)指标上,所提算法比传统算法降低了50%以上,比前馈卷积神经网络算法降低了10%以上。  相似文献   

14.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述.  相似文献   

15.
目前,单幅图像超分辨率重建取得了很好的效果,然而大多数模型都是通过增加网络层数来达到好的效果,并没有去发掘各通道之间的相关性。针对上述问题,提出了一种基于通道注意力机制(CA)和深度可分离卷积(DSC)的图像超分辨率重建方法。整个模型采用多路径模式的全局和局部残差学习,首先利用浅层特征提取块来提取输入图像的特征;然后,在深层特征提取块中引入通道注意力机制,通过调整各通道的特征图权重来增加通道相关性,从而提取高频特征信息;最后,重建出高分辨率图像。为了减少注意力机制带来的巨大参数影响,在局部残差块中使用了深度可分离卷积技术以大大减少训练参数,同时采用自适应矩估计(Adam)优化器来加速模型的收敛,从而提高了算法性能。该方法在Set5、Set14数据集上进行图像重建,实验结果表明不仅该方法重建的图像具有更高的峰值信噪比(PSNR)和结构相似度(SSIM),而且所提模型的参数量减少为深度残差通道注意力网络(RCAN)模型的参数量的1/26。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号