首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 128 毫秒
1.
遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句.文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系.此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种...  相似文献   

2.
图像描述是将图像所包含的全局信息用语句来表示.它要求图像描述生成模型既能提取出图像信息,又能将提取出来的图像信息用语句表达出来.传统的模型是基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的,在一定程度上可以实现图像转语句的功能,但该模型在提取图像关键信息时精度不高且训练速度缓慢.针对这一问题,提出了一种基于CN...  相似文献   

3.
4.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图...  相似文献   

5.
针对图像描述生成中对图像细节表述质量不高、图像特征利用不充分、循环神经网络层次单一等问题,提出基于多注意力、多尺度特征融合的图像描述生成算法。该算法使用经过预训练的目标检测网络来提取图像在卷积神经网络不同层上的特征,将图像特征分层输入多注意力结构中,依次将多注意力结构与多层循环神经网络相连,构造出多层次的图像描述生成网络模型。在多层循环神经网络中加入残差连接来提高网络性能,并且可以有效避免因为网络加深导致的网络退化问题。在MSCOCO测试集中,所提算法的BLEU-1和CIDEr得分分别可以达到0.804及1.167,明显优于基于单一注意力结构的自上而下图像描述生成算法;通过人工观察对比可知,所提算法生成的图像描述可以表现出更好的图像细节。  相似文献   

6.
徐珺 《信息与电脑》2023,(19):155-157
计算机视觉图像描述是将图像信息转化为自然语言描述的技术,是近几年的研究热点。文章基于ResNeXt-101网络和压缩-激励(Squeeze-and-Excitation,SE)注意力机制,提出一种生成图像描述的新方式。针对输入图像的特征和感兴趣区域,本研究将SE模块、目标检测器更快的区域卷积神经网络(Faster Region-Convolutional Neural Network,Faster R-CNN)和ResNeXt101网络有机结合构建了编码器,最后通过实验证明该编码器可以增强模型对于图像的描述能力。  相似文献   

7.
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,...  相似文献   

8.
近年来, 注意力机制已经广泛应用于计算机视觉领域, 图像描述常用的编码器-解码器框架也不例外. 然而,当前的解码框架并未较清楚地分析图像特征与长短期记忆神经网络(LSTM)隐藏状态之间的相关性, 这也是引起累积误差的原因之一. 基于该问题, 本文提出一个类时序注意力网络(Similar Temporal Attenti...  相似文献   

9.
在各类的图像描述方法中,多模态方法主要将视觉和文本两种模态的信息作为输入,以获得有效的多级信息。然而,其中的多数方法未考虑两种模态数据之间的关系,仅孤立地使用这两种模态的数据。为了在不同模态之间建立复杂的交互,充分利用模态之间的关系提升图像描述效果,首先,引入双向注意流模块(Bi-Directional Attention Flow, BiDAF),将自注意力机制升级为双向方式;然后,通过一个只需一个遗忘门就可以实现与长短期记忆网络(Long Short-Term Memory, LSTM)相同的功能的门控线性记忆模块(Gated Linear Memory, GLM)有效降低解码器的复杂度,并捕获多模态的交互信息;最后,将BiDAF和GLM分别应用为图像描述模型的编码器和解码器,形成多模态交互网络(Multimodal Interactive Network, MINet)。在公共数据集MS COCO上的实验结果表明,MINet与现有的多模态方法相比不仅具有更简洁的解码器、更好的图像描述效果、更高的评价分数,且无需进行预训练,图像描述更高效。  相似文献   

10.
针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;其次,保存模型生成的文本序列,并添加对应的位置信息作为图像的文本特征,以解决单层长短期记忆(LSTM)网络导致的文本特征丢失的问题;最后,使用自注意力机制提取出重要的图像信息和文本信息后并对它们进行融合,以解决对图像信息过分依赖以及对文本信息利用不足的问题。在Flickr30K和MSCOCO (MicroSoft Common Objects in COntext)数据集上进行实验的结果表明,与Sub-GC相比,SGC-Net在BLEU1(BiLingualEvaluationUnderstudywith1-gram)、BLEU4 (BiLingualEvaluationUnderstudywith4-grams)、METEOR(Metric for Evaluation of Translation with Explicit ORdering)、ROU...  相似文献   

11.
当前图像标题生成任务的主流方法是基于深层神经网络的方法,尤其是基于自注意力机制模型的方法。然而,传统的深层神经网络层次之间是线性堆叠的,这使得低层网络捕获的信息无法在高层网络中体现,从而没有得到充分的利用。提出基于残差密集网络的方法获取层次语义信息来生成高质量的图像标题。首先,为了能够充分利用网络的层次信息,以及提取深层网络中的各个层的局部特征,提出LayerRDense在层与层之间进行残差密集连接。其次,提出SubRDense,在Decoder端的每层网络中的子层中运用残差密集网络,以更好地融合图像特征和图像的描述信息。在MSCOCO 2014数据集上的实验结果表明,所提出的LayerRDense和SubRDense网络均能进一步提高图像标题生成的性能。  相似文献   

12.
工业生产中常根据林格曼烟气黑度判断工业烟尘的污染等级,一种有效的方式是应用计算机视觉系统对工业烟尘进行监测, 其中对烟尘目标进行准确分割是该系统的关键技术。因为工业烟尘具有形状不固定、和云相似度高等特点,现有算法在复杂场景下对烟尘进行分割时容易受到干扰,分割准确度有待提高。针对这一问题,提出一种基于FCN-LSTM的工业烟尘图像分割方法,在全卷积网络对图像空间特征提取的基础上,使用长短时记忆网络提取图像序列的时间信息,通过烟尘的动态特征对运动的烟尘和背景进行区分,增强复杂场景下的抗干扰能力。实验表明,本文模型相比于全卷积网络,在复杂场景下的抗干扰能力有显著提升,能够有效克服来自云的干扰,对全卷积网络分割结果中易出现干扰点的问题也有改善,IoU指标最高有8.04%的提升。  相似文献   

13.
王源顺  段迅  吴云 《计算机应用研究》2021,38(11):3510-3516
针对当前的图像字幕方法只能够用一种黑盒的、从外部难以控制的架构描述图像的问题.创造性地将图像字幕问题转换为seq2seq问题,达到了可控生成图像字幕的效果.设计一个由图像区域构成的实体集合或实体序列作为控制信号,在实体块切换的块哨兵和带视觉哨兵的自适应注意力机制的指导下,将控制信号有规律地输入到双层的长短期记忆网络(long short term memory,LSTM)中,以可控的方式指导模型生成对应的图像字幕;此外,baseline使用cross entropy loss来早停模型的训练,引入强化学习思想来解决训练时的优化目标与评估算法效果时指标不一致的问题,进一步优化模型效果.实验表明:在MSCOCO及Flickr30k数据集上,提出的算法在生成可控图像字幕、字幕质量、多样性上达到了非常好的效果.  相似文献   

14.
准确地检测和描述全日面图像中的黑子群可以为监控和预测太阳活动提供依据。目前图像描述技术已有大量研究工作,但关于太阳黑子群描述方面的研究仍未涉及。针对苏黎世分类法中的9类太阳黑子群,制作了一个黑子群图像和描述文本的数据集,设计了一种Inception区域候选定位网络IRLN模型,首次将Inception区域候选网络Inception-RPN应用到图像描述中,通过使用Inception-RPN获得候选区域,并根据黑子群的特征改进了Inception模块的结构,提高网络对多尺度黑子群的检测能力。实验结果表明,本文模型在Visual Genome(VG)数据集上mAP为6.09%,比全卷积定位网络FCLN模型提高了0.7%;Meteor为31.9%,比FCLN模型提高了4.6%。在太阳黑子群数据集上mAP为74.47%,比FCLN模型提高了16%;Meteor为47.6%,比FCLN模型提高了14.2%。  相似文献   

15.
空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network)作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。  相似文献   

16.
图像标题生成利用机器自动产生描述图像的句子,属于计算机视觉与自然语言处理的交叉领域.传统基于注意力机制的算法侧重特征图不同区域,忽略特征图通道,易造成注意偏差.该模型通过当前嵌入单词与隐藏层状态的耦合度来赋予特征图不同通道相应权重,并将其与传统方法结合为融合注意力机制,准确定位注意位置.实验结果均在指定的评估方法上有一定的提升,表明该模型可以生成更加流利准确的自然语句.  相似文献   

17.
现有公共自行车短期需求预测模型忽视了不同环境因素影响用户需求的性质差异和可变环境因素的时间依赖性。将环境因素区分为已内化于需求的不变因素和需要单独考虑的可变因素,提出一种用图卷积神经网络(GCNN)捕获用户需求的非欧氏空间依赖、用长短期记忆(LSTM)网络捕获用户需求和可变环境因素的时间依赖、通过向量拼接和全连接网络将可变环境因素的影响施加于用户需求的GCNN-LSTM-E模型。实验结果显示,GCNN-LSTM-E模型在1 h时间粒度下的预测性能最优,而且优于所有基准模型的预测性能。说明该模型的设计合理有效,1 h是最合适的时间粒度。  相似文献   

18.
图像中物体间的关联性能够有效提升图像描述的效果,但是直接使用全局特征表示物体间的关系无法准确捕获图像的关联性特征。为准确捕获图像的关联性特征以提高描述的准确性,提出了一种基于空间关联性的图像描述生成方法。该方法使用Faster R-CNN提取图像的视觉特征和物体的空间位置信息,再将视觉特征与空间位置信息在高维空间融合后指导Transformer捕获图像的关联性特征;最后将视觉特征和关联性特征分别作为视觉注意力和空间关联性注意力的高层语义输入指导单词序列的生成。使用COCO数据集进行实验验证,在BLEU_4和CIDEr上分别得分38.1%和124.8%,相较于基线模型提升了1.8%和4.7%,证明了该方法的可行性。  相似文献   

19.
针对现有端到端自动驾驶方法中存在的驾驶指令预测不准确、模型结构体量大和信息冗余多等问题,提出一种新的基于深度视觉注意神经网络的端到端自动驾驶模型。为了更有效地提取自动驾驶场景的特征,在端到端自动驾驶模型中引入视觉注意力机制,将卷积神经网络、视觉注意层和长短期记忆网络进行融合,提出一种深度视觉注意神经网络。该网络模型能够有效提取驾驶场景图像的空间特征和时间特征,并关注重要信息且减少信息冗余,实现用前向摄像机输入的序列图像来预测驾驶指令的端到端自动驾驶。利用模拟驾驶环境的数据进行训练和测试,该模型在乡村路、高速路、隧道和山路四个场景中对方向盘转向角预测的均方根误差分别为0.009 14、0.009 48、0.002 89和0.010 78,均低于对比用的英伟达公司提出的方法和基于深度级联神经网络的方法;并且与未使用视觉注意力机制的网络相比,该模型具有更少的网络层数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号