首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
图像描述是目前图像理解领域的研究热点. 针对图像中文描述句子质量不高的问题, 本文提出融合双注意力与多标签的图像中文描述生成方法. 本文方法首先提取输入图像的视觉特征与多标签文本, 然后利用多标签文本增强解码器的隐藏状态与视觉特征的关联度, 根据解码器的隐藏状态对视觉特征分配注意力权重, 并将加权后的视觉特征解码为词语...  相似文献   

2.
针对近海船舶监测系统中自动化情报生成的空缺,为了构建智能化船舶监测系统,提出基于多空间混合注意力的图像描述生成方法,对近海船舶图像进行描述。图像描述生成方法就是让计算机通过符合语言学的文字描述出图像中的内容。首先使用图像的感兴趣区域的编码特征预训练出多空间混合注意力模型,然后加入策略梯度改造损失函数对预训练好的解码模型继续进行微调,得到最终的模型。在MSCOCO(MicroSoft Common Objects in COntext)图像描述数据集上的实验结果表明,所提模型较以往的注意力模型提升了图像描述生成的评价指标,比如CIDEr分数。使用该模型在自建船舶描述数据集中能够自动描述出船舶图像的主要内容,说明所提方法能为自动化情报生成提供数据支持。  相似文献   

3.
图像描述是机器学习和计算机视觉的重要研究领域,但现有方法对于视觉特征和模型架构之间存在的语义信息关联性探索还存在不足.本文提出了一种基于用户标签、视觉特征的注意力模型架构,能够有效地结合社交图像特征和图像中用户标签生成更加准确的描述.我们在MSCOCO数据集上进行了实验来验证算法性能,实验结果表明本文提出的基于用户标签、视觉特征的注意力模型与传统方法相比具有明显的优越性.  相似文献   

4.
遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句.文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系.此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种...  相似文献   

5.
图像描述,即利用电脑自动描述图像的语义内容一直是计算机视觉领域的一项重要研究任务.尽管使用卷积神经网络(convolutional neural networks, CNN)和长短期记忆网络(long short-term memory, LSTM)的组合框架在生成图像描述方面解决了梯度消失和梯度爆炸问题,但是基于LSTM的模型依赖序列化的生成描述,无法在训练时并行处理,且容易在生成描述时遗忘先前的信息.为解决这些问题,提出将条件生成对抗网络(conditionalgenerativeadversarial network, CGAN)引入到描述生成模型训练中,即采用CNN来生成图像描述.通过对抗训练来生成句子描述,并结合注意力机制提升描述的质量.在MSCOCO数据集上进行测试,实验结果表明,与基于CNN的其他方法相比,文中方法在语义丰富程度指标CIDEr上取得了2%的提升,在准确性指标BLEU上有1%左右的性能提升;同时,其在部分指标,尤其是语义指标上超过了基于LSTM模型的图像描述方法的性能;证明该方法生成的图像描述更接近图像的真实描述,并且语义内容更加丰富.  相似文献   

6.
7.
结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。  相似文献   

8.
空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network)作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。  相似文献   

9.
10.
近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展.文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像.目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码...  相似文献   

11.
图像描述是连接计算机视觉与自然语言处理两大人工智能领域内的一项重要任务.近几年来,基于注意力机制的编码器-解码器架构在图像描述领域内取得了显著的进展.然而,许多基于注意力机制的图像描述模型仅使用了单一的注意力机制.本文提出了一种基于双路细化注意力机制的图像描述模型,该模型同时使用了空间注意力机制与通道注意力机制,并且使用了细化图像特征的模块,对图像特征进行进一步细化处理,过滤掉图像中的冗余与不相关的特征.我们在MS COCO数据集上进行实验来验证本文模型的有效性,实验结果表明本文的基于双路细化注意力机制的图像描述模型与传统方法相比有显著的优越性.  相似文献   

12.
近年来, 注意力机制已经广泛应用于计算机视觉领域, 图像描述常用的编码器-解码器框架也不例外. 然而,当前的解码框架并未较清楚地分析图像特征与长短期记忆神经网络(LSTM)隐藏状态之间的相关性, 这也是引起累积误差的原因之一. 基于该问题, 本文提出一个类时序注意力网络(Similar Temporal Attenti...  相似文献   

13.
结合注意力机制的编解码框架模型已经被广泛地应用在图像描述任务中。大多数方法都强制对生成的每个单词进行主动的视觉注意,然而,解码器很可能不需要关注图像中的任何视觉信息就生成非视觉单词,比如“the”和“of”。本文提出一种自适应注意力模型,编码端采用Faster R-CNN网络提取图像中的显著特征,解码端LSTM网络中引入一个视觉监督信号。在每个时间步长,它可以自动地决定何时依赖于视觉信号,何时仅依赖于语言模型。最后在Flickr30K和MS-COCO数据集进行验证,实验结果表明该模型有效地提升了描述语句的质量。  相似文献   

14.
连政  王瑞  李海昌  姚辉  胡晓惠 《自动化学报》2023,49(9):1889-1903
在图像标题生成领域, 交叉注意力机制在建模语义查询与图像区域的关系方面, 已经取得了重要的进展. 然而, 其视觉连贯性仍有待探索. 为填补这项空白, 提出一种新颖的语境辅助的交叉注意力(Context-assisted cross attention, CACA)机制, 利用历史语境记忆(Historical context memory, HCM), 来充分考虑先前关注过的视觉线索对当前注意力语境生成的潜在影响. 同时, 提出一种名为“自适应权重约束(Adaptive weight constraint, AWC)” 的正则化方法, 来限制每个CACA模块分配给历史语境的权重总和. 本文将CACA模块与AWC方法同时应用于转换器(Transformer)模型, 构建一种语境辅助的转换器(Context-assisted transformer, CAT)模型, 用于解决图像标题生成问题. 基于MS COCO (Microsoft common objects in context)数据集的实验结果证明, 与当前先进的方法相比, 该方法均实现了稳定的提升.  相似文献   

15.
传统的三维密集字幕方法存在未充分考虑上下文信息、点云特征信息丢失以及隐藏状态信息量单一等问题.为了应对这些挑战,提出了多层级上下文投票网络,该网络在投票过程中使用自注意力机制捕获点云的上下文信息并加以多层级利用,提升检测对象的准确率.同时,还设计了隐藏状态-注意力时序融合模块,将当前时刻隐藏状态融合与前一时刻注意力结果融合,丰富隐藏状态信息量,从而提高模型表达能力.除此之外,采用“两阶段”训练方法,有效过滤掉生成的低质量对象提案,增强描述效果.在官方数据集ScanNet和ScanRefer上的大量实验表明,该方法与基线方法相比取得了更有竞争力的结果.  相似文献   

16.
一种基于视觉注意模型的图像分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
视觉选择性注意机制是人类视觉系统的重要组成部分。近年来的研究表明,自下而上的视觉选择性注意模型在物体识别等方面得到了良好的应用。但是,视觉选择性注意模型在描述图像内容时存在着明显的不足,一个显著的特征在某些情况下可能不会得到注意,人眼更可能会注意到一幅图像里比较稀少的特征。针对上述情况,提出了一种基于视觉选择性注意模型和全局稀少性相结合的视觉注意模型进行图像分类。实验结果表明,该方法在多类物体分类中达到97.74%的总准确率,取到了非常好的效果。  相似文献   

17.
目前图像描述技术的主要架构是基于深度神经网络的Encoder-Decoder架构.大多数工作集中在图像的特征提取和注意力机制上,如hard注意力模型和top-down注意力模型等.这些方法仅使用上一时刻的信息预测当前时刻的输出,使得解码器的输入信息的时间维度单一,同时解码器的单个输出也影响着预测结果的准确性.本文提出横...  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号