首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 60 毫秒
1.
结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。  相似文献   

2.
3.
图像标题生成与描述的任务是通过计算机将图像自动翻译成自然语言的形式重新表达出来,该研究在人类视觉辅助、智能人机环境开发等领域具有广阔的应用前景,同时也为图像检索、高层视觉语义推理和个性化描述等任务的研究提供支撑。图像数据具有高度非线性和繁杂性,而人类自然语言较为抽象且逻辑严谨,因此让计算机自动地对图像内容进行抽象和总结,具有很大的挑战性。本文对图像简单标题生成与描述任务进行了阐述,分析了基于手工特征的图像简单描述生成方法,并对包括基于全局视觉特征、视觉特征选择与优化以及面向优化策略等基于深度特征的图像简单描述生成方法进行了梳理与总结。针对图像的精细化描述任务,分析了当前主要的图像“密集描述”与结构化描述模型与方法。此外,本文还分析了融合情感信息与个性化表达的图像描述方法。在分析与总结的过程中,指出了当前各类图像标题生成与描述方法存在的不足,提出了下一步可能的研究趋势与解决思路。对该领域常用的MS COCO2014(Microsoft common objects in context)、Flickr30K等数据集进行了详细介绍,对图像简单描述、图像密集描述与段落描述和图像情感描述等代表性模型在数据集上的性能进行了对比分析。由于视觉数据的复杂性与自然语言的抽象性,尤其是融合情感与个性化表达的图像描述任务,在相关特征提取与表征、语义词汇的选择与嵌入、数据集构建及描述评价等方面尚存在大量问题亟待解决。  相似文献   

4.
刘茂福  施琦  聂礼强 《软件学报》2022,33(9):3210-3222
图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,本文提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention,简称VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明本文所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升.  相似文献   

5.
针对多源节点的情况下的无线传感器网络(WSNs)端到端位置隐私保护进行研究,提出了一种基于双向树形拓扑结构的隐私保护方案(BTBLPS).该方案采用最短路径方式进行真实数据包传输,然后在最短路径的交叉点上产生双向的假包传输分支.其中,临近源节点一侧分支上的假包传输方向是从分支末端节点传输到交叉点,而临近基站的一侧恰好相反,以此来达到同时对源节点和基站的位置隐私进行保护的目的.理论分析与仿真结果表明:所提的方案是可行的,并且具有良好的安全性能.  相似文献   

6.
针对目前图像表示中引入空间位置信息的空间金字塔匹配方法缺乏对图像中视觉物体平移、缩放和旋转的考虑,提出一种基于视觉词汇形状描述模型的图像表示方法。该方法相对于每个视觉单词的几何中心建立空间几何模型,保证平移不变性;给出对数极坐标空间金字塔匹配,对对数极半径做归一化,保证缩放不变性;在空间金字塔划分过程中确定极角的主方向,从而保证旋转不变性。分别在Caltech-101数据集和自建图像数据集上对该方法进行了验证和比较。实验结果表明,该方法提高了分类识别准确率,特别是对于包含明显平移、缩放和旋转变化的图像数据集;该方法的方差较小,说明其鲁棒性更强。  相似文献   

7.
针对图像描述模型中对语义信息考虑不足,循环神经网络收敛速度慢与精度低等问题,提出一种基于多注意力融合的深层图像描述模型。通过对图像中提取到的内容信息以及文本描述信息分配不同的权重,达到提升精度的效果,融合MOGRIFIER网络解决循环神经网络收敛速度缓慢的问题。使用改进模型与传统模型在数据集MSCOCO上进行对比实验,实验结果表明,该方法能够生成更加准确的描述,在BLEU与CIDEr等关键指标上有明显提升。  相似文献   

8.
曹渝昆  魏健强  孙涛  徐越 《计算机工程》2021,47(10):194-200
现有图像描述模型存在解码端层次不深、训练效率低下的问题,且生成的描述语句在语言连贯性和内容多样性方面效果欠佳,为此,提出一种基于独立循环神经网络的深层图像描述模型Deep-NIC.采用独立循环神经元与批标准化方法构建解码单元,通过解码单元的多层叠加建立深层解码端.使用谷歌inception V3作为编码端,构建深层图像...  相似文献   

9.
针对现有端到端自动驾驶方法中存在的驾驶指令预测不准确、模型结构体量大和信息冗余多等问题,提出一种新的基于深度视觉注意神经网络的端到端自动驾驶模型。为了更有效地提取自动驾驶场景的特征,在端到端自动驾驶模型中引入视觉注意力机制,将卷积神经网络、视觉注意层和长短期记忆网络进行融合,提出一种深度视觉注意神经网络。该网络模型能够有效提取驾驶场景图像的空间特征和时间特征,并关注重要信息且减少信息冗余,实现用前向摄像机输入的序列图像来预测驾驶指令的端到端自动驾驶。利用模拟驾驶环境的数据进行训练和测试,该模型在乡村路、高速路、隧道和山路四个场景中对方向盘转向角预测的均方根误差分别为0.009 14、0.009 48、0.002 89和0.010 78,均低于对比用的英伟达公司提出的方法和基于深度级联神经网络的方法;并且与未使用视觉注意力机制的网络相比,该模型具有更少的网络层数。  相似文献   

10.
近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。  相似文献   

11.
12.
13.
图像描述是机器学习和计算机视觉的重要研究领域,但现有方法对于视觉特征和模型架构之间存在的语义信息关联性探索还存在不足.本文提出了一种基于用户标签、视觉特征的注意力模型架构,能够有效地结合社交图像特征和图像中用户标签生成更加准确的描述.我们在MSCOCO数据集上进行了实验来验证算法性能,实验结果表明本文提出的基于用户标签、视觉特征的注意力模型与传统方法相比具有明显的优越性.  相似文献   

14.
近年来,基于bag-of-words模型的图像表示方法由于丢弃了视觉词汇之间的空间位置关系,且存在冗余信息,从而不能有效地表示该类图像。针对传统词袋模型视觉词汇之间相对位置关系利用不足,以及语义信息不明确的问题,提出采用基于支持区域的视觉短语来表示图像。通过支持区域探测得到图像中对分类起重要作用的支持区域,然后对支持区域上的视觉词进行空间建模得到视觉短语用于分类。最后在标准数据集UIUC-Sports8图像库和Scene-15图像库上进行对比实验,实验结果表明该算法具有良好的图像分类性能。  相似文献   

15.
近年来在图像描述领域对于应用场景图生成描述的研究越来越广泛. 然而, 当前基于场景图的图像描述模型并未考虑到长短期记忆神经网络(LSTM)对于先前输入的细节信息的保留, 这可能会导致细节信息的丢失. 针对这个问题, 本文提出基于原始信息注入的图像描述网络, 该网络对基线模型中语言LSTM的输入变量做了改进, 目的是尽可能多地保留原始输入信息, 减少输入信息在计算过程中的损失. 另外, 本文还认为当前的场景图更新机制中存在结点更新程度过大的问题, 因此本文设计了一个访问控制模块更新已访问过的结点权重, 避免引起结点信息丢失的问题. 同时, 本文设计一个图更新系数(GUF)来指导图更新, 以确定更新程度的大小. 本文在官方数据集MSCOCO上进行了实验, 各种评估机制的实验结果表明, 基于访问控制模块与原始信息注入的图像描述模型与基线模型对比, 取得了更有竞争力的结果, 表现出明显的优越性.  相似文献   

16.
针对目前采用分水岭变换实现的图像分割容易出现过分割,导致图像分割边缘不明显现象,使得分割之后图像边缘失真.论文提出了一种结合拉普拉斯滤波和区域分离与聚合的改进分水岭变换图像分割方法.仿真结果表明,与传统的分水岭图像分割方法相比,该方法分割出的图像能有效抑制图像的过分割现象.  相似文献   

17.
当前流行的图像检索系统普遍采用词袋(Bag-of-Words)模型表示图像视觉内容.由于传统的视觉词袋模型忽略了局部特征间的几何关系,考虑几何约束的后处理方法明显地提高了检索准确率.这些方法认为每个局部特征点是平等的,然而在实际情况中,图像中的局部特征点对于部分相似图像检索任务的重要性是不同的,比如位于相似图像区域上的特征点要比位于背景图像区域的特征点重要.鉴于此,提出考虑图像特征点重要性的部分相似图像检索算法.首先用视觉显著性算法来计算图像每个像素点的显著性(即重要性),然后在几何验证计算图像间匹配分数中考虑匹配局部特征点的重要性,最后在广泛使用的相似图像检索数据集上对提出的算法进行验证.实验结果表明了本方法的优越性.  相似文献   

18.
应用于图像检索的视觉注意力模型的研究   总被引:1,自引:0,他引:1  
利用视觉注意力模型进行图像检索是一个新的研究方向。介绍了几种视觉注意力模型原理,在分析和总结了基于注意力模型图像检索的应用和特点的基础上,进一步给出了面向图像检索的视觉注意力模型的发展前景。  相似文献   

19.
大量多媒体应用的发展使得数字图像很容易地被非法操作和篡改,提出一种基于 图像正则化和视觉特性的图像指纹算法,可以有效地实现图像的认证和识别。首先对图像进行 正则化预处理,消除几何形变对图像的影响,然后对图像进行分块DCT 变换,利用Watson 视 觉模型对DCT 系数进行处理,增大人眼敏感的频域系数在计算图像特征时的权重,经过量化形 成最终的指纹序列。在图像指纹序列生成过程中,加入密钥控制,提高了指纹的安全性。实验 结果表明,该方法的冲突概率在10–7 数量级,对JPEG 压缩、旋转、缩放等操作具有较好的稳 健性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号