首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
刘茂福  施琦  聂礼强 《软件学报》2022,33(9):3210-3222
图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,本文提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention,简称VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明本文所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升.  相似文献   

2.
图像描述是连接计算机视觉与自然语言处理两大人工智能领域内的一项重要任务.近几年来,基于注意力机制的编码器-解码器架构在图像描述领域内取得了显著的进展.然而,许多基于注意力机制的图像描述模型仅使用了单一的注意力机制.本文提出了一种基于双路细化注意力机制的图像描述模型,该模型同时使用了空间注意力机制与通道注意力机制,并且使用了细化图像特征的模块,对图像特征进行进一步细化处理,过滤掉图像中的冗余与不相关的特征.我们在MS COCO数据集上进行实验来验证本文模型的有效性,实验结果表明本文的基于双路细化注意力机制的图像描述模型与传统方法相比有显著的优越性.  相似文献   

3.
图像描述是目前图像理解领域的研究热点. 针对图像中文描述句子质量不高的问题, 本文提出融合双注意力与多标签的图像中文描述生成方法. 本文方法首先提取输入图像的视觉特征与多标签文本, 然后利用多标签文本增强解码器的隐藏状态与视觉特征的关联度, 根据解码器的隐藏状态对视觉特征分配注意力权重, 并将加权后的视觉特征解码为词语, 最后将词语按时序输出得到中文描述句子. 在图像中文描述数据集Flickr8k-CN、COCO-CN上的实验表明, 本文提出的模型有效地提升了描述句子质量.  相似文献   

4.
针对近海船舶监测系统中自动化情报生成的空缺,为了构建智能化船舶监测系统,提出基于多空间混合注意力的图像描述生成方法,对近海船舶图像进行描述。图像描述生成方法就是让计算机通过符合语言学的文字描述出图像中的内容。首先使用图像的感兴趣区域的编码特征预训练出多空间混合注意力模型,然后加入策略梯度改造损失函数对预训练好的解码模型继续进行微调,得到最终的模型。在MSCOCO(MicroSoft Common Objects in COntext)图像描述数据集上的实验结果表明,所提模型较以往的注意力模型提升了图像描述生成的评价指标,比如CIDEr分数。使用该模型在自建船舶描述数据集中能够自动描述出船舶图像的主要内容,说明所提方法能为自动化情报生成提供数据支持。  相似文献   

5.
空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network)作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。  相似文献   

6.
7.
图像自动语句标注利用计算机自动生成描述图像内容的语句,在服务机器人等领域有广泛应用.许多学者已经提出了一些基于注意力机制的算法,但是注意力分散问题以及由注意力分散引起的生成语句错乱问题还未得到较好解决.在传统注意力机制的基础上引入注意力反馈机制,利用关注信息的图像特征指导文本生成,同时借助生成文本中的关注信息进一步修正图像中的关注区域,该过程不断强化图像和文本中的关键信息匹配、优化生成的语句.针对常用数据集Flickr8k, Flickr30k和MSCOCO的实验结果表明,该模型在一定程度上解决了注意力分散和语句顺序错乱问题,比其他基于注意力机制方法标注的关注区域更加准确,生成语句更加通顺.  相似文献   

8.
图像描述是机器学习和计算机视觉的重要研究领域,但现有方法对于视觉特征和模型架构之间存在的语义信息关联性探索还存在不足.本文提出了一种基于用户标签、视觉特征的注意力模型架构,能够有效地结合社交图像特征和图像中用户标签生成更加准确的描述.我们在MSCOCO数据集上进行了实验来验证算法性能,实验结果表明本文提出的基于用户标签、视觉特征的注意力模型与传统方法相比具有明显的优越性.  相似文献   

9.
赵宏  孔东一 《计算机应用》2021,41(9):2496-2503
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重的图像特征解码生成隐藏信息,以保证关注信息不减弱、无缺失;最后利用自适应注意力的视觉哨兵模块对图像特征中的重点内容进行再次加强关注,从而更加精准地提取图像的主体内容。使用多种评价指标(BLEU、METEOR、ROUGEL和CIDEr)进行模型验证,将所提模型与单一基于自适应注意力和基于图像特征注意力的图像描述模型进行对比实验,该模型的CIDEr评价指标值分别提高了10.1%和7.8%;同时与基线模型NIC(Neural Image Caption )以及基于自底向上和自顶向下(BUTD)注意力的图像描述模型相比,该模型的CIDEr评价指标值分别提高了10.9%和12.1%。实验结果表明,所提模型的图像理解能力得到了有效提升,其各项评价指标得分均优于对比模型。  相似文献   

10.
遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系。此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种基于金字塔池化和通道注意力机制的特征提取网络(Pyramid Pool and Channel Attention Network,PCAN),用于捕获遥感图像多尺度以及局部跨通道交互信息。将该模型提取到的图像特征作为描述生成阶段软注意力机制的输入,通过计算得到上下文信息,然后将该上下文信息输入至LSTM网络中,得到最终的输出序列。在RSICD与MSCOCO数据集上对PCAN及软注意力机制进行有效性实验,结果表明,PCAN及软注意力机制的加入能够提升生成语句的质量,实现单词与图像特征之间的对齐。通过对软注意力机制的可视化分析,提高了模型结果的可信度。此外,在语义分割数据集上进行实验,结果表明所提PCAN对于语义分割任务同样具有有效性。  相似文献   

11.
针对现有的基于注意力机制的图像描述方法描述内容与图像关联度低的问题,提出一种基于目标检测与词性分析的图像描述算法。该方法在注意力机制的基础上,通过目标检测算法提取图片中的信息,使用带有注意力机制的循环神经网络对提取到的信息进行处理,生成图像描述语句。在生成单词的过程中,算法会预测每个单词的词性,根据不同的词性选择不同的神经网络,从而提升描述语句与原图像的关联度。实验结果表明,在多种客观描述评价标准中,本文算法生成的描述语句相对目前存在的算法均有不同程度提升,同时,在主观评价中也能够更准确流畅地描述图片的内容。  相似文献   

12.
事件相机因其生物视觉的启发渊源,打破了计算机视觉领域的常规数据获取方式,直击计算机视觉领域中RGB图像的痛点,带来了二维图像传感器无法比拟的优势,引起了广大研究者的密切关注.事件相机带来去除冗余信息、快速感知能力、高动态范围的感光能力和低功耗特性等优势的同时,其异步的事件数据无法直接应用于现有的计算机视觉处理模式.因此,利用基于关键事件点的分类方法对事件相机的数据流进行分类.该方法检测带有重要信息的角点事件,并只对角点事件进行特征提取.在保留事件重要特征和凝练提取事件流特征的同时,有效地减少了对其他事件的运算量.对预设手势进行识别,以此验证该方法的有效性,实现了97.86%的准确率.  相似文献   

13.
基于内容图像检索中的颜色特征描述   总被引:6,自引:0,他引:6  
多媒体数据库应用需要有效的基于内容相似性检索方法。颜色特征由于其简单、计算复杂度低及对几何变换的不变性成为机器可自动提取的图像内容中最重要的特征。文章讨论了颜色特征的表示及其进展。直方图是使用最普遍的颜色特征描述符,它必须选择与人类视觉机制一致的颜色空间和量化模式。直方图与空间关系的组合可提高图像内容描述的精度,因而提供更好的颜色特征匹配。由于基于小波变换的编码技术已成为JPEG2000等图像编码标准的核心,因此基于小波变换系数特征描述方法已越来越受到重视。由于图像颜色的心理作用可影响观察者对图像的理解,如何建立与心理活动及视觉机制相适应的颜色特征模型,提取这些语义级的高级抽象内容是我们必须面对的挑战。  相似文献   

14.
视频数据中包含丰富的运动事件信息,从中检测复杂事件,分析其中的高层语义信息,已成为视频研究领域的热点之一。视频复杂事件检测,主要对事件中多语义概念进行检测分析,对多运动目标的特征进行描述,发现底层特征与高层语义概念间的关系,旨在从各类视频特征及相关的原始视频数据中自动提取视频复杂事件中语义概念模式,实现“跨越语义鸿沟”的目标。在超图理论的基础上,提出了针对运动目标特征分别构建轨迹超图和多标签超图,并对其进行配对融合,用于检测视频复杂事件。实验结果证明,同其他方法如基于普通图的事件检测方法和基于超图的多标签半监督学习方法相比,新方法在检测复杂事件结果中具有更高的平均查准率和平均查全率。  相似文献   

15.
随着数字图像处理技术的不断发展,实时图像处理已成为可能,结合当前运载火箭飞行特征事件判别存在的不足,本文提出了基于实时图像处理的特征事件辅助判别方法,从图像传输、处理、判别方法等方面进行了阐述,并对系统指标进行了分析,能够满足运载火箭实时飞行指挥决策需要,可作为当前判别运载火箭飞行特征事件的有效补充手段。  相似文献   

16.
17.
事件分类研究一直是计算机科学和语言学等学科的核心研究内容,针对动词语义层面上的分类问题,研究者们提出了不同的分类标准,而根据这些分类标准对动词进行分类会产生分类有交叉和分类粒度粗等问题。一个动词通常表示一个过程事件,该文以汉语世界中经常发生的过程事件为语义分类对象,从事件的定义中提取事件的特征属性,并给每个特征属性赋予权重,利用特征属性对顶层事件类包含的事件进行分类。该文采用框架的形式对事件进行语义描述,框架内容由事件的特征属性和私有属性组成。重点以“传播”类事件为例来阐述该文的分类方法,通过实际操作发现,利用该分类方法,可以得到一个比较清晰的事件语义分类结构。该文用描述逻辑来对事件及事件之间的分类关系进行形式化表示。根据该事件分类体系,可以有效获取事件属性相关的常识知识。  相似文献   

18.
19.
20.
支持复合事件的模型及其在中间件中的应用   总被引:1,自引:0,他引:1  
郑震坤  张阔  王小鸽 《计算机工程》2006,32(13):52-54,6
介绍了COM的可连接对象技术和对复合事件的识别过程,给出了在可连接对象技术基础上进行改进和扩展的EFL事件模型,并且在其中加入了对复合事件的支持,此外还阐述了利用XML对事件进行表述的方法。介绍了基于EFL构件模型的反射式中间件PURPLE,并着重说明了EFL事件机制在PURPLE环境监测和自适应过程中的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号