期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

What were we all looking at? Identifying objects of collective visual attention

Zhong Ma Stephen Vickers Howell Istance Stephen Ackland Xinbo Zhao Wenhu Wang 《人工智能实验与理论杂志》2016,28(3):547-560

We aim to identify the salient objects in an image by applying a model of visual attention. We automate the process by predicting those objects in an image that are most likely to be the focus of someone's visual attention. Concretely, we first generate fixation maps from the eye tracking data, which express the ground truth of people's visual attention for each training image. Then, we extract the high-level features based on the bag-of-visual-words image representation as input attributes along with the fixation maps to train a support vector regression model. With this model, we can predict a new query image's saliency. Our experiments show that the model is capable of providing a good estimate for human visual attention in test images sets with one salient object and multiple salient objects. In this way, we seek to reduce the redundant information within the scene, and thus provide a more accurate depiction of the scene. 相似文献

2.

注意力引导网络的显著性目标检测

下载免费PDF全文

何伟潘晨《中国图象图形学报》2022,27(4):1176-1190

目的全卷积模型的显著性目标检测大多通过不同层次特征的聚合实现检测,如何更好地提取和聚合特征是一个研究难点。常用的多层次特征融合策略有加法和级联法,但是这些方法忽略了不同卷积层的感受野大小以及产生的特征图对最后显著图的贡献差异等问题。为此,本文结合通道注意力机制和空间注意力机制有选择地逐步聚合深层和浅层的特征信息,更好地处理不同层次特征的传递和聚合,提出了新的显著性检测模型AGNet(attention-guided network),综合利用几种注意力机制对不同特征信息加权解决上述问题。方法该网络主要由特征提取模块(feature extraction module, FEM)、通道—空间注意力融合模块(channel-spatial attention aggregation module, C-SAAM)和注意力残差细化模块(attention residual refinement module,ARRM)组成,并且通过最小化像素位置感知(pixel position aware, PPA)损失训练网络。其中,C-SAAM旨在有选择地聚合浅层的边缘信息以及深层抽象的语义特征,利用通道注意力和空间注意力避免融合冗余的背景信息对显著性映射造成影响;ARRM进一步细化融合后的输出,并增强下一个阶段的输入。结果在5个公开数据集上的实验表明,AGNet在多个评价指标上达到最优性能。尤其在DUT-OMRON(Dalian University of Technology-OMRON)数据集上,F-measure指标相比于排名第2的显著性检测模型提高了1.9%,MAE(mean absolute error)指标降低了1.9%。同时,网络具有不错的速度表现,达到实时效果。结论本文提出的显著性检测模型能够准确地分割出显著目标区域,并提供清晰的局部细节。相似文献

3.

Visual surveillance by dynamic visual attention method

María T. López Author Vitae Author Vitae Miguel A. Fernández Author Vitae Author Vitae Ana E. Delgado Author Vitae 《Pattern recognition》2006,39(11):2194-2211

This paper describes a method for visual surveillance based on biologically motivated dynamic visual attention in video image sequences. Our system is based on the extraction and integration of local (pixels and spots) as well as global (objects) features. Our approach defines a method for the generation of an active attention focus on a dynamic scene for surveillance purposes. The system segments in accordance with a set of predefined features, including gray level, motion and shape features, giving raise to two classes of objects: vehicle and pedestrian. The solution proposed to the selective visual attention problem consists of decomposing the input images of an indefinite sequence of images into its moving objects, defining which of these elements are of the user's interest at a given moment, and keeping attention on those elements through time. Features extraction and integration are solved by incorporating mechanisms of charge and discharge—based on the permanency effect—, as well as mechanisms of lateral interaction. All these mechanisms have proved to be good enough to segment the scene into moving objects and background. 相似文献

4.

视觉选择性注意计算模型 总被引：1，自引：0，他引：1

张巧荣顾国昌肖会敏《机器人》2009,31(6):1

提出一种用于智能机器人的视觉注意计算模型．受生物学启发,该模型模仿人类自下而上和自上而下两种视觉选择性注意过程．通过提取输入图像的多尺度下的多个底层特征,在频域分析各特征图的幅度谱,在空域构造相应的特征显著图．根据显著图,计算出注意焦点的位置和注意区域的大小,结合给定的任务在各注意焦点之间进行视觉转移．在多幅自然图像上进行实验,并给出相应的实验结果、定性和定量分析．实验结果与人类视觉注意结果一致,表明该计算模型在注意效果、运算速度等方面有效．相似文献

5.

基于双重注意力机制的异步优势行动者评论家算法

凌兴宏李杰朱斐刘全伏玉琛《计算机学报》2020,43(1):93-106

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性. 相似文献

6.

改进RetinaNet的伪装人员检测方法研究

下载免费PDF全文

邓小桐曹铁勇方正郑云飞《计算机工程与应用》2021,57(5):190-196

迷彩伪装技术能有效降低目标的视觉显著度,对迷彩目标检测任务造成巨大的挑战。在RetinaNet检测框架的基础上,针对迷彩目标特性嵌入了空间注意力和通道注意力模块,并基于定位置信得分构建了新的预测框过滤算法,有效实现了对迷彩伪装人员的检测。在扩展后的伪装人员数据集上的实验表明,该模型将检测精度提升了8.7个百分点,达到了93.1%。相似文献

7.

引入视觉注意机制的目标跟踪方法综述 总被引：2，自引：0，他引：2

黎万义王鹏乔红《自动化学报》2014,40(4):561-576

视觉跟踪在无人飞行器、移动机器人、智能监控等领域有着广泛的应用,但由于目标外观和环境的变化,以及背景干扰等因素的存在,使得复杂场景下的鲁棒实时的目标跟踪成为一项极具挑战性的任务. 视觉注意是人类视觉信息处理过程中的一项重要的心理调节机制,在视觉注意的引导下,人类能够从众多的视觉信息中快速地选择那些最重要、最有用、与当前行为最相关的感兴趣的视觉信息,特别地,人类能够快速指向感兴趣的目标,从而可以轻松地实现对目标的稳定跟踪.因此,将视觉注意机制引入到复杂场景下的目标跟踪中,有利于实现更为稳定和接近于人类认知机制的视觉跟踪算法.本文旨在对引入了视觉注意机制的目标跟踪方法进行综述. 首先,介绍了视觉注意的基本概念及其代表性的计算模型;其次,对视觉注意与跟踪的内在关系进行了阐述;然后,对引入视觉注意机制的目标跟踪方法进行归纳、总结和分类,对代表性的方法进行介绍和分析;最后,对该类方法的特点和优势进行了讨论,并对未来的研究趋势进行了展望. 相似文献

8.

基于视觉注意机制的目标跟踪方法

张巧荣张慧娟《计算机工程与科学》2014,36(8):1549-1554

提出一种基于视觉注意机制的运动目标跟踪方法。该方法借鉴人类的视觉注意机制的研究成果,建立视觉注意机制的计算模型,计算视频中各部分内容的视觉显著性。结合视觉显著性计算结果,提取视频图像中的显著性目标。利用颜色分布模型作为目标的特征表示模型,与视频中各显著目标进行特征匹配,实现目标的跟踪。在多个视频序列中进行实验,并给出相应的实验结果及分析。实验结果表明,提出的目标检测与跟踪算法是正确有效的。相似文献

9.

一种基于物体的视觉注意计算模型

下载免费PDF全文

张巧荣张永强肖会敏《计算机工程》2011,37(10):29-31

为解决基于空间的视觉注意计算模型存在的注意目标不完整、容易转移到无意义区域等问题,提出一种结合空间显著性的基于物体的视觉注意计算模型。检测图像的边缘信息,根据空间视觉显著性度量结果,提取显著值高的封闭边缘,得到感知物体的轮廓。根据各感知物体的大小、位置和显著程度计算其注意度。注意焦点按照注意度递减的顺序在各感知物体之间进行转移。在多幅自然图像上进行实验验证,实验结果表明该模型具有和人类视觉特性相符合的注意效果。相似文献

10.

基于空间关联性注意力的图像描述生成方法

张红良李广明《计算机应用研究》2023,40(4):1275-1280

图像中物体间的关联性能够有效提升图像描述的效果,但是直接使用全局特征表示物体间的关系无法准确捕获图像的关联性特征。为准确捕获图像的关联性特征以提高描述的准确性,提出了一种基于空间关联性的图像描述生成方法。该方法使用Faster R-CNN提取图像的视觉特征和物体的空间位置信息,再将视觉特征与空间位置信息在高维空间融合后指导Transformer捕获图像的关联性特征;最后将视觉特征和关联性特征分别作为视觉注意力和空间关联性注意力的高层语义输入指导单词序列的生成。使用COCO数据集进行实验验证,在BLEU＿4和CIDEr上分别得分38.1%和124.8%,相较于基线模型提升了1.8%和4.7%,证明了该方法的可行性。相似文献

11.

关于视觉注意力选择的神经编码

屈景怡王如彬《动力学与控制学报》2012,10(3):234-238

本文提出了一种改进的注意力选择模型,在这个模型中,周边神经元代表初级视觉皮层的神经元,中心神经元代表更高级视觉皮层中的神经元.生理实验发现方向选择性是初级视觉皮层神经元的重要特性之一,所以模型除了考虑外部刺激的强度,也考虑了初级视觉皮层中的神经元的方向选择性.仿真结果显示改进后的模型能够选择具有不同方向选择性的目标,并且能从一个目标转移到另一个目标.和原模型相比,改进后的模型更符合生理背景.该模型的动力学分析结果,对于理解视觉神经系统的编码有一定的帮助. 相似文献

12.

Hierarchical Visual Attention Model for Saliency Detection Inspired by Avian Visual Pathways

下载免费PDF全文

Xiaohua Wang Haibin Duan 《IEEE/CAA Journal of Automatica Sinica》2019,6(2):540-552

Visual attention is a mechanism that enables the visual system to detect potentially important objects in complex environment. Most computational visual attention models are designed with inspirations from mammalian visual systems. However, electrophysiological and behavioral evidences indicate that avian species are animals with high visual capability that can process complex information accurately in real time. Therefore, the visual system of the avian species, especially the nuclei related to the visual attention mechanism, are investigated in this paper. Afterwards, a hierarchical visual attention model is proposed for saliency detection. The optic tectum neuron responses are computed and the self-information is used to compute primary saliency maps in the first hierarchy. The "winner-take-all" network in the tecto-isthmal projection is simulated and final saliency maps are estimated with the regularized random walks ranking in the second hierarchy. Comparison results verify that the proposed model, which can define the focus of attention accurately, outperforms several state-of-the-art models. This study provides insights into the relationship between the visual attention mechanism and the avian visual pathways. The computational visual attention model may reveal the underlying neural mechanism of the nuclei for biological visual attention. 相似文献

13.

Familiarity based unified visual attention model for fast and robust object recognition

Seungjin Lee^{Author Vitae} Kwanho Kim Author VitaeAuthor Vitae Minsu Kim Author VitaeAuthor Vitae 《Pattern recognition》2010,43(3):1116-1128

Even though visual attention models using bottom-up saliency can speed up object recognition by predicting object locations, in the presence of multiple salient objects, saliency alone cannot discern target objects from the clutter in a scene. Using a metric named familiarity, we propose a top-down method for guiding attention towards target objects, in addition to bottom-up saliency. To demonstrate the effectiveness of familiarity, the unified visual attention model (UVAM) which combines top-down familiarity and bottom-up saliency is applied to SIFT based object recognition. The UVAM is tested on 3600 artificially generated images containing COIL-100 objects with varying amounts of clutter, and on 126 images of real scenes. The recognition times are reduced by 2.7× and 2×, respectively, with no reduction in recognition accuracy, demonstrating the effectiveness and robustness of the familiarity based UVAM. 相似文献

14.

问题引导的空间关系图推理视觉问答模型

下载免费PDF全文

兰红张蒲芬《中国图象图形学报》2022,27(7):2274-2286

目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法利用显著性注意力,用Faster R-CNN （region-based convolutional neural network）提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果模型在VQA （visual question answering） v2数据集上进行训练、验证和测试。实验结果表明,本文模型相比于Prior、Language only、MCB （multimodal compact bilinear）、ReasonNet和Bottom-Up等模型,在各项准确率方面有明显提升。相比于ReasonNet模型,本文模型总体的回答准确率提升2.73%,是否问题准确率提升4.41%,计数问题准确率提升5.37%,其他问题准确率提升0.65%。本文还进行了消融实验,验证了方法的有效性。结论提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配,特别是对于需要空间关系推理的问题,模型展现出较强的推理能力。相似文献

15.

基于超复视域注意模型的视频分割算法

下载免费PDF全文

黄叶珏褚一平《计算机工程》2012,38(14):217-219

提出一种基于超复视域注意模型的视频分割算法,无需事先针对特定类型的目标进行训练。通过构造超复视域注意帧图像,对超复视域注意帧图像计算相位相关实现运动建模,利用条件随机场对视域注意模型、颜色模型以及邻域关系模型进行约束求解,获得分割结果。采用不同的视频数据对该算法的有效性进行测试,并与其他分割算法的结果进行比较。实验结果表明,该算法的分割错误率较低。相似文献

16.

面向视觉问答的多模块协同注意模型

邹品荣肖锋张文娟张万玉王晨阳《计算机工程》2022,48(2):250-260

视觉问答（VQA）是计算机视觉和自然语言处理领域中典型的多模态问题，然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型，对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解，根据图注意力机制建模不同类型对象间关系，学习问题的自适应关系表示，将问题特征和带关系属性的视觉关系通过协同注意编码，加强问题词与对应图像区域间的依赖性，通过注意力增强模块提升模型的拟合能力。在开放数据集VQA 2.0和VQA-CP v2上的实验结果表明，该模型在“总体”、“是/否”、“计数”和“其他”类别问题上的精确度明显优于DA-NTN、ReGAT和ODA-GCN等对比方法，可有效提升视觉问答的准确率。相似文献

17.

结合自底向上注意力机制和记忆网络的视觉问答模型

下载免费PDF全文

闫茹玉刘学亮《中国图象图形学报》2020,25(5):993-1006

目的现有大多数视觉问答模型均采用自上而下的视觉注意力机制,对图像内容无加权统一处理,无法更好地表征图像信息,且因为缺乏长期记忆模块,无法对信息进行长时间记忆存储,在推理答案过程中会造成有效信息丢失,从而预测出错误答案。为此,提出一种结合自底向上注意力机制和记忆网络的视觉问答模型,通过增强对图像内容的表示和记忆,提高视觉问答的准确率。方法预训练一个目标检测模型提取图像中的目标和显著性区域作为图像特征,联合问题表示输入到记忆网络,记忆网络根据问题检索输入图像特征中的有用信息,并结合输入图像信息和问题表示进行多次迭代、更新,以生成最终的信息表示,最后融合记忆网络记忆的最终信息和问题表示,推测出正确答案。结果在公开的大规模数据集VQA （visual question answering）v2.0上与现有主流算法进行比较实验和消融实验,结果表明,提出的模型在视觉问答任务中的准确率有显著提升,总体准确率为64.0%。与MCB（multimodal compact bilinear）算法相比,总体准确率提升了1.7%;与性能较好的VQA machine算法相比,总体准确率提升了1%,其中回答是/否、计数和其他类型问题的准确率分别提升了1.1%、3.4%和0.6%。整体性能优于其他对比算法,验证了提出算法的有效性。结论本文提出的结合自底向上注意力机制和记忆网络的视觉问答模型,更符合人类的视觉注意力机制,并且在推理答案的过程中减少了信息丢失,有效提升了视觉问答的准确率。相似文献

18.

利用视觉显著性和粒子滤波的运动目标跟踪 总被引：1，自引：1，他引：0

下载免费PDF全文

张巧荣冯新扬《中国图象图形学报》2013,18(5):515-522

针对运动目标跟踪问题,提出一种利用视觉显著性和粒子滤波的目标跟踪算法.借鉴人类视觉注意机制的研究成果,根据目标的颜色、亮度和运动等特征形成目标的视觉显著性特征,与目标的颜色分布模型一起作为目标的特征表示模型,利用粒子滤波进行目标跟踪.该算法能够克服利用单一颜色特征所带来的跟踪不稳定问题,并能有效解决由于目标形变、光照变化以及目标和背景颜色分布相似而产生的跟踪困难问题,具有较强的鲁棒性.在多个视频序列中进行实验,并给出相应的实验结果和分析.实验结果表明,该算法用于实现运动目标跟踪是正确有效的. 相似文献

19.

一种基于感知物体的场景分析注意机制 总被引：3，自引：0，他引：3

下载免费PDF全文

赵训坡王璐胡占义《中国图象图形学报》2006,11(2):281-288

基于物体的选择性注意在心理学领域正日益为广大研究人员所认可,而计算机视觉领域中现有的注意模型大多数是基于特征的,或者是基于空间的.本文给出了一种基于物体的选择性注意计算模型.该模型将“感知物体”作为引起注意的基本单元,并给出了感知物体及其邻域的定义.该注意模型包括两个步骤：（1）在给定图像中选择第一个注视点;（2）在整幅图像中实现注视点的有效转移.在该注意模型中,感知物体与其邻域之间灰度值的绝对差异--对比度,被作为该感知物体显著性的一种度量,并且注视点在图像中的转移顺序是由每个感知物体的显著度的次序来决定的.该模型的优点有：首先,由于该模型是完全基于感知物体的,使得其输出结果可以很容易地应用到物体识别、图像分割和场景分析中;其次,该模型是多尺度的,也就是说,它可以根据实际任务的需要进行适当的调整.大量的真实图像实验表明,所提出的模型具有一定的合理性. 相似文献

20.

Global-Attention-Based Neural Networks for Vision Language Intelligence

下载免费PDF全文

Pei Liu Yingjie Zhou Dezhong Peng Dapeng Wu 《IEEE/CAA Journal of Automatica Sinica》2021,8(7):1243-1252

相似文献