期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李正周李文艳谭菊刘国金《计算机应用研究》2010,27(6):2391-2393

从视觉系统生理结构出发,对Itti视觉注意力模型进行了改进,融入运动特征,提出了一种基于视觉空时显著性感知的运动目标检测方法。首先提取图像的空间特征,形成空间显著图;然后利用相邻帧图像的全局运动、局部运动和相对运动,确定运动目标与背景的运动差异,形成运动显著图,并且对各显著区的空间特征和运动特征进行融合形成空时显著图,检测出运动目标。理论分析和实验结果表明,该方法能快速、准确地发现目标,减少目标的截获时间,提高目标跟踪性能。相似文献

2.

坐标注意力特征金字塔的显著性目标检测算法

王剑哲吴秦《计算机科学与探索》2023,(1):154-165

显著性目标检测旨在获取图像中的视觉显著目标,是计算机视觉领域的重要研究内容。相比传统手工提取特征的方法,基于全卷积神经网络的方法已在这一领域展现出强大优势。然而,显著性目标检测仍然存在一些问题。复杂场景下,背景中可能存在一些易被误判为显著目标的噪声,导致检测性能下降。另外,当显著目标轮廓较为复杂时,边界像素点的检测也变得较为困难。为了解决这些问题,提出一种坐标注意力特征金字塔的显著性目标检测算法。采用基于特征金字塔的网络结构,提取显著目标中不同层次的特征,并设计特征细化模块以实现不同层次特征的有效融合。为解决背景误判问题,采用坐标注意力模块,增大显著性区域权重的同时,抑制背景噪声。对于边界复杂问题,设计边界感知损失函数并结合多层次监督方法,帮助网络更加关注边界像素点,生成边界清晰的高质量显著图。在五个常用显著性目标检测数据集上的实验结果表明,该算法在五种评价指标上均取得较优的检测结果。相似文献

3.

问题引导的空间关系图推理视觉问答模型

下载免费PDF全文

兰红张蒲芬《中国图象图形学报》2022,27(7):2274-2286

目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法利用显著性注意力,用Faster R-CNN(region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果模型在VQA(visual question answering)v2... 相似文献

4.

结合立体视觉舒适度的立体图像显著性检测

周洋何永健刘晓琪唐向宏殷海兵《软件学报》2017,28(S2):1-10

针对先前的立体图像显著性检测模型未充分考虑立体视觉舒适度和视差图分布特征对显著区域检测的影响,提出了一种结合立体视觉舒适度因子的显著性计算模型.该模型在彩色图像显著性提取中,首先利用SLIC算法对输入图像进行超像素分割,随后进行颜色相似区域合并后再进行二维图像显著性计算;在深度显著性计算中,首先对视差图进行预处理;然后基于区域对比度进行显著性计算;最后,结合立体视觉舒适度因子对二维显著图和深度显著图进行融合,得到立体图像显著图.在不同类型立体图像上的实验结果表明,该模型获得了85%的准确率和78%的召回率,优于现有常用的显著性检测模型,并与人眼立体视觉注意力机制保持良好的一致性. 相似文献

5.

基于视觉注意力模型的显著性提取 总被引：1，自引：0，他引：1

张杰魏维《计算机技术与发展》2010,20(11)

对现有基于注意力机制的静态显著计算和动态显著计算技术进行综述.它主要包括两部分:静态图像的显著性提取和动态图像的显著性提取.静态显著计算首先介绍了Itti和Stentiford静态显著性提取模型,然后分析了基础分割的注意力模型技术.动态显著性提取中的两个动静结合的注意力模型、强注意力偏向融合和基于运动优先的注意力模型.介绍了一些视觉注意力模型,并对其进行了讨论.探讨了各种模型的优缺点及应用.为视觉注意力模型在图像检索、人机交互、视频监控等领域提供了一定的基础. 相似文献

6.

融合空时显著性的运动目标检测方法

于明闫必行阎刚于洋《计算机仿真》2013,30(4)

针对视频中显著性的运动目标检测问题,为解决显著性在运动目标检测中存在空时显著性简单融合和忽略时间显著性的问题,提出一种用人类视觉特性的运动目标检测方法.改进方法以提取的图像空间特征为基础,生成空间显著图,利用核密度估计,计算时间显著图;对空间显著性和时间显著性进行所占权重的计算,根据所计算的权值进行空间、时间显著图融合,生成空时显著图,得到检测出的运动目标.实验结果表明,改进方法能准确、快速地检测出运动目标,减少计算时间,提高检测目标的准确率. 相似文献

7.

基于同等注意力图网络的视觉问答方法

王天星袁家斌刘昕《计算机与现代化》2021,(11):1-6

视觉问答是一项计算机视觉与自然语言处理相结合的任务,需要理解图中的场景,特别是不同目标对象之间的交互关系。近年来,关于视觉问答的研究有了很大的进展,但传统方法采用整体特征表示,很大程度上忽略了所给图像的结构,无法有效锁定场景中的目标。而图网络依靠高层次图像表示,能捕获语义和空间关系,但以往利用图网络的视觉问答方法忽略了关系与问题间的关联在解答过程中的作用。据此提出基于同等注意力图网络的视觉问答模型EAGN,通过同等注意力机制赋予关系边与目标节点同等的重要性,两者结合使回答问题的依据更加充分。通过实验得出,相比于其他相关方法,EAGN模型性能优异且更具有竞争力,也为后续的相关研究提供了基础。相似文献

8.

多尺度分析的运动注意力计算

下载免费PDF全文

刘龙樊波阳《中国图象图形学报》2014,19(1):101-108

目的由于光流估算的缺陷、噪声干扰以及现有运动注意力模型的局限性,导致运动注意力计算结果不能准确反映运动的显著性特征,制约了运动显著图的进一步应用。为提高运动注意力计算的准确性,提出一种基于时—空多尺度分析的运动注意力计算方法。方法该方法根据视觉运动注意力来自于时—空运动反差的注意力形成机理构建运动注意力模型;通过时间尺度滤波去除噪声影响;鉴于视觉观测对尺度的依赖性,通过对视频帧的多尺度分解,在多个空间尺度进行运动注意力的计算,根据宏块像素值的相关系数大小对低尺度、中低尺度和原始尺度的运动注意力计算结果进行融合,得到最终的运动注意力显著图。结果对多个视频测试序列的测试,测试结果表明,本文方法比同类方法更能真实有效地反映出视频场景中的运动显著性特征,大大提高了运动显著图的准确性。结论为有效提高运动注意力计算不准确的问题,提出一种基于时—空多尺度分析的运动注意力计算方法,对于不同复杂视频运动场景,该方法能明显增强运动注意力计算的准确性,为视觉运动注意力的进一步应用奠定了良好基础。相似文献

9.

基于视觉显著性的均值漂移跟踪算法

樊祥锰尚振宏刘辉钱谦《传感器与微系统》2017,36(6)

为解决突变运动下的目标跟踪问题,提出了一种基于视觉显著性的均值漂移跟踪算法,将视觉注意机制运用到均值漂移跟踪框架中,利用时空显著性算法对视频序列进行检测,生成视觉显著图,从视觉显著图对应的显著性区域中建立目标的颜色特征表示模型来实现运动目标跟踪.实验结果表明:该算法在摄像机摇晃等动态场景下可以较准确检测出时空均显著的目标,有效克服了在运动目标发生丢失和遮挡等情况下跟踪不稳定的问题,具有较强的鲁棒性,从而实现复杂场景下目标较准确的跟踪. 相似文献

10.

基于显著性特征提取的图像描述算法EI北大核心CSCD

王鑫宋永红张元林《自动化学报》2022,48(3):735-746

图像描述(Image captioning)是一个融合了计算机视觉和自然语言处理这两个领域的研究方向,本文为图像描述设计了一种新颖的显著性特征提取机制(Salient feature extraction mechanism,SFEM),能够在语言模型预测每一个单词之前快速地向语言模型提供最有价值的视觉特征来指导单词预测,有效解决了现有方法对视觉特征选择不准确以及时间性能不理想的问题.SFEM包含全局显著性特征提取器和即时显著性特征提取器这两个部分:全局显著性特征提取器能够从多个局部视觉向量中提取出显著性视觉特征,并整合这些特征到全局显著性视觉向量中;即时显著性特征提取器能够根据语言模型的需要,从全局显著性视觉向量中提取出预测每一个单词所需的显著性视觉特征.本文在MS COCO(Microsoft common objects in context)数据集上对SFEM进行了评估,实验结果表明SFEM能够显著提升基准模型(baseline)生成图像描述的准确性,并且SFEM在生成图像描述的准确性方面明显优于广泛使用的空间注意力模型,在时间性能上也大幅领先空间注意力模型. 相似文献

11.

Pedestrian object detection with fusion of visual attention mechanism and semantic computation

Xiao Feng Liu Baotong Li Runa 《Multimedia Tools and Applications》2020,79(21-22):14593-14607

In response to the problem that the primary visual features are difficult to effectively address pedestrian detection in complex scenes, we present a method to improve pedestrian detection using a visual attention mechanism with semantic computation. After determining a saliency map with a visual attention mechanism, we can calculate saliency maps for human skin and the human head-shoulders. Using a Laplacian pyramid, the static visual attention model is established to obtain a total saliency map and then complete pedestrian detection. Experimental results demonstrate that the proposed method achieves state-of-the-art performance on the INRIA dataset with 92.78% pedestrian detection accuracy at a very competitive time cost.

相似文献

12.

Visual attention guided bit allocation in video compression

Zhicheng Li Shiyin QinLaurent Itti 《Image and vision computing》2011,29(1):1-14

A visual attention-based bit allocation strategy for video compression is proposed. Saliency-based attention prediction is used to detect interesting regions in video. From the top salient locations from the computed saliency map, a guidance map is generated to guide the bit allocation strategy through a new constrained global optimization approach, which can be solved in a closed form and independently of video frame content. Fifty video sequences (300 frames each) and eye-tracking data from 14 subjects were collected to evaluate both the accuracy of the attention prediction model and the subjective quality of the encoded video. Results show that the area under the curve of the guidance map is 0.773 ± 0.002, significantly above chance (0.500). Using a new eye-tracking-weighted PSNR (EWPSNR) measure of subjective quality, more than 90% of the encoded video clips with the proposed method achieve better subjective quality compared to standard encoding with matched bit rate. The improvement in EWPSNR is up to over 2 dB and on average 0.79 dB. 相似文献

13.

基于梯度显著性的轮廓提取方法

李东洋王平高颖慧曲智国《计算机工程与应用》2012,48(32):157-163

在复杂的自然场景中将轮廓准确地提取出来一直是一个难题,传统的基于梯度图像分割的方法在性能提高上遇到瓶颈。分析了梯度图像中轮廓与纹理的视觉特性,说明了显著性检测的必要性;引入视觉注意机制,利用残余谱得到梯度显著图,突出了轮廓的梯度响应的同时抑制了纹理的梯度响应,证明了显著性检测的可行性;详细介绍了算法实现流程。通过与其他三种算法进行对比,证明基于梯度显著图进行边缘分割和跟踪,有效地抑制了纹理边缘,轮廓提取性能得到明显提高;通过调整参数设置,验证该算法对参数变化具有一定程度的鲁棒性。相似文献

14.

融合双目多维感知特征的立体视频显著性检测

下载免费PDF全文

周洋何永健唐向宏陆宇蒋刚毅《中国图象图形学报》2017,22(3):305-314

目的立体视频能提供身临其境的逼真感而越来越受到人们的喜爱,而视觉显著性检测可以自动预测、定位和挖掘重要视觉信息,可以帮助机器对海量多媒体信息进行有效筛选。为了提高立体视频中的显著区域检测性能,提出了一种融合双目多维感知特性的立体视频显著性检测模型。方法从立体视频的空域、深度以及时域3个不同维度出发进行显著性计算。首先,基于图像的空间特征利用贝叶斯模型计算2D图像显著图;接着,根据双目感知特征获取立体视频图像的深度显著图;然后,利用Lucas-Kanade光流法计算帧间局部区域的运动特征,获取时域显著图;最后,将3种不同维度的显著图采用一种基于全局-区域差异度大小的融合方法进行相互融合,获得最终的立体视频显著区域分布模型。结果在不同类型的立体视频序列中的实验结果表明,本文模型获得了80%的准确率和72%的召回率,且保持了相对较低的计算复杂度,优于现有的显著性检测模型。结论本文的显著性检测模型能有效地获取立体视频中的显著区域,可应用于立体视频/图像编码、立体视频/图像质量评价等领域。相似文献

15.

Salient objects detection in dynamic scenes using color and texture features

Satya M. Muddamsetty Désiré Sidibé Alain Trémeau Fabrice Mériaudeau 《Multimedia Tools and Applications》2018,77(5):5461-5474

Visual saliency is an important research topic in the field of computer vision due to its numerous possible applications. It helps to focus on regions of interest instead of processing the whole image or video data. Detecting visual saliency in still images has been widely addressed in literature with several formulations. However, visual saliency detection in videos has attracted little attention, and is a more challenging task due to additional temporal information. A common approach for obtaining a spatio-temporal saliency map is to combine a static saliency map and a dynamic saliency map. In our work, we model the dynamic textures in a dynamic scene with local binary patterns to compute the dynamic saliency map, and we use color features to compute the static saliency map. Both saliency maps are computed using a bio-inspired mechanism of human visual system with a discriminant formulation known as center surround saliency, and are fused in a proper way. The proposed model has been extensively evaluated with diverse publicly available datasets which contain several videos of dynamic scenes, and comparison with state-of-the art methods shows that it achieves competitive results. 相似文献

16.

基于协同感知的视觉选择注意计算模型 总被引：1，自引：0，他引：1

下载免费PDF全文

邵静高隽《中国图象图形学报》2008,13(1):130-136

鉴于在任务相关的视觉注意中,需要建立基于任务的视觉注意显著图来引导视觉注意,为此利用与人认知过程相接近的协同感知理论来研究基于任务的视觉注意计算模型,即首先利用协同识别理论研究二义及多义模式的视觉感知,得到协同视觉感知理论;然后将协同视觉感知中的模式与从视觉注意模型中提取的底层视觉特征相对应,利用偏置矩阵的性质计算底层视觉特征间受任务影响而产生的偏置,再由此偏置和底层视觉特征生成基于任务的视觉注意显著图;最后提出了基于协同感知理论的视觉选择注意计算模型。该算法用于基于任务的视觉搜索的实验结果表明,该算法是有效的,在认知上是合理的。相似文献

17.

视觉选择性注意计算模型 总被引：1，自引：0，他引：1

张巧荣顾国昌肖会敏《机器人》2009,31(6):1

提出一种用于智能机器人的视觉注意计算模型．受生物学启发,该模型模仿人类自下而上和自上而下两种视觉选择性注意过程．通过提取输入图像的多尺度下的多个底层特征,在频域分析各特征图的幅度谱,在空域构造相应的特征显著图．根据显著图,计算出注意焦点的位置和注意区域的大小,结合给定的任务在各注意焦点之间进行视觉转移．在多幅自然图像上进行实验,并给出相应的实验结果、定性和定量分析．实验结果与人类视觉注意结果一致,表明该计算模型在注意效果、运算速度等方面有效．相似文献

18.

融合深度信息的视觉注意计算模型 总被引：2，自引：1，他引：1

下载免费PDF全文

曾志宏李建洋郑汉垣《计算机工程》2010,36(20):200-202

针对Itti模型在特征选择上的局限性,借鉴心理学中有关视觉注意的研究成果,提出一种融合深度信息的视觉注意计算模型。该模型在基于图像分割的自适应立体匹配基础上提取深度特征,与亮度、方向、颜色特征相结合,实现空间显著性度量,并采用侧抑机制和WTA机制得到注意焦点。实验结果表明,新模型能较好地反映空间立体视觉信息对注意的影响,使计算结果能更符合人类视觉。相似文献

19.

A dynamic saliency attention model based on local complexity

Longsheng Wei Nong Sang Yuehuan Wang Qingqing Zheng 《Digital Signal Processing》2012,22(5):760-767

A dynamic saliency attention model based on local complexity is proposed in this paper. Low-level visual features are extracted from current and some previous frames. Every feature map is resized into some different sizes. The feature maps in same size and same feature for all the frames are used to calculate a local complexity map. All the local complexity maps are normalized and are fused into a dynamic saliency map. In the same time, a static saliency map is acquired by the current frame. Then dynamic and static saliency maps are fused into a final saliency map. Experimental results indicate that: when there is noise among the frames or there is change of illumination among the frames, our model is excellent to Marat?s model and Shi?s model; when the moving objects do not belong to the static salient regions, our model is better than Ban?s model. 相似文献