首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于视觉注意力模型的显著性提取   总被引:1,自引:0,他引:1  
对现有基于注意力机制的静态显著计算和动态显著计算技术进行综述.它主要包括两部分:静态图像的显著性提取和动态图像的显著性提取.静态显著计算首先介绍了Itti和Stentiford静态显著性提取模型,然后分析了基础分割的注意力模型技术.动态显著性提取中的两个动静结合的注意力模型、强注意力偏向融合和基于运动优先的注意力模型.介绍了一些视觉注意力模型,并对其进行了讨论.探讨了各种模型的优缺点及应用.为视觉注意力模型在图像检索、人机交互、视频监控等领域提供了一定的基础.  相似文献   

2.
蒋峰岭  孔斌  钱晶  王灿  杨静 《测控技术》2021,40(1):1-15
人类的视觉系统能够迅速地、有选择地从视觉场景中检测出感兴趣的目标或者具有显著特征的物体,并根据更高层次的视觉任务目的对它们进行处理和理解,从而实现相应的行为或决策.将人类这种选择性视觉注意机制引入到计算机视觉的信息处理中,可以有效地减少视觉计算所需处理的数据量、加速整个处理过程,并进一步方便更高层次视觉任务的处理,因而该方面的研究受到学术界的广泛关注并应用到计算机视觉的各个领域.首先简单介绍了视觉注意力研究的发展历程,然后综述了显著性物体检测的各种方法,包括传统的方法和基于深度学习的方法,并对这两大类的方法作了进一步的分类和小结.接着,介绍了现有的显著性物体检测的数据集,并详细描述了用于评价检测算法效果的多种评测方法和指标.此外,还探讨了显著性物体检测在不同领域的应用.最后,对显著性物体检测研究的发展趋势和方向进行了分析和总结.  相似文献   

3.
协同视觉显著性检测是基于人类视觉注意力机制,旨在捕获一组相关图像中的公共显著目标,在协同分割和目标检测等领域广泛应用。对现有的协同显著性检测方法进行归纳总结和实验评估。根据特征形式的差异将所有方法分为两大类:一类是采用浅层特征的传统方法,另一类是采用深层特征的基于深度学习方法。根据获取组间显著性和模型构建策略的不同,对这两大类方法进行相关介绍和理论分析。将流行方法在领域内两个公开数据集进行了主观和定量的实验评估。对现有方法进行定性总结,并分析了现阶段研究中存在的问题,同时对未来工作进行展望。  相似文献   

4.
针对先前的立体图像显著性检测模型未充分考虑立体视觉舒适度和视差图分布特征对显著区域检测的影响,提出了一种结合立体视觉舒适度因子的显著性计算模型.该模型在彩色图像显著性提取中,首先利用SLIC算法对输入图像进行超像素分割,随后进行颜色相似区域合并后再进行二维图像显著性计算;在深度显著性计算中,首先对视差图进行预处理;然后基于区域对比度进行显著性计算;最后,结合立体视觉舒适度因子对二维显著图和深度显著图进行融合,得到立体图像显著图.在不同类型立体图像上的实验结果表明,该模型获得了85%的准确率和78%的召回率,优于现有常用的显著性检测模型,并与人眼立体视觉注意力机制保持良好的一致性.  相似文献   

5.
丛润民  张晨  徐迈  刘鸿羽  赵耀 《软件学报》2023,34(4):1711-1731
受人类的视觉注意力机制启发, 显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域. 近年来, 随着深度相机的发展和普及, 深度图像已经被成功应用于各类计算机视觉任务, 这也为显著性目标检测技术提供了新思路. 通过引入深度图像, 不仅能使计算机更加全面地模拟人类视觉系统, 而且深度图像所提供的结构、位置等补充信息也可以为低对比度、复杂背景等困难场景的检测提供新的解决方案. 鉴于深度学习时代下RGB-D显著目标检测任务发展迅速, 旨在从该任务关键问题的解决方案出发, 对现有相关研究成果进行归纳、总结和梳理, 并在常用RGB-D SOD数据集上进行不同方法的定量分析和定性比较. 最后, 对该领域面临的挑战及未来的发展趋势进行总结与展望.  相似文献   

6.
随着深度学习的不断发展,基于深度学习的显著性目标检测已经成为计算机视觉领域的一个研究热点。首先对现有的基于深度学习的显著性目标检测算法分别从边界/语义增强、全局/局部结合和辅助网络三个角度进行了分类介绍并给出了显著性图,同时对三种类型方法进行了定性分析比较;然后简单介绍了基于深度学习的显著性目标检测常用的数据集和评估准则;接着对所提基于深度学习的显著性目标检测方法在多个数据集上进行了性能比较,包括定量比较、P-R曲线和视觉比较;最后指出现有基于深度学习的显著性目标检测方法在复杂背景、小目标、实时性检测等方面的不足,并对基于深度学习的显著性目标检测的未来发展方向,如复杂背景、实时、小目标、弱监督等显著性目标检测进行了探讨。  相似文献   

7.
深度学习在目标视觉检测中的应用进展与展望   总被引:2,自引:0,他引:2  
张慧  王坤峰  王飞跃 《自动化学报》2017,43(8):1289-1305
目标视觉检测是计算机视觉领域的一个重要问题,在视频监控、自主驾驶、人机交互等方面具有重要的研究意义和应用价值.近年来,深度学习在图像分类研究中取得了突破性进展,也带动着目标视觉检测取得突飞猛进的发展.本文综述了深度学习在目标视觉检测中的应用进展与展望.首先对目标视觉检测的基本流程进行总结,并介绍了目标视觉检测研究常用的公共数据集;然后重点介绍了目前发展迅猛的深度学习方法在目标视觉检测中的最新应用进展;最后讨论了深度学习方法应用于目标视觉检测时存在的困难和挑战,并对今后的发展趋势进行展望.  相似文献   

8.
车辆目标检测是基于计算机视觉的目标检测领域的一个重要应用领域,近年来随着深度学习在图像分类方面取得的巨大进展,机器视觉技术结合深度学习方法的车辆目标检测算法逐渐成为该领域的研究重点和热点。介绍了基于机器视觉的车辆目标检测的任务、难点与发展现状,以及深度学习方法中几种具有代表性的卷积神经网络模型,通过这些网络模型衍生出的two stage、one stage车辆目标检测算法和用于模型训练的相关数据集与检测效果评价标准,对其存在的问题及未来可能的发展方向进行了讨论。  相似文献   

9.
《计算机工程》2018,(1):238-246
计算机视觉领域中的视觉显著性研究大多局限于二维图像层面,而忽略人的视觉注意力决策是在三维动态场景下发生的。为此,在融合多种特征的显著性计算框架基础上,提出一种三维视觉显著性算法。通过场景的颜色信息、运动信息和深度信息分别计算各个特征通道下的显著性结果,再经过动态的融合得到最终的显著性结果。同时针对三维场景下显著性数据集的稀缺问题,给出一个用于评价三维动态场景下显著性算法的数据集。与HC算法、RC算法、GMR算法的对比结果验证了该算法具有明显的优势,并且更符合人眼的视觉注意力机制。  相似文献   

10.
徐新  穆楠  张晓龙 《软件学报》2018,29(9):2616-2631
基于人类视觉注意机制的显著性对象检测模型作为能主动感知图像中重要信息的有效方法,对探索视觉早期认知过程的大范围知觉信息组织具有重要意义.然而由于夜间图像具有低信噪比和低对比度特性,现有的视觉显著性对象检测模型在夜间场景中容易受到噪声干扰、弱纹理模糊等多方面因素的影响.有鉴于此,本文提出了一种基于区域协方差和全局搜索的夜间图像显著性对象检测方法.首先将输入图像分割为超像素块,并分别计算它们的协方差.然后使用超像素块协方差的差异性作为适应度函数,并结合全局搜索算法来优化各个超像素块的显著值.最后通过图扩散方法来精炼显著图结果.实验测试采用了5个公开图像数据集和1个夜间图像数据集,通过与11种目前主流的视觉显著性对象检测模型进行对比,综合评价了本文所提出模型的性能.  相似文献   

11.
图像标题生成与描述的任务是通过计算机将图像自动翻译成自然语言的形式重新表达出来,该研究在人类视觉辅助、智能人机环境开发等领域具有广阔的应用前景,同时也为图像检索、高层视觉语义推理和个性化描述等任务的研究提供支撑。图像数据具有高度非线性和繁杂性,而人类自然语言较为抽象且逻辑严谨,因此让计算机自动地对图像内容进行抽象和总结,具有很大的挑战性。本文对图像简单标题生成与描述任务进行了阐述,分析了基于手工特征的图像简单描述生成方法,并对包括基于全局视觉特征、视觉特征选择与优化以及面向优化策略等基于深度特征的图像简单描述生成方法进行了梳理与总结。针对图像的精细化描述任务,分析了当前主要的图像“密集描述”与结构化描述模型与方法。此外,本文还分析了融合情感信息与个性化表达的图像描述方法。在分析与总结的过程中,指出了当前各类图像标题生成与描述方法存在的不足,提出了下一步可能的研究趋势与解决思路。对该领域常用的MS COCO2014(Microsoft common objects in context)、Flickr30K等数据集进行了详细介绍,对图像简单描述、图像密集描述与段落描述和图像情感描述等代表性模型在数据集上的性能进行了对比分析。由于视觉数据的复杂性与自然语言的抽象性,尤其是融合情感与个性化表达的图像描述任务,在相关特征提取与表征、语义词汇的选择与嵌入、数据集构建及描述评价等方面尚存在大量问题亟待解决。  相似文献   

12.
图像质量评价一直是图像处理和计算机视觉领域的一个基础问题,图像质量评价模型也广泛应用于图像/视频编码、超分辨率重建和图像/视频视觉质量增强等相关领域。图像质量评价主要包括全参考图像质量评价、半参考图像质量评价和无参考图像质量评价。全参考图像质量评价和半参考图像质量评价分别指预测图像质量时参考信息完全可用和部分可用,而无参考图像质量评价是指预测图像质量时参考信息不可用。虽然全参考和半参考图像质量评价模型较为可靠,但在计算过程中必须依赖参考信息,使得应用场景极为受限。无参考图像质量评价模型因不需要依赖参考信息而有较强的适用性,一直都是图像质量评价领域研究的热点。本文主要概述2012—2020年国内外公开发表的无参考图像质量评价模型,根据模型训练过程中是否需要用到主观分数,将无参考图像质量评价模型分为有监督学习和无监督学习的无参考图像质量评价模型。同时,每类模型分成基于传统机器学习算法的模型和基于深度学习算法的模型。对基于传统机器学习算法的模型,重点介绍相应的特征提取策略及思想;对基于深度学习算法的模型,重点介绍设计思路。此外,本文介绍了图像质量评价在新媒体数据中的研究工作及图像质量评价的应用。最后对介绍的无参考图像质量评价模型进行总结,并指出未来可能的发展方向。  相似文献   

13.
在自动驾驶、机器人、数字城市以及虚拟/混合现实等应用的驱动下,三维视觉得到了广泛的关注。三维视觉研究主要围绕深度图像获取、视觉定位与制图、三维建模及三维理解等任务而展开。本文围绕上述三维视觉任务,对国内外研究进展进行了综合评述和对比分析。首先,针对深度图像获取任务,从非端到端立体匹配、端到端立体匹配及无监督立体匹配3个方面对立体匹配研究进展进行了回顾,从深度回归网络和深度补全网络两个方面对单目深度估计研究进展进行了回顾。其次,针对视觉定位与制图任务,从端到端视觉定位和非端到端视觉定位两个方面对大场景下的视觉定位研究进展进行了回顾,并从视觉同步定位与地图构建和融合其他传感器的同步定位与地图构建两个方面对同步定位与地图构建的研究进展进行了回顾。再次,针对三维建模任务,从深度三维表征学习、深度三维生成模型、结构化表征学习与生成模型以及基于深度学习的三维重建等4个方面对三维几何建模研究进展进行了回顾,并从多视RGB重建、单深度相机和多深度相机方法以及单视图RGB方法等3个方面对人体动态建模研究进展进行了回顾。最后,针对三维理解任务,从点云语义分割和点云实例分割两个方面对点云语义理解研究进展进行了回顾。在此基础上,给出了三维视觉研究的未来发展趋势,旨在为相关研究者提供参考。  相似文献   

14.
With the rapid development of automated visual analysis, visual analysis systems have become a popular research topic in the field of computer vision and automated analysis. Visual analysis systems can assist humans to detect anomalous events (e.g., fighting, walking alone on the grass, etc). In general, the existing methods for visual anomaly detection are usually based on an autoencoder architecture, i.e., reconstructing the current frame or predicting the future frame. Then, the reconstruction error is adopted as the evaluation metric to identify whether an input is abnormal or not. The flaws of the existing methods are that abnormal samples can also be reconstructed well. In this paper, inspired by the human memory ability, we propose a novel deep neural network (DNN) based model termed cognitive memory-augmented network (CMAN) for the visual anomaly detection problem. The proposed CMAN model assumes that the visual analysis system imitates humans to remember normal samples and then distinguishes abnormal events from the collected videos. Specifically, in the proposed CMAN model, we introduce a memory module that is able to simulate the memory capacity of humans and a density estimation network that can learn the data distribution. The reconstruction errors and the novelty scores are used to distinguish abnormal events from videos. In addition, we develop a two-step scheme to train the proposed model so that the proposed memory module and the density estimation network can cooperate to improve performance. Comprehensive experiments evaluated on various popular benchmarks show the superiority and effectiveness of the proposed CMAN model for visual anomaly detection comparing with the state-of-the-arts methods. The implementation code of our CMAN method can be accessed at https://github.com/CMAN-code/CMAN_pytorch.   相似文献   

15.
回顾跨媒体智能的发展历程,分析跨媒体智能的新趋势与现实瓶颈,展望跨媒体智能的未来前景。跨媒体智能旨在融合多来源、多模态数据,并试图利用不同媒体数据间的关系进行高层次语义理解与逻辑推理。现有跨媒体算法主要遵循了单媒体表达到多媒体融合的范式,其中特征学习与逻辑推理两个过程相对割裂,无法综合多源多层次的语义信息以获得统一特征,阻碍了推理和学习过程的相互促进和修正。这类范式缺乏显式知识积累与多级结构理解的过程,同时限制了模型可信度与鲁棒性。在这样的背景下,本文转向一种新的智能表达方式——视觉知识。以视觉知识驱动的跨媒体智能具有多层次建模和知识推理的特点,并易于进行视觉操作与重建。本文介绍了视觉知识的3个基本要素,即视觉概念、视觉关系和视觉推理,并对每个要素展开详细讨论与分析。视觉知识有助于实现数据与知识驱动的统一框架,学习可归因可溯源的结构化表达,推动跨媒体知识关联与智能推理。视觉知识具有强大的知识抽象表达能力和多重知识互补能力,为跨媒体智能进化提供了新的有力支点。  相似文献   

16.
Hyperspectral image analysis has been gaining research attention thanks to the current advances in sensor design which have made acquiring such imagery much more affordable. Although there exist various approaches for segmenting hyperspectral images, deep learning has become the mainstream. However, such large-capacity learners are characterized by significant memory footprints. This is a serious obstacle in employing deep neural networks on board a satellite for Earth observation. In this paper, we introduce resource-frugal quantized convolutional neural networks, and greatly reduce their size without adversely affecting the classification capability. Our experiments performed over two hyperspectral benchmarks showed that the quantization process can be seamlessly applied during the training, and it leads to much smaller and still well-generalizing deep models.  相似文献   

17.
近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能.  相似文献   

18.
随着我国电网系统的不断发展,基层巡检作业负担越来越重,运维成本越来越高,如何实现输电线路部件缺陷的智能化检测变得愈发重要。同时,由于国家《新一代人工智能发展规划》的提出和国家电网"数字新基建"的部署,人工智能应用于电力设备运维的相关技术得到了快速发展,对输电线路部件视觉缺陷准确检测成为亟待解决的关键问题之一。早期基于图像处理和特征工程的部件视觉缺陷检测方法对图像质量的要求较高,无法真正应用于现实复杂的输电线路作业环境;随着深度学习的兴起,基于深度学习的检测模型可以有效地将部件目标及其缺陷从复杂的输电线路航拍图像中提取出来,既节省了人工设计特征的时间,又在性能上达到了显著提升,因此逐渐成为主流研究方法。本文首先描述了基于传统算法的输电线路关键部件视觉缺陷检测技术,回顾了深度学习的发展过程并分析了深度学习在缺陷检测领域的优缺点;围绕输电线路上3个重要的部件:绝缘子、金具以及螺栓,介绍了其定位与缺陷检测的研究现状;分析了输电线路部件缺陷检测中研究的样本不平衡问题、小目标检测问题、细粒度检测问题等几个关键问题;分析了符合电网巡检任务复杂场景需求和故障诊断标准的输电线路部件缺陷检测技术的未来发展趋势。  相似文献   

19.
随着生成式深度学习算法的发展,深度伪造技术发展并应用于各个领域。深度伪造技术的滥用使人们逐渐意识到其带来的威胁,伪造检测技术随之而生。本文基于视觉深度伪造技术研究进行综述。1)简要介绍了视觉深度伪造技术的发展历程及技术原理,包括生成对抗网络在深度伪造制品中的应用;2)对现有的视觉深度伪造数据集进行汇总并归类;3)对目前的视觉深度伪造检测技术进行了分类,将现有的检测方法归纳为基于具体伪影的、基于数据驱动的、基于信息不一致和其他类型视觉深度伪造检测等4种分类。其中,基于伪影的检测方法着重于寻找伪造制品与真实图像之间的像素级差异,通过机器学习识别深度伪造制品中的人工伪影痕迹,基于信息不一致的方法则着重于寻找伪造制品与真实图像或视频之间的信息级差异,这两种方法都具有识别效率高、训练便捷等优点;基于数据驱动的方法通过大量的数据集和机器学习训练,直接使用神经网络本身对深度伪造制品进行训练,并通过改善网络架构增进模型以提高训练效率,因为其模型的多变和高精确率成为目前深度伪造检测的热门方向。同时,本文分析了4种方法的具体优缺点,并进一步给出了未来视觉深度伪造检测研究的重点和难点。  相似文献   

20.
The deep learning technology has shown impressive performance in various vision tasks such as image classification, object detection and semantic segmentation. In particular, recent advances of deep learning techniques bring encouraging performance to fine-grained image classification which aims to distinguish subordinate-level categories, such as bird species or dog breeds. This task is extremely challenging due to high intra-class and low inter-class variance. In this paper, we review four types of deep learning based fine-grained image classification approaches, including the general convolutional neural networks (CNNs), part detection based, ensemble of networks based and visual attention based fine-grained image classification approaches. Besides, the deep learning based semantic segmentation approaches are also covered in this paper. The region proposal based and fully convolutional networks based approaches for semantic segmentation are introduced respectively.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号