首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
基于计算机视觉的Transformer研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
Transformer是一种基于自注意力机制、并行化处理数据的深度神经网络.近几年基于Transformer的模型成为计算机视觉任务的重要研究方向.针对目前国内基于Transformer综述性文章的空白,对其在计算机视觉上的应用进行概述.回顾了Transformer的基本原理,重点介绍了其在图像分类、目标检测、图像分割...  相似文献   

2.
近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新.本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述.首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主...  相似文献   

3.
Transformer是一种基于注意力的编码器-解码器架构,其凭借长距离建模能力与并行计算能力在自然语言处理领域取得了重大突破,并逐步拓展应用至计算机视觉领域,成为了计算机视觉任务的重要研究方向。文中重点回顾与总结了Transformer在图像分类、目标检测与图像分割三大计算机视觉任务中的应用和改进。首先,以图像分类任务为切入点,从数据规模、结构特点、计算效率等方面深入分析了当前视觉Transformer存在的关键问题,并基于关键问题对解决方法和思路进行了分类。其次,全面梳理了视觉Transformer在目标检测与图像分割两大领域的研究进展,并根据结构特点、设计动机来组织这些方法,分析对比代表性方法的优点与不足。最后,对Transformer在计算机视觉任务中亟待解决的问题以及发展趋势进行了总结和探讨。  相似文献   

4.
遥感图像分类和语义分割是一项非常有应用价值的计算机视觉任务。由于现实生活对遥感信息有更高的需求,使计算机视觉领域中高分辨率遥感图像研究日益活跃。其广泛应用于国土资源监测、道路提取和土地划分等领域。自然灾害后建筑物损害程度检测也作为其应用领域之一,目的是对灾后建筑物损坏程度进行相关检测和评估。近年来,随着深度学习的发展,遥感图像领域取得巨大进展,深度学习在遥感图像分类和语义分割领域中的应用获得了巨大的成功,使其解析遥感图像信息和提取底物特征的速度更快,也在很大程度上提高了处理遥感图像相关任务的准确性。因此,深度学习中的计算机视觉技术对自然灾害后建筑物损害程度检测具有很大帮助。该文介绍了基于深度学习的自然灾害后建筑物损坏程度检测的相关任务、难点和发展现状。接着对xBD数据集进行介绍,并说明了不同算法模型的相关评价标准。然后对深度学习方法中几种应用于建筑物损坏程度检测的卷积神经网络模型进行总结和对比。最后对其存在的问题及未来可能的发展方向进行了讨论。  相似文献   

5.
Transformer是基于自注意力机制的编码器-解码器架构模型,擅长建立远距离依赖关系,已经成为自然语言处理领域的主流模型.受Transformer在自然语言处理领域中取得巨大成功的启发,近两年一些开创性的工作开始研究如何将Transformer应用于计算机视觉领域,并取得了显著的成果,目前视觉Transformer依然是研究的热点.本文对近年来Transformer在多个视觉任务上的应用与发展进行梳理、分析与总结.首先阐述了视觉Transformer基本结构与实现原理,分析了模型结构的特点与优势,梳理了视觉Transformer的研究进展.其次,介绍了Transformer在高层视觉任务、底层视觉任务和多模态任务上的典型应用模型,并详细对比了在图像分类、检测和分割领域典型视觉Transformer模型的性能指标.最后总结了当前视觉Transformer各类模型存在的问题与难点,并指出未来的发展方向.  相似文献   

6.
Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣。本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础上总结了每类任务模型的优点、不足以及面临的挑战。根据识别粒度的不同,分别着眼于诸如图像分类、视频分类的基于全局识别的方法,以及目标检测、视觉分割的基于局部识别的方法。考虑到现有方法在3种具体识别任务的广泛流行,总结了在人脸识别、动作识别和姿态估计中的方法。同时,也总结了可用于多种视觉任务或领域无关的通用方法的研究现状。基于Transformer的模型实现了许多端到端的方法,并不断追求准确率与计算成本的平衡。全局识别任务下的Transformer模型对补丁序列切分和标记特征表示进行了探索,局部识别任务下的Transformer模型因能够更好地捕获全局信息而取得了较好的表现。在人脸识别和动作识别方面,注意力机制减少了特征表示的误差,可以处理丰富多样的特征。Transformer可以解决姿态估计中特征错位的问题,有利于改善基于回归的方法性能,还减少了三维估计时深度映射所产生的歧义。大量探索表明视觉Transformer在识别任务中的有效性,并且在特征表示或网络结构等方面的改进有利于提升性能。  相似文献   

7.
图像拼接是计算机视觉和计算机图形学中的一个重要分支,在三维成像等方面具有广泛的应用。相较于传统基于特征点检测的图像拼接框架,基于深度学习的图像拼接框架具有更强的场景泛化表现。目前虽然关于基于深度学习的图像拼接研究成果众多,但仍缺少相应研究的全面分析和总结。为了便于该领域后续工作的开展,梳理了该领域近10年的代表性成果。在对传统拼接方法与基于深度学习的图像拼接方法对比的基础上,从图像拼接研究领域中的单应性估计、图像拼接和图像矩形化三个子问题出发,进行了学习策略及模型架构设计、经典模型回顾、数据集等方面的整理与分析。总结了基于深度学习的图像拼接研究方法的一些特点和当前该领域的研究现状,并对未来研究前景进行了展望。  相似文献   

8.
图像分类是根据图像的信息将不同类别的图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。该系统基于Caffe深度学习框架,首先对数据集进行训练分析构建深度学习网络,提取数据集图像特征信息,得到数据对应的分类模型,然后以bvlc-imagenet训练集模型为基础,对目标图像进行扩展应用,实现"以图搜图"Web应用。  相似文献   

9.
Transformer是一种基于自注意力机制的深度神经网络。近几年,基于Transformer的模型已成为计算机视觉领域的热门研究方向,其结构也在不断改进和扩展,比如局部注意力机制、金字塔结构等。通过对基于Transformer结构改进的视觉模型,分别从性能优化和结构改进两个方面进行综述和总结;也对比分析了Transformer和CNN各自结构的优缺点,并介绍了一种新型的CNN+Transformer的混合结构;最后,对Transformer在计算机视觉上的发展进行总结和展望。  相似文献   

10.
深度学习的快速发展使计算机视觉技术应用越来越广泛,同时利用深度神经网络根据破损图像的已知信息对图像复原的修复技术成为关注的热点。对近年基于深度神经网络的图像修复方法进行了综述和分析:按照模型优化的方向,对图像修复方法进行分类综述;介绍了图像修复常用的数据集和性能评价指标,并在相关数据集上对各种基于深度神经网络的破损图像修复算法进行性能评价和分析;总结和分析了现有图像修复方法面临的挑战和未来研究方向。  相似文献   

11.
Hyperspectral images contain rich spatial and spectral information, which provides a strong basis for distinguishing different land-cover objects. Therefore, hyperspectral image (HSI) classification has been a hot research topic. With the advent of deep learning, convolutional neural networks (CNNs) have become a popular method for hyperspectral image classification. However, convolutional neural network (CNN) has strong local feature extraction ability but cannot deal with long-distance dependence well. Vision Transformer (ViT) is a recent development that can address this limitation, but it is not effective in extracting local features and has low computational efficiency. To overcome these drawbacks, we propose a hybrid classification network that combines the strengths of both CNN and ViT, names Spatial-Spectral Former(SSF). The shallow layer employs 3D convolution to extract local features and reduce data dimensions. The deep layer employs a spectral-spatial transformer module for global feature extraction and information enhancement in spectral and spatial dimensions. Our proposed model achieves promising results on widely used public HSI datasets compared to other deep learning methods, including CNN, ViT, and hybrid models.  相似文献   

12.
基于深度神经网络的遥感图像分类算法综述   总被引:1,自引:0,他引:1  
崔璐  张鹏  车进 《计算机科学》2018,45(Z6):50-53
准确、高效的遥感图像分类是遥感图像解析的重要研究内容之一。近年来,随着机器学习技术的发展,深度神经网络日渐成为一种有效的遥感图像分类处理方法。分析了遥感图像分类目前存在的一些问题,并简要阐述了几种典型的深度神经网络的原理结构;然后根据遥感图像分类的研究现状和深度神经网络对遥感图像分类的研究现状,总结了深度神经网络在遥感图像分类技术应用中的发展趋势。  相似文献   

13.
航空遥感图像目标检测旨在定位和识别遥感图像中感兴趣的目标,是航空遥感图像智能解译的关键技术,在情报侦察、灾害救援和资源勘探等领域具有重要应用价值。然而由于航空遥感图像具有尺寸大、目标小且密集、目标呈任意角度分布、目标易被遮挡、目标类别不均衡以及背景复杂等诸多特点,航空遥感图像目标检测目前仍然是极具挑战的任务。基于深度卷积神经网络的航空遥感图像目标检测方法因具有精度高、处理速度快等优点,受到了越来越多的关注。为推进基于深度学习的航空遥感图像目标检测技术的发展,本文对当前主流遥感图像目标检测方法,特别是2020—2022年提出的检测方法,进行了系统梳理和总结。首先梳理了基于深度学习目标检测方法的研究发展演化过程,然后对基于卷积神经网络和基于Transformer目标检测方法中的代表性算法进行分析总结,再后针对不同遥感图象应用场景的改进方法思路进行归纳,分析了典型算法的思路和特点,介绍了现有的公开航空遥感图像目标检测数据集,给出了典型算法的实验比较结果,最后给出现阶段航空遥感图像目标检测研究中所存在的问题,并对未来研究及发展趋势进行了展望。  相似文献   

14.
为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络MultiFormer。MultiFormer通过AWS(attention with scale)模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P(global-local attention with patch)模块交替捕获局部和全局注意力,在嵌入时同时保留了细粒度和粗粒度特征。设计了MultiFormer-tiny、-small和-base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升了3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-base在参数和计算量远小于ViT-Base/16模型且无须大量数据预训练前提下提升2.1%。  相似文献   

15.
目的 基于深度神经网络的遥感图像处理方法在训练过程中往往需要大量准确标注的数据,一旦标注数据中存在标签噪声,将导致深度神经网络性能显著降低。为了解决噪声造成的性能下降问题,提出了一种噪声鲁棒的轻量级深度遥感场景图像分类检索方法,能够同时完成分类和哈希检索任务,有效提高深度神经网络在有标签噪声遥感数据上的分类和哈希检索性能。方法 选取轻量级神经网络作为骨干网,而后设计能够同时完成分类和哈希检索任务的双分支结构,最后通过设置损失基准的正则化方法,有效减轻模型对噪声的过拟合,得到噪声鲁棒的分类检索模型。结果 本文在两个公开遥感场景数据集上进行分类测试,并与8种方法进行比较。本文方法在AID(aerial image datasets)数据集上,所有噪声比例下的分类精度比次优方法平均高出7.8%,在NWPU-RESISC45(benchmark created by Northwestern Polytechnical University for remote sensing image scene classification covering 45 scene classes)数据集上,分类精度比次优方法平均高出8.1%。在效率方面,本文方法的推理速度比CLEOT(classification loss with entropic optimal transport)方法提升了2.8倍,而计算量和参数量均不超过CLEOT方法的5%。在遥感图像哈希检索任务中,在AID数据集上,本文方法的平均精度均值(mean average precision,mAP)在3种不同哈希比特下比MiLaN(metric-learning based deep hashing network)方法平均提高了5.9%。结论 本文方法可以同时完成遥感图像分类和哈希检索任务,在保持模型轻量高效的情况下,有效提升了深度神经网络在有标签噪声遥感数据上的鲁棒性。  相似文献   

16.
王光宇  张海涛 《计算机应用研究》2021,38(12):3808-3813,3830
当前普遍使用的轻量型神经网络仍然存在计算量与参数量过大的问题,导致算力较低的廉价移动设备无法快速完成图像分类任务.针对此问题提出了一种更适合于应用在算力较低的廉价移动设备上的轻量型神经网络,引入了代价较小的线性操作与特征图合并操作用于减少神经网络的计算量与参数量,还引入了改进的残差结构、注意力机制和标签平滑技术用于提高结果判断的准确率.基于PD-38数据集的实验表明,该神经网络相比传统的轻量型神经网络使用较小的计算量与参数量可以达到较高的分类准确率.在公共数据集CIFAR-10上的实验进一步表明该神经网络具有通用性.  相似文献   

17.
在深度学习领域,解决实际应用问题往往需要结合多种模态信息进行推理和决策,其中视觉和语言信息是交互过程中重要的两种模态。在诸多应用场景中,处理多模态任务往往面临着模型架构组织方式庞杂、训练方法效率低下等问题。综合以上问题,梳理了在图像文本多模态领域的近五年的代表性成果。首先从主流的多模态任务出发,介绍了相关文本和图像多模态数据集以及预训练目标。其次,考虑以Transformer为基础结构的视觉语言模型,结合特征提取方法,从多模态组织架构、跨模态融合方法等角度进行分析,总结比较不同处理策略的共性和差异性。然后从数据输入、结构组件等多角度介绍模型的轻量化方法。最后,对基于图像文本的多模态方法未来的研究方向进行了展望。  相似文献   

18.
Deep neural networks have achieved great success in many tasks of pattern recognition. However, large model size and high cost in computation limit their applications in resource-limited systems. In this paper, our focus is to design a lightweight and efficient convolutional neural network architecture by directly training the compact network for image recognition. To achieve a good balance among classification accuracy, model size, and computation complexity, we propose a lightweight convolutional neural network architecture named IIRNet for resource-limited systems. The new architecture is built based on Intensely Inverted Residual block (IIR block) to decrease the redundancy of the convolutional blocks. By utilizing two new operations, intensely inverted residual and multi-scale low-redundancy convolutions, IIR block greatly reduces its model size and computational costs while matches the classification accuracy of the state-of-the-art networks. Experiments on CIFAR-10, CIFAR-100, and ImageNet datasets demonstrate the superior performance of IIRNet on the trade-offs among classification accuracy, computation complexity, and model size, compared to the mainstream compact network architectures.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号