共查询到18条相似文献,搜索用时 108 毫秒
1.
目的 图像超分辨率重建的目的是将低分辨率图像复原出具有更丰富细节信息的高分辨率图像。近年来,基于Transformer的深度神经网络在图像超分辨率重建领域取得了令人瞩目的性能,然而,这些网络往往参数量巨大、计算成本较高。针对该问题,设计了一种轻量级图像超分辨率重建网络。方法 提出了一种轻量级图像超分辨率的蓝图可分离卷积Transformer网络(blueprint separable convolution Transformer network,BSTN)。基于蓝图可分离卷积(blueprint separable convolution,BSConv)设计了蓝图前馈神经网络和蓝图多头自注意力模块。然后设计了移动通道注意力模块(shift channel attention block,SCAB)对通道重点信息进行加强,包括移动卷积、对比度感知通道注意力和蓝图前馈神经网络。最后设计了蓝图多头自注意力模块(blueprint multi-head self-attention block,BMSAB),通过蓝图多头自注意力与蓝图前馈神经网络以较低的计算量实现了自注意力过程。结果 本文方法在4个数据集上与10种先进的轻量级超分辨率方法进行比较。客观上,本文方法在不同数据集上取得了不同程度的领先,并且参数量和浮点运算量都处于较低水平。当放大倍数分别为2、3和4时,在Set5数据集上相比SOTA(state-of-theart)方法,峰值信噪比(peak signal to noise ratio,PSNR)分别提升了0.11dB、0.16dB和0.17dB。主观上,本文方法重建图像清晰,模糊区域小,具有丰富的细节。结论 本文所提出的蓝图可分离卷积Transformer网络BSTN以较少的参数量和浮点运算量达到了先进水平,能获得高质量的超分辨率重建结果。 相似文献
2.
为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络MultiFormer。MultiFormer通过AWS(attention with scale)模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P(global-local attention with patch)模块交替捕获局部和全局注意力,在嵌入时同时保留了细粒度和粗粒度特征。设计了MultiFormer-tiny、-small和-base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升了3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-base在参数和计算量远小于ViT-Base/16模型且无须大量数据预训练前提下提升2.1%。 相似文献
3.
为解决图像分类算法由于计算量大和参数冗余难以应用在存储空间与计算能力受限的移动设备上的问题,提出一种轻量的卷积计算模块Extremely Lightweight Block(ELBlock),采用逐点卷积叠加深度可分离卷积的方法,对逐点卷积进行分组,增加相邻层过滤器之间的对角相关性,进一步降低卷积操作的计算复杂度;利用通道混洗关联输入和输出通道,提高特征的信息表达能力;基于ELBlock设计一个极其轻量的小型神经网络架构ELNet,结构更加简洁、高效。在Android手机上的实验结果表明,所提ELNet在保证分类精度的同时,具有计算量小、参数少和推理时间短的优点。 相似文献
4.
Transformer是一种基于注意力的编码器-解码器架构,其凭借长距离建模能力与并行计算能力在自然语言处理领域取得了重大突破,并逐步拓展应用至计算机视觉领域,成为了计算机视觉任务的重要研究方向。文中重点回顾与总结了Transformer在图像分类、目标检测与图像分割三大计算机视觉任务中的应用和改进。首先,以图像分类任务为切入点,从数据规模、结构特点、计算效率等方面深入分析了当前视觉Transformer存在的关键问题,并基于关键问题对解决方法和思路进行了分类。其次,全面梳理了视觉Transformer在目标检测与图像分割两大领域的研究进展,并根据结构特点、设计动机来组织这些方法,分析对比代表性方法的优点与不足。最后,对Transformer在计算机视觉任务中亟待解决的问题以及发展趋势进行了总结和探讨。 相似文献
5.
随着大规模时尚数据集的公开,基于深度学习的服装图像分类得到快速发展.然而,目前服装图像分类多数是在同一件服装具有单张的、正面或接近正面的图像的场景下进行分类,这导致了当视角发生变化时常出现服装图像误分类的情况,现实中服装具有的形变大、遮挡严重等特性进一步加剧了该问题.基于上述问题,提出了一种基于流形结构神经网络的服装图像集分类方法,利用流形空间更好地表示服装的内部结构特征.该方法选用多视角度服装图像集作为实验数据集,首先通过卷积神经网络提取服装图像集的浅层特征,再通过协方差池化将欧氏数据转换为流形数据,最后通过基于流形结构的神经网络学习服装图像集的内部结构特征,获取准确的分类结果.实验结果表明,所提方法在MVC数据集上的Precision、Recall和F-1指标可达到89.64%,89.12%和88.69%,与现有的图像集(视频)分类算法相比,其分别获得了2.04%,2.65%和2.70%的提升,该方法比已有算法更加准确、高效、鲁棒. 相似文献
6.
基于可见光单图像的三维重构方法一直是计算机视觉领域的研究热点,该文从光照物体的材质和结构差异,以及成像过程中信息损失等因素着手,对基于光照模型、基于几何图元以及基于深度学习策略的三维重建方法进行了分类和概述,并分析讨论各类方法的优缺点以及未来的研究方向。 相似文献
7.
零样本学习旨在解决样本缺失情况下的分类问题.以往嵌入式零样本学习算法通常只利用可见类构建嵌入空间,在测试时不可避免会出现过拟合可见类的问题.基于此本文提出了一种基于类别语义相似度的多标签分类损失,该损失可在构建嵌入空间的过程中引导模型同时考虑与当前可见类语义上相似的未见类,进而将语义空间的相似性迁移到最终执行分类的嵌入空间.同时现有零样本学习算法大部分直接使用图像深度特征作为输入,特征提取过程没有考虑语义信息,基于此本文采用Swin Transformer作为骨干网络,输入原始图片利用自注意力机制得到基于语义信息的视觉特征.本文在3个零样本学习基准数据集上进行了大量实验,与目前最先进的算法相比取得了最佳的调和平均精度. 相似文献
8.
基于深度卷积特征的细粒度图像分类研究综述 总被引:1,自引:0,他引:1
细粒度图像分类问题是计算机视觉领域一项极具挑战的研究课题,其目标是对子类进行识别,如区分不同种类的鸟.由于子类别间细微的类间差异和较大的类内差异,传统的分类算法不得不依赖于大量的人工标注信息.近年来,随着深度学习的发展,深度卷积神经网络为细粒度图像分类带来了新的机遇.大量基于深度卷积特征算法的提出,促进了该领域的快速发展.本文首先从该问题的定义以及研究意义出发,介绍了细粒度图像分类算法的发展现状.之后,从强监督与弱监督两个角度对比分析了不同算法之间的差异,并比较了这些算法在常用数据集上的性能表现.最后,我们对这些算法进行了总结,并讨论了该领域未来可能的研究方向及其面临的挑战. 相似文献
9.
为解决深层卷积神经网络(Deep convolutional neural network, DCNN)模型在算力弱、存储成本高的AI边缘计算设备上难以高效应用的现实问题,本文利用重量级网络辅助训练轻量级网络,设计了一种基于轻量级神经网络的花卉图像分类系统。首先利用重量级DCNN并结合迁移学习、爬虫技术与最大连通区域分割方法,构建了适用于轻量级网络训练的扩充花卉数据集。然后基于Tiny-darknet与Darknet-reference两种网络及扩充后的花卉数据集训练得到两种面向弱算力设备的轻量级DCNN模型。训练得到的两种花卉分类网络在Oxford102花卉数据集上的平均分类准确率可达98.07%与98.83%,模型大小分别为4 MB与28 MB,在AI边缘计算设备中具有较好的应用前景。 相似文献
10.
基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特征序列的自注意力过于关注自身的问题.实验结果表明,本文的EPEMMSA-ViT模型对比标准ViT模型可以更高效的从零学习;当添加预训练权重训练网络时,EPEMMSA-ViT模型在数据增强的PlantVillage番茄子集上能够得到99.63%的分类准确率;在添加椒盐噪声的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了6.08%、9.78%、29.78%和12.41%;在添加均值模糊的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了18.92%、31.11%、20.37%和19.58%. 相似文献
11.
近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新.本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述.首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主... 相似文献
12.
由于水体中存在的悬浮颗粒以及高频随机运动的湍流引起光的散射和吸收而导致水下图像存在纹理模糊、分辨率低、扭曲失真等系列问题,而目前存在的大部分深度学习图像超分辨率重建算法存在着计算复杂、模型的复杂度大、内存占用高等不足。针对这些不足,提出基于蓝图可分离卷积的轻量级水下图像超分辨率重建网络,该模型分为浅层特征提取、深度特征提取、多层特征融合以及图像重建四个阶段,深度特征提取阶段中,在BSRN的基础上去除特征蒸馏分支、采用增加通道数进行补偿,同时利用三个蓝图卷积来进行残差局部特征学习以简化特征聚合,实现网络的轻量化。实验结果表明,所提出的方法在运行时间、参数量、模型复杂度方面均优于目前已提出的超分算法,放大因子为2和4时,峰值信噪比(PSNR)和结构相似度(SSIM)均值分别达到了31.5560dB、0.8620和27.7088dB、0.7213,重建质量获得进一步提升。 相似文献
13.
Transformer是一种基于自注意力机制的深度神经网络。近几年,基于Transformer的模型已成为计算机视觉领域的热门研究方向,其结构也在不断改进和扩展,比如局部注意力机制、金字塔结构等。通过对基于Transformer结构改进的视觉模型,分别从性能优化和结构改进两个方面进行综述和总结;也对比分析了Transformer和CNN各自结构的优缺点,并介绍了一种新型的CNN+Transformer的混合结构;最后,对Transformer在计算机视觉上的发展进行总结和展望。 相似文献
14.
15.
Mohamed Yacin Sikkandar K. Hemalatha M. Subashree S. Srinivasan Seifedine Kadry Jungeun Kim Keejun Han 《计算机系统科学与工程》2023,47(1):873-889
Recently, COVID-19 has posed a challenging threat to researchers, scientists, healthcare professionals, and administrations over the globe, from its diagnosis to its treatment. The researchers are making persistent efforts to derive probable solutions for managing the pandemic in their areas. One of the widespread and effective ways to detect COVID-19 is to utilize radiological images comprising X-rays and computed tomography (CT) scans. At the same time, the recent advances in machine learning (ML) and deep learning (DL) models show promising results in medical imaging. Particularly, the convolutional neural network (CNN) model can be applied to identifying abnormalities on chest radiographs. While the epidemic of COVID-19, much research is led on processing the data compared with DL techniques, particularly CNN. This study develops an improved fruit fly optimization with a deep learning-enabled fusion (IFFO-DLEF) model for COVID-19 detection and classification. The major intention of the IFFO-DLEF model is to investigate the presence or absence of COVID-19. To do so, the presented IFFO-DLEF model applies image pre-processing at the initial stage. In addition, the ensemble of three DL models such as DenseNet169, EfficientNet, and ResNet50, are used for feature extraction. Moreover, the IFFO algorithm with a multilayer perceptron (MLP) classification model is utilized to identify and classify COVID-19. The parameter optimization of the MLP approach utilizing the IFFO technique helps in accomplishing enhanced classification performance. The experimental result analysis of the IFFO-DLEF model carried out on the CXR image database portrayed the better performance of the presented IFFO-DLEF model over recent approaches. 相似文献
16.
Transformer是一种基于自注意力机制、并行化处理数据的深度神经网络.近几年基于Transformer的模型成为计算机视觉任务的重要研究方向.针对目前国内基于Transformer综述性文章的空白,对其在计算机视觉上的应用进行概述.回顾了Transformer的基本原理,重点介绍了其在图像分类、目标检测、图像分割... 相似文献
17.
基于深度残差网络图像分类算法研究综述 总被引:2,自引:0,他引:2
近年来,由于计算机技术的飞速迅猛发展,特别是硬件条件的改善,计算能力不断提高,深层神经网络训练的时间大大缩短,深度残差网络也迅速成为一个新的研究热点.深度残差网络作为一种极深的网络架构,在精度和收敛等方面都展现出了很好的特性.研究者们深入研究其本质并在此基础上提出了很多关于深度残差网络的改进,如宽残差网络,金字塔型残差网络,密集型残差网络,注意力残差网络等等.本文从残差网络的设计出发,分析了不同残差单元的构造方式,介绍了深度残差网络不同的变体.从不同的角度比较了不同网络之间的差异以及这些网络架构在常用图像分类数据集上的性能表现.最后我们对于这些网络进行了总结,并讨论了未来深度残差网络在图像分类领域的一些研究方向. 相似文献
18.
传统神经网络具有过度依赖硬件资源和对应用设备性能要求较高的缺点,因此无法部署于算力有限的边缘设备和移动终端上,人工智能技术的应用发展在一定程度上受到了限制.然而,随着科技时代的到来,受用户需求影响的人工智能迫切需要在便携式设备上能成功进行如计算机视觉应用等方面的操作.为此,以近几年流行的轻量化神经网络中的卷积部分为研究... 相似文献