首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
目的 图像超分辨率重建的目的是将低分辨率图像复原出具有更丰富细节信息的高分辨率图像。近年来,基于Transformer的深度神经网络在图像超分辨率重建领域取得了令人瞩目的性能,然而,这些网络往往参数量巨大、计算成本较高。针对该问题,设计了一种轻量级图像超分辨率重建网络。方法 提出了一种轻量级图像超分辨率的蓝图可分离卷积Transformer网络(blueprint separable convolution Transformer network,BSTN)。基于蓝图可分离卷积(blueprint separable convolution,BSConv)设计了蓝图前馈神经网络和蓝图多头自注意力模块。然后设计了移动通道注意力模块(shift channel attention block,SCAB)对通道重点信息进行加强,包括移动卷积、对比度感知通道注意力和蓝图前馈神经网络。最后设计了蓝图多头自注意力模块(blueprint multi-head self-attention block,BMSAB),通过蓝图多头自注意力与蓝图前馈神经网络以较低的计算量实现了自注意力过程。结果 本文方法在4个数据集上与10种先进的轻量级超分辨率方法进行比较。客观上,本文方法在不同数据集上取得了不同程度的领先,并且参数量和浮点运算量都处于较低水平。当放大倍数分别为2、3和4时,在Set5数据集上相比SOTA(state-of-theart)方法,峰值信噪比(peak signal to noise ratio,PSNR)分别提升了0.11dB、0.16dB和0.17dB。主观上,本文方法重建图像清晰,模糊区域小,具有丰富的细节。结论 本文所提出的蓝图可分离卷积Transformer网络BSTN以较少的参数量和浮点运算量达到了先进水平,能获得高质量的超分辨率重建结果。  相似文献   

2.
为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络MultiFormer。MultiFormer通过AWS(attention with scale)模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P(global-local attention with patch)模块交替捕获局部和全局注意力,在嵌入时同时保留了细粒度和粗粒度特征。设计了MultiFormer-tiny、-small和-base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升了3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-base在参数和计算量远小于ViT-Base/16模型且无须大量数据预训练前提下提升2.1%。  相似文献   

3.
为了解决当前深度哈希算法提取跨尺度特征能力不足以及难以拟合数据的全局相似度分布问题,提出了一种基于跨尺度Vision Transformer的深度哈希算法.首先,利用金字塔卷积和跨尺度注意力机制构建了一种多层次编码器,来捕获图像丰富的语义信息;其次,提出了一种基于代理的深度哈希算法,该算法为每个类别生成哈希代理,使得哈希码可以学习具有鉴别性的类别特征,从而缩小与同类别哈希代理的距离并拟合数据全局相似性分布;最后,在哈希代理与哈希码之间添加角度边距项,扩大类内相似性和类间差异性,以生成具有高判别性的哈希码.通过在CIFAR-10、ImageNet-100、NUS-Wide、MS COCO上进行的实验结果表明,该算法的平均检索精度比次优方法分别提升4.42%、19.61%、0.35%、15.03%,验证了该算法的有效性.  相似文献   

4.
为解决图像分类算法由于计算量大和参数冗余难以应用在存储空间与计算能力受限的移动设备上的问题,提出一种轻量的卷积计算模块Extremely Lightweight Block(ELBlock),采用逐点卷积叠加深度可分离卷积的方法,对逐点卷积进行分组,增加相邻层过滤器之间的对角相关性,进一步降低卷积操作的计算复杂度;利用通道混洗关联输入和输出通道,提高特征的信息表达能力;基于ELBlock设计一个极其轻量的小型神经网络架构ELNet,结构更加简洁、高效.在Android手机上的实验结果表明,所提ELNet在保证分类精度的同时,具有计算量小、参数少和推理时间短的优点.  相似文献   

5.
Transformer是一种基于注意力的编码器-解码器架构,其凭借长距离建模能力与并行计算能力在自然语言处理领域取得了重大突破,并逐步拓展应用至计算机视觉领域,成为了计算机视觉任务的重要研究方向.文中重点回顾与总结了Transformer在图像分类、目标检测与图像分割三大计算机视觉任务中的应用和改进.首先,以图像分类任务为切入点,从数据规模、结构特点、计算效率等方面深入分析了当前视觉Transformer存在的关键问题,并基于关键问题对解决方法和思路进行了分类.其次,全面梳理了视觉Transformer在目标检测与图像分割两大领域的研究进展,并根据结构特点、设计动机来组织这些方法,分析对比代表性方法的优点与不足.最后,对Transformer在计算机视觉任务中亟待解决的问题以及发展趋势进行了总结和探讨.  相似文献   

6.
基于可见光单图像的三维重构方法一直是计算机视觉领域的研究热点,该文从光照物体的材质和结构差异,以及成像过程中信息损失等因素着手,对基于光照模型、基于几何图元以及基于深度学习策略的三维重建方法进行了分类和概述,并分析讨论各类方法的优缺点以及未来的研究方向。  相似文献   

7.
程铭  马佩  何儒汉 《计算机科学》2021,48(z2):391-395
随着大规模时尚数据集的公开,基于深度学习的服装图像分类得到快速发展.然而,目前服装图像分类多数是在同一件服装具有单张的、正面或接近正面的图像的场景下进行分类,这导致了当视角发生变化时常出现服装图像误分类的情况,现实中服装具有的形变大、遮挡严重等特性进一步加剧了该问题.基于上述问题,提出了一种基于流形结构神经网络的服装图像集分类方法,利用流形空间更好地表示服装的内部结构特征.该方法选用多视角度服装图像集作为实验数据集,首先通过卷积神经网络提取服装图像集的浅层特征,再通过协方差池化将欧氏数据转换为流形数据,最后通过基于流形结构的神经网络学习服装图像集的内部结构特征,获取准确的分类结果.实验结果表明,所提方法在MVC数据集上的Precision、Recall和F-1指标可达到89.64%,89.12%和88.69%,与现有的图像集(视频)分类算法相比,其分别获得了2.04%,2.65%和2.70%的提升,该方法比已有算法更加准确、高效、鲁棒.  相似文献   

8.
为解决深层卷积神经网络(Deep convolutional neural network, DCNN)模型在算力弱、存储成本高的AI边缘计算设备上难以高效应用的现实问题,本文利用重量级网络辅助训练轻量级网络,设计了一种基于轻量级神经网络的花卉图像分类系统。首先利用重量级DCNN并结合迁移学习、爬虫技术与最大连通区域分割方法,构建了适用于轻量级网络训练的扩充花卉数据集。然后基于Tiny-darknet与Darknet-reference两种网络及扩充后的花卉数据集训练得到两种面向弱算力设备的轻量级DCNN模型。训练得到的两种花卉分类网络在Oxford102花卉数据集上的平均分类准确率可达98.07%与98.83%,模型大小分别为4 MB与28 MB,在AI边缘计算设备中具有较好的应用前景。  相似文献   

9.
基于深度卷积特征的细粒度图像分类研究综述   总被引:1,自引:0,他引:1       下载免费PDF全文
罗建豪  吴建鑫 《自动化学报》2017,43(8):1306-1318
细粒度图像分类问题是计算机视觉领域一项极具挑战的研究课题,其目标是对子类进行识别,如区分不同种类的鸟.由于子类别间细微的类间差异和较大的类内差异,传统的分类算法不得不依赖于大量的人工标注信息.近年来,随着深度学习的发展,深度卷积神经网络为细粒度图像分类带来了新的机遇.大量基于深度卷积特征算法的提出,促进了该领域的快速发展.本文首先从该问题的定义以及研究意义出发,介绍了细粒度图像分类算法的发展现状.之后,从强监督与弱监督两个角度对比分析了不同算法之间的差异,并比较了这些算法在常用数据集上的性能表现.最后,我们对这些算法进行了总结,并讨论了该领域未来可能的研究方向及其面临的挑战.  相似文献   

10.
零样本学习旨在解决样本缺失情况下的分类问题.以往嵌入式零样本学习算法通常只利用可见类构建嵌入空间,在测试时不可避免会出现过拟合可见类的问题.基于此本文提出了一种基于类别语义相似度的多标签分类损失,该损失可在构建嵌入空间的过程中引导模型同时考虑与当前可见类语义上相似的未见类,进而将语义空间的相似性迁移到最终执行分类的嵌入空间.同时现有零样本学习算法大部分直接使用图像深度特征作为输入,特征提取过程没有考虑语义信息,基于此本文采用Swin Transformer作为骨干网络,输入原始图片利用自注意力机制得到基于语义信息的视觉特征.本文在3个零样本学习基准数据集上进行了大量实验,与目前最先进的算法相比取得了最佳的调和平均精度.  相似文献   

11.
    
Recently, COVID-19 has posed a challenging threat to researchers, scientists, healthcare professionals, and administrations over the globe, from its diagnosis to its treatment. The researchers are making persistent efforts to derive probable solutions for managing the pandemic in their areas. One of the widespread and effective ways to detect COVID-19 is to utilize radiological images comprising X-rays and computed tomography (CT) scans. At the same time, the recent advances in machine learning (ML) and deep learning (DL) models show promising results in medical imaging. Particularly, the convolutional neural network (CNN) model can be applied to identifying abnormalities on chest radiographs. While the epidemic of COVID-19, much research is led on processing the data compared with DL techniques, particularly CNN. This study develops an improved fruit fly optimization with a deep learning-enabled fusion (IFFO-DLEF) model for COVID-19 detection and classification. The major intention of the IFFO-DLEF model is to investigate the presence or absence of COVID-19. To do so, the presented IFFO-DLEF model applies image pre-processing at the initial stage. In addition, the ensemble of three DL models such as DenseNet169, EfficientNet, and ResNet50, are used for feature extraction. Moreover, the IFFO algorithm with a multilayer perceptron (MLP) classification model is utilized to identify and classify COVID-19. The parameter optimization of the MLP approach utilizing the IFFO technique helps in accomplishing enhanced classification performance. The experimental result analysis of the IFFO-DLEF model carried out on the CXR image database portrayed the better performance of the presented IFFO-DLEF model over recent approaches.  相似文献   

12.
图像修复是通过算法或技术对受损或缺失的图像进行恢复和修复的过程,是计算机视觉领域的研究热点之一。梳理了近些年基于深度学习的图像修复方法的发展脉络,将其分为单模态图像修复方法和多模态图像修复方法。单模态图像修复方法分为基于卷积自编码的图像修复方法、基于GAN的图像修复方法、基于Transformer的图像修复方法和基于扩散模型的图像修复方法,而多模态图像修复方法分为基于文本引导的图像修复方法、基于音频引导的图像修复方法、基于视频引导的图像修复方法和基于多模态融合的图像修复方法。对比分析了各类方法的原理和优缺点,介绍了常用数据集和评价指标,评估了代表性方法在常用数据集上的性能表现,并对该领域目前存在的挑战和未来的发展方向进行了分析和展望。  相似文献   

13.
随着深度学习方法的不断发展,其存储代价和计算代价也不断增长,在资源受限的平台上,这种情况给其应用带来了挑战。为了应对这种挑战,研究者提出了一系列神经网络压缩方法,其中知识蒸馏是一种简单而有效的方法,成为研究热点之一。知识蒸馏的特点在于它采用了“教师—学生”架构,使用一个大型网络指导小型网络进行训练,以提升小型网络在应用场景下的性能,从而间接达到网络压缩的目的。同时,知识蒸馏具有不改变网络结构的特性,从而具有较好的可扩展性。本文首先介绍知识蒸馏的由来以及发展,随后根据方法优化的目标将知识蒸馏的改进方法分为两大类,即面向网络性能的知识蒸馏和面向网络压缩的知识蒸馏,并对经典方法和最新方法进行系统的分析和总结,最后列举知识蒸馏方法的几种典型应用场景,以便加深对各类知识蒸馏方法原理及其应用的理解。知识蒸馏方法发展至今虽然已经取得较好的效果,但是各类知识蒸馏方法仍然有不足之处,本文也对不同知识蒸馏方法的缺陷进行了总结,并根据网络性能和网络压缩两个方面的分析,给出对知识蒸馏研究的总结和展望。  相似文献   

14.
医学影像分割是计算机视觉在医学影像处理中的一个重要应用领域,其目标是从医学影像中分割出目标区域,为后续的疾病诊断和治疗提供有效的帮助.近年来深度学习技术在图像处理方面取得了巨大进展,基于深度学习的医学影像分割算法逐渐成为该领域研究的重点和热点.叙述了计算机视觉下的医学影像分割任务及其难点,重点综述了基于深度学习的医学影...  相似文献   

15.
    
Dentistry frequently makes use of intraoral scanning technologies to digitally acquire the three-dimensional (3D) geometry of teeth. In recent times, dental clinics over the globe utilize used computer aided diagnosis (CAD) models to make treatment plans, for example, orthodontics. Orthodontic CAD system acts as a vital part of the advanced dentistry field. A 3D dental model, computed by patient impression, as input and aids dentist in the extraction, moving, deletion, and rearranging of teeth to simulate treatment output. Tooth segmentation and labelling is the basic and foremost element of the CAD model which needs to be addressed. Automated segmentation and classification of 3D dental images using advanced machine learning and deep learning (DL) models become essential. This article introduces a new 3D dental image segmentation and classification using DL with tunicate swarm algorithm (3DDISC-DLTSA) model. The major intention of the 3DDISC-DLTSA system is to segment the tooth model and identify seven distinct tooth types. To accomplish this, the presented 3DDISC-DLTSA model performs image pre-processing in two stages namely image filtering and U-Net segmentation. In addition, the 3DDISC-DLTSA model derives DenseNet-169 model for feature extraction purposes. For the recognition and classification of tooth type, the TSA based hyperparameter tuning process is carried out which helps to accomplish maximum classification performance. A wide range of experimental analyses is performed and the outcomes are inspected under many aspects. On dataset-1, 3DDISC-DLTSA model accuracy rose by 96.67%. On dataset-3, 3DDISC-DLTSA model accuracy rose by 97.48% and algorithm accuracy by 97.35%. The 3DDISC-DLTSA model outperformed more modern models, according to the comparative investigation.  相似文献   

16.
基于深度残差网络图像分类算法研究综述   总被引:2,自引:0,他引:2       下载免费PDF全文
近年来,由于计算机技术的飞速迅猛发展,特别是硬件条件的改善,计算能力不断提高,深层神经网络训练的时间大大缩短,深度残差网络也迅速成为一个新的研究热点.深度残差网络作为一种极深的网络架构,在精度和收敛等方面都展现出了很好的特性.研究者们深入研究其本质并在此基础上提出了很多关于深度残差网络的改进,如宽残差网络,金字塔型残差网络,密集型残差网络,注意力残差网络等等.本文从残差网络的设计出发,分析了不同残差单元的构造方式,介绍了深度残差网络不同的变体.从不同的角度比较了不同网络之间的差异以及这些网络架构在常用图像分类数据集上的性能表现.最后我们对于这些网络进行了总结,并讨论了未来深度残差网络在图像分类领域的一些研究方向.  相似文献   

17.
知识蒸馏算法对深度神经网络的精简具有很大的推动作用。当前基于特征的知识蒸馏算法或只关注单个部分进行改进,忽视了其他有益部分,或是对小模型应重点关注的部分提供有效指导,这使得蒸馏的效果有所欠缺。为了充分利用大模型的有益信息并处理,以提升小模型知识转换率,提出一种新型蒸馏算法。该算法首先使用条件概率分布对大模型中间层进行特征空间分布拟合,提取拟合后趋于相似的空间注意力图,将其与其他有益信息一起,通过用于缩小模型间差距的小型卷积层,将转换后的信息传递给小模型,实现蒸馏。实验结果表明,该算法具有多师生组合适用性与多数据集通用性,相比于当前较为先进的蒸馏算法,性能提升约1.19%,用时缩短0.16 h。对大型网络的优化与深度学习部署在低资源设备上的应用具有重要的工程意义与广泛的应用前景。  相似文献   

18.
机器视觉应用中的图像数据增广综述   总被引:1,自引:0,他引:1  
深度学习是目前机器视觉的前沿解决方案,而海量高质量的训练数据集是深度学习解决机器视觉问题的基本保障.收集和准确标注图像数据集是一个极其费时且代价昂贵的过程.随着机器视觉的广泛应用,这个问题将会越来越突出.图像增广技术是一种有效解决深度学习在少量或者低质量训练数据中进行训练的一种技术手段,该技术不断地伴随着深度学习与机器...  相似文献   

19.
深度学习的图像实例分割方法综述   总被引:1,自引:0,他引:1  
实例分割是一项具有挑战性的任务,需要同时进行实例级和像素级的预测,在自动驾驶、视频分析、场景理解等方面应用广泛.近年来,基于深度学习的实例分割方法迅速发展,如两阶段检测器Faster R-CNN扩展出的聚焦于网络的精度而非速度的强大实例分割基准Mask R-CNN,一度成为实例分割的标杆.利用高速检测的单阶段检测器延伸出的实例分割算法YOLACT填补了实时实例分割模型的空白,具有较高的研究和应用价值.本文首先对实例分割算法进行了类别划分,然后对一些代表性的算法及其改进算法进行了深入分析,并阐述了相关算法的优缺点,最后对实例分割方法未来的发展进行了展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号