首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 46 毫秒
1.
邵仁荣  刘宇昂  张伟  王骏 《计算机学报》2022,45(8):1638-1673
在人工智能迅速发展的今天,深度神经网络广泛应用于各个研究领域并取得了巨大的成功,但也同样面临着诸多挑战.首先,为了解决复杂的问题和提高模型的训练效果,模型的网络结构逐渐被设计得深而复杂,难以适应移动计算发展对低资源、低功耗的需求.知识蒸馏最初作为一种从大型教师模型向浅层学生模型迁移知识、提升性能的学习范式被用于模型压缩.然而随着知识蒸馏的发展,其教师 学生的架构作为一种特殊的迁移学习方式,演化出了丰富多样的变体和架构,并被逐渐扩展到各种深度学习任务和场景中,包括计算机视觉、自然语言处理、推荐系统等等.另外,通过神经网络模型之间迁移知识的学习方式,可以联结跨模态或跨域的学习任务,避免知识遗忘;还能实现模型和数据的分离,达到保护隐私数据的目的.知识蒸馏在人工智能各个领域发挥着越来越重要的作用,是解决很多实际问题的一种通用手段.本文将近些年来知识蒸馏的主要研究成果进行梳理并加以总结,分析该领域所面临的挑战,详细阐述知识蒸馏的学习框架,从多种分类角度对知识蒸馏的相关工作进行对比和分析,介绍了主要的应用场景,在最后对未来的发展趋势提出了见解.  相似文献   

2.
随着深度学习方法的不断发展,其存储代价和计算代价也不断增长,在资源受限的平台上,这种情况给其应用带来了挑战。为了应对这种挑战,研究者提出了一系列神经网络压缩方法,其中知识蒸馏是一种简单而有效的方法,成为研究热点之一。知识蒸馏的特点在于它采用了“教师—学生”架构,使用一个大型网络指导小型网络进行训练,以提升小型网络在应用场景下的性能,从而间接达到网络压缩的目的。同时,知识蒸馏具有不改变网络结构的特性,从而具有较好的可扩展性。本文首先介绍知识蒸馏的由来以及发展,随后根据方法优化的目标将知识蒸馏的改进方法分为两大类,即面向网络性能的知识蒸馏和面向网络压缩的知识蒸馏,并对经典方法和最新方法进行系统的分析和总结,最后列举知识蒸馏方法的几种典型应用场景,以便加深对各类知识蒸馏方法原理及其应用的理解。知识蒸馏方法发展至今虽然已经取得较好的效果,但是各类知识蒸馏方法仍然有不足之处,本文也对不同知识蒸馏方法的缺陷进行了总结,并根据网络性能和网络压缩两个方面的分析,给出对知识蒸馏研究的总结和展望。  相似文献   

3.
知识蒸馏算法对深度神经网络的精简具有很大的推动作用。当前基于特征的知识蒸馏算法或只关注单个部分进行改进,忽视了其他有益部分,或是对小模型应重点关注的部分提供有效指导,这使得蒸馏的效果有所欠缺。为了充分利用大模型的有益信息并处理,以提升小模型知识转换率,提出一种新型蒸馏算法。该算法首先使用条件概率分布对大模型中间层进行特征空间分布拟合,提取拟合后趋于相似的空间注意力图,将其与其他有益信息一起,通过用于缩小模型间差距的小型卷积层,将转换后的信息传递给小模型,实现蒸馏。实验结果表明,该算法具有多师生组合适用性与多数据集通用性,相比于当前较为先进的蒸馏算法,性能提升约1.19%,用时缩短0.16 h。对大型网络的优化与深度学习部署在低资源设备上的应用具有重要的工程意义与广泛的应用前景。  相似文献   

4.
在传统知识蒸馏框架中,教师网络将自身的知识全盘传递给学生网络,而传递部分知识或者特定知识的研究几乎没有。考虑到工业现场具有场景单一、分类数目少的特点,需要重点评估神经网络模型在特定类别领域的识别性能。基于注意力特征迁移蒸馏算法,提出了三种特定知识学习算法来提升学生网络在特定类别分类中的分类性能。首先,对训练数据集作特定类筛选以排除其他非特定类别的训练数据;在此基础上,将其他非特定类别视为背景并在蒸馏过程中抑制背景知识,从而进一步减少其他无关类知识对特定类知识的影响;最后,更改网络结构,即仅在网络高层抑制背景类知识,而保留网络底层基础图形特征的学习。实验结果表明,通过特定知识学习算法训练的学生网络在特定类别分类中能够媲美甚至超越参数规模六倍于它的教师网络的分类性能。  相似文献   

5.
目前存储和计算成本严重阻碍深度神经网络应用和推广,而神经网络量化是一种有效的压缩方法.神经网络低比特量化存在的显著困难是量化比特数越低,网络分类精度也越低.为了解决这一问题,文中提出基于指数移动平均知识蒸馏的神经网络低比特量化方法.首先利用少量图像进行自适应初始化,训练激活和权重的量化步长,加快量化网络收敛.再引入指数移动平均(EMA)知识蒸馏的思想,利用EMA对蒸馏损失和任务损失进行归一化,指导量化网络训练.在ImageNet、CIFAR-10数据集上的分类任务表明,文中方法可获得接近或超过全精度网络的性能.  相似文献   

6.
7.
知识蒸馏在图像分类等任务中是最有效的模型压缩方法之一,然而它在复杂任务如目标检测上的应用较少。现有的知识蒸馏方法主要专注于构建信息图,以过滤教师和学生在特征提取过程中来自前景或背景区域的噪声,最小化特征之间的均方差损失;然而,这些方法的目标函数难以进一步优化,且只利用教师的监督信号,导致学生缺乏对非正确知识的针对性信息。基于此,提出一种面向目标检测的对比知识蒸馏(CKD)方法。该方法重新设计蒸馏框架和损失函数,不仅使用教师的监督信号,而且利用构造的负样本提供指导信息进行知识蒸馏,让学生在获得教师的知识的同时通过自我学习获取更多知识。在Pascal VOC和COCO2014数据集上,使用GFocal(Generalized Focal loss)和YOLOv5模型将所提方法与基线方法对比的实验结果表明:CKD方法在Pascal VOC数据集上使用GFocal模型的平均精度均值(mAP)提升5.6个百分点,平均精度(阈值为0.5)AP50提升5.6个百分点;在COCO2014数据集上使用YOLOv5模型的mAP提升1.1个百分点,AP50提升1.7个百分点。  相似文献   

8.
唐媛  陈莹 《控制与决策》2024,39(12):4099-4108
自知识蒸馏降低了对预训练教师网络的依赖,但是其注意力机制只关注图像的主体部分,一方面忽略了携带有颜色、纹理信息的背景知识,另一方面空间注意力的错误聚焦情况可能导致主体信息遗漏.鉴于此,提出一种基于动态混合注意力的自知识蒸馏方法,合理挖掘图像的前背景知识,提高分类精度.首先,设计一个掩膜分割模块,利用自教师网络建立注意力掩膜并分割出背景特征与主体特征,进而提取背景知识和遗漏的主体信息;然后,提出基于动态注意力分配策略的知识提取模块,通过引入基于预测概率分布的参数动态调整背景注意力和主体注意力的损失占比,引导前背景知识相互协作,逐步优化分类器网络对图像的关注,提高分类器网络性能.实验结果表明:所提出方法使用ResNet 18网络和WRN-16-2网络在CIFAR 100数据集上的准确率分别提升了2.15%和1.54%;对于细粒度视觉识别任务,使用ResNet 18网络在CUB 200数据集和MIT 67数据集上的准确率分别提高了3.51%和1.05%,其性能优于现有方法.  相似文献   

9.
神经机器翻译(NMT)模型通常具有庞大的参数量,例如,Transformer在词表设为3万时有将近1亿的神经元,模型的参数量越大,模型越难优化,且存储模型的资源需求也越高.该文提出了一种压缩方法,用于将复杂且参数量大的N MT模型压缩为精简参数量小的N MT模型.该文同时提出半知识蒸馏方法和递进式半知识蒸馏方法,其中半...  相似文献   

10.
近几年来,深度神经网络在多个领域展现了非常强大的应用能力,但是研究者们发现,通过在输入上添加难以察觉的扰动,可以改变神经网络的输出决策,这类样本被称为对抗样本.目前防御对抗样本,最常见的方法是对抗训练,但是对抗训练有着非常高的训练代价.我们提出了一种知识蒸馏的鲁棒性迁移方案(Robust-KD),结合特征图与雅克比矩阵...  相似文献   

11.
知识蒸馏在图像分类等任务中是最有效的模型压缩方法之一;然而它在复杂任务如目标检测上的应用较少。现有的知识蒸馏方法主要专注于构建信息图;以过滤教师和学生在特征提取过程中来自前景或背景区域的噪声;最小化特征之间的均方差损失;然而;这些方法的目标函数难以进一步优化;且只利用教师的监督信号;导致学生缺乏对非正确知识的针对性信息。基于此;提出一种面向目标检测的对比知识蒸馏(CKD)方法。该方法重新设计蒸馏框架和损失函数;不仅使用教师的监督信号;而且利用构造的负样本提供指导信息进行知识蒸馏;让学生在获得教师的知识的同时通过自我学习获取更多知识。在Pascal VOC和COCO2014数据集上;使用GFocal(Generalized Focal loss)和YOLOv5模型将所提方法与基线方法对比的实验结果表明:CKD方法在Pascal VOC数据集上使用GFocal模型的平均精度均值(mAP)提升5.6个百分点;平均精度(阈值为0.5)AP50提升5.6个百分点;在COCO2014数据集上使用YOLOv5模型的mAP提升1.1个百分点;AP50提升1.7个百分点。  相似文献   

12.
预训练语言模型在情感分类任务中取得了卓越的性能提升。然而,预训练模型的巨额参数量和缓慢的推理速度成为这些模型应用落地的主要障碍。知识蒸馏是一种将知识从大型的预训练教师模型转移到小型学生模型的技术。不同于现有的单教师或单学生蒸馏模型,该文提出一种基于多教师和多学生蒸馏的集成蒸馏方法。该方法既可以充分利用不同教师模型的不同知识,又可以弥补单个学生学习能力不足的缺点。此外,该文使用了大量情感分类任务相关的未标注样本来提高蒸馏性能。实验结果表明,该文提出的方法在情感分类任务上能够在基本保持教师模型的分类性能的基础上,减少97.8%~99.5%参数量,并提升了176~645倍的CPU推理速度。  相似文献   

13.
针对关系型知识蒸馏方法中教师网络与学生网络的层数差距过大导致蒸馏效果下降的问题,提出一种基于关系型蒸馏的分步神经网络压缩方法.该方法的要点在于,在教师网络和学生网络之间增加一个中间网络分步进行关系型蒸馏,同时在每一次蒸馏过程中都增加额外的单体信息来进一步优化和增强学生模型的学习能力,实现神经网络压缩.实验结果表明,本文的方法在CIFAR-10和CIFAR-100图像分类数据集上的分类准确度相较于原始的关系型知识蒸馏方法均有0.2%左右的提升.  相似文献   

14.
针对基于深度学习的人脸识别模型难以在嵌入式设备进行部署和实时性能差的问题,深入研究了现有的模型压缩和加速算法,提出了一种基于知识蒸馏和对抗学习的神经网络压缩算法。算法框架由三部分组成,预训练的大规模教师网络、轻量级的学生网络和辅助对抗学习的判别器。改进传统的知识蒸馏损失,增加指示函数,使学生网络只学习教师网络正确识别的分类概率;鉴于中间层特征图具有丰富的高维特征,引入对抗学习策略中的判别器,鉴别学生网络与教师网络在特征图层面的差异;为了进一步提高学生网络的泛化能力,使其能够应用于不同的机器视觉任务,在训练的后半部分教师网络和学生网络相互学习,交替更新,使学生网络能够探索自己的最优解空间。分别在CASIA WEBFACE和CelebA两个数据集上进行验证,实验结果表明知识蒸馏得到的小尺寸学生网络相较全监督训练的教师网络,识别准确率仅下降了1.5%左右。同时将本研究所提方法与面向特征图知识蒸馏算法和基于对抗学习训练的模型压缩算法进行对比,所提方法具有较高的人脸识别准确率。  相似文献   

15.
目前深度神经网络模型需要部署在资源受限的环境中,故需要设计高效紧凑的网络结构。针对设计紧凑的神经网络提出一种基于改进注意力迁移的模型压缩方法(KE),主要使用一个宽残差教师网络(WRN)指导一个紧凑的学生网络(KENet),将空间和通道的注意力迁移到学生网络来提升性能,并将该方法应用于实时目标检测。在CIFAR上的图像分类实验验证了经过改进注意力迁移的知识蒸馏方法能够提升紧凑模型的性能,在VOC上的目标检测实验验证了模型KEDet具有很好的精度(72.7 mAP)和速度(86 fps)。实验结果充分说明基于改进注意力迁移的目标检测模型具有很好的准确性和实时性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号