首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 78 毫秒
1.
邵仁荣  刘宇昂  张伟  王骏 《计算机学报》2022,45(8):1638-1673
在人工智能迅速发展的今天,深度神经网络广泛应用于各个研究领域并取得了巨大的成功,但也同样面临着诸多挑战.首先,为了解决复杂的问题和提高模型的训练效果,模型的网络结构逐渐被设计得深而复杂,难以适应移动计算发展对低资源、低功耗的需求.知识蒸馏最初作为一种从大型教师模型向浅层学生模型迁移知识、提升性能的学习范式被用于模型压缩.然而随着知识蒸馏的发展,其教师 学生的架构作为一种特殊的迁移学习方式,演化出了丰富多样的变体和架构,并被逐渐扩展到各种深度学习任务和场景中,包括计算机视觉、自然语言处理、推荐系统等等.另外,通过神经网络模型之间迁移知识的学习方式,可以联结跨模态或跨域的学习任务,避免知识遗忘;还能实现模型和数据的分离,达到保护隐私数据的目的.知识蒸馏在人工智能各个领域发挥着越来越重要的作用,是解决很多实际问题的一种通用手段.本文将近些年来知识蒸馏的主要研究成果进行梳理并加以总结,分析该领域所面临的挑战,详细阐述知识蒸馏的学习框架,从多种分类角度对知识蒸馏的相关工作进行对比和分析,介绍了主要的应用场景,在最后对未来的发展趋势提出了见解.  相似文献   

2.
随着深度学习方法的不断发展,其存储代价和计算代价也不断增长,在资源受限的平台上,这种情况给其应用带来了挑战。为了应对这种挑战,研究者提出了一系列神经网络压缩方法,其中知识蒸馏是一种简单而有效的方法,成为研究热点之一。知识蒸馏的特点在于它采用了“教师—学生”架构,使用一个大型网络指导小型网络进行训练,以提升小型网络在应用场景下的性能,从而间接达到网络压缩的目的。同时,知识蒸馏具有不改变网络结构的特性,从而具有较好的可扩展性。本文首先介绍知识蒸馏的由来以及发展,随后根据方法优化的目标将知识蒸馏的改进方法分为两大类,即面向网络性能的知识蒸馏和面向网络压缩的知识蒸馏,并对经典方法和最新方法进行系统的分析和总结,最后列举知识蒸馏方法的几种典型应用场景,以便加深对各类知识蒸馏方法原理及其应用的理解。知识蒸馏方法发展至今虽然已经取得较好的效果,但是各类知识蒸馏方法仍然有不足之处,本文也对不同知识蒸馏方法的缺陷进行了总结,并根据网络性能和网络压缩两个方面的分析,给出对知识蒸馏研究的总结和展望。  相似文献   

3.
知识蒸馏算法对深度神经网络的精简具有很大的推动作用。当前基于特征的知识蒸馏算法或只关注单个部分进行改进,忽视了其他有益部分,或是对小模型应重点关注的部分提供有效指导,这使得蒸馏的效果有所欠缺。为了充分利用大模型的有益信息并处理,以提升小模型知识转换率,提出一种新型蒸馏算法。该算法首先使用条件概率分布对大模型中间层进行特征空间分布拟合,提取拟合后趋于相似的空间注意力图,将其与其他有益信息一起,通过用于缩小模型间差距的小型卷积层,将转换后的信息传递给小模型,实现蒸馏。实验结果表明,该算法具有多师生组合适用性与多数据集通用性,相比于当前较为先进的蒸馏算法,性能提升约1.19%,用时缩短0.16 h。对大型网络的优化与深度学习部署在低资源设备上的应用具有重要的工程意义与广泛的应用前景。  相似文献   

4.
在传统知识蒸馏框架中,教师网络将自身的知识全盘传递给学生网络,而传递部分知识或者特定知识的研究几乎没有。考虑到工业现场具有场景单一、分类数目少的特点,需要重点评估神经网络模型在特定类别领域的识别性能。基于注意力特征迁移蒸馏算法,提出了三种特定知识学习算法来提升学生网络在特定类别分类中的分类性能。首先,对训练数据集作特定类筛选以排除其他非特定类别的训练数据;在此基础上,将其他非特定类别视为背景并在蒸馏过程中抑制背景知识,从而进一步减少其他无关类知识对特定类知识的影响;最后,更改网络结构,即仅在网络高层抑制背景类知识,而保留网络底层基础图形特征的学习。实验结果表明,通过特定知识学习算法训练的学生网络在特定类别分类中能够媲美甚至超越参数规模六倍于它的教师网络的分类性能。  相似文献   

5.
目前存储和计算成本严重阻碍深度神经网络应用和推广,而神经网络量化是一种有效的压缩方法.神经网络低比特量化存在的显著困难是量化比特数越低,网络分类精度也越低.为了解决这一问题,文中提出基于指数移动平均知识蒸馏的神经网络低比特量化方法.首先利用少量图像进行自适应初始化,训练激活和权重的量化步长,加快量化网络收敛.再引入指数移动平均(EMA)知识蒸馏的思想,利用EMA对蒸馏损失和任务损失进行归一化,指导量化网络训练.在ImageNet、CIFAR-10数据集上的分类任务表明,文中方法可获得接近或超过全精度网络的性能.  相似文献   

6.
7.
唐媛  陈莹 《控制与决策》2024,39(12):4099-4108
自知识蒸馏降低了对预训练教师网络的依赖,但是其注意力机制只关注图像的主体部分,一方面忽略了携带有颜色、纹理信息的背景知识,另一方面空间注意力的错误聚焦情况可能导致主体信息遗漏.鉴于此,提出一种基于动态混合注意力的自知识蒸馏方法,合理挖掘图像的前背景知识,提高分类精度.首先,设计一个掩膜分割模块,利用自教师网络建立注意力掩膜并分割出背景特征与主体特征,进而提取背景知识和遗漏的主体信息;然后,提出基于动态注意力分配策略的知识提取模块,通过引入基于预测概率分布的参数动态调整背景注意力和主体注意力的损失占比,引导前背景知识相互协作,逐步优化分类器网络对图像的关注,提高分类器网络性能.实验结果表明:所提出方法使用ResNet18网络和WRN-16-2网络在CIFAR100数据集上的准确率分别提升了2.15%和1.54%;对于细粒度视觉识别任务,使用ResNet18网络在CUB200数据集和MIT67数据集上的准确率分别提高了3.51%和1.05%,其性能优于现有方法.  相似文献   

8.
神经机器翻译(NMT)模型通常具有庞大的参数量,例如,Transformer在词表设为3万时有将近1亿的神经元,模型的参数量越大,模型越难优化,且存储模型的资源需求也越高.该文提出了一种压缩方法,用于将复杂且参数量大的N MT模型压缩为精简参数量小的N MT模型.该文同时提出半知识蒸馏方法和递进式半知识蒸馏方法,其中半...  相似文献   

9.
近几年来,深度神经网络在多个领域展现了非常强大的应用能力,但是研究者们发现,通过在输入上添加难以察觉的扰动,可以改变神经网络的输出决策,这类样本被称为对抗样本.目前防御对抗样本,最常见的方法是对抗训练,但是对抗训练有着非常高的训练代价.我们提出了一种知识蒸馏的鲁棒性迁移方案(Robust-KD),结合特征图与雅克比矩阵...  相似文献   

10.
陈嘉言  任东东  李文斌  霍静  高阳 《软件学报》2024,35(5):2414-2429
小样本学习旨在模拟人类基于少数样例快速学习新事物的能力, 对解决样本匮乏情境下的深度学习任务具有重要意义. 但是, 在诸多计算资源有限的现实任务中, 模型规模仍可能限制小样本学习的广泛应用. 这对面向小样本学习的轻量化任务提出了现实的需求. 知识蒸馏作为深度学习领域广泛使用的辅助策略, 通过额外的监督信息实现模型间知识迁移, 在提升模型精度和压缩模型规模方面都有实际应用. 首先验证知识蒸馏策略在小样本学习模型轻量化中的有效性. 并结合小样本学习任务的特点, 针对性地设计两种新的小样本蒸馏方法: (1)基于图像局部特征的蒸馏方法; (2)基于辅助分类器的蒸馏方法. 在miniImageNet和TieredImageNet数据集上的相关实验证明所设计的新的蒸馏方法相较于传统知识蒸馏在小样本学习任务上具有显著优越性.  相似文献   

11.
针对关系型知识蒸馏方法中教师网络与学生网络的层数差距过大导致蒸馏效果下降的问题,提出一种基于关系型蒸馏的分步神经网络压缩方法.该方法的要点在于,在教师网络和学生网络之间增加一个中间网络分步进行关系型蒸馏,同时在每一次蒸馏过程中都增加额外的单体信息来进一步优化和增强学生模型的学习能力,实现神经网络压缩.实验结果表明,本文的方法在CIFAR-10和CIFAR-100图像分类数据集上的分类准确度相较于原始的关系型知识蒸馏方法均有0.2%左右的提升.  相似文献   

12.
目前深度神经网络模型需要部署在资源受限的环境中,故需要设计高效紧凑的网络结构。针对设计紧凑的神经网络提出一种基于改进注意力迁移的模型压缩方法(KE),主要使用一个宽残差教师网络(WRN)指导一个紧凑的学生网络(KENet),将空间和通道的注意力迁移到学生网络来提升性能,并将该方法应用于实时目标检测。在CIFAR上的图像分类实验验证了经过改进注意力迁移的知识蒸馏方法能够提升紧凑模型的性能,在VOC上的目标检测实验验证了模型KEDet具有很好的精度(72.7 mAP)和速度(86 fps)。实验结果充分说明基于改进注意力迁移的目标检测模型具有很好的准确性和实时性。  相似文献   

13.
针对基于深度学习的人脸识别模型难以在嵌入式设备进行部署和实时性能差的问题,深入研究了现有的模型压缩和加速算法,提出了一种基于知识蒸馏和对抗学习的神经网络压缩算法。算法框架由三部分组成,预训练的大规模教师网络、轻量级的学生网络和辅助对抗学习的判别器。改进传统的知识蒸馏损失,增加指示函数,使学生网络只学习教师网络正确识别的分类概率;鉴于中间层特征图具有丰富的高维特征,引入对抗学习策略中的判别器,鉴别学生网络与教师网络在特征图层面的差异;为了进一步提高学生网络的泛化能力,使其能够应用于不同的机器视觉任务,在训练的后半部分教师网络和学生网络相互学习,交替更新,使学生网络能够探索自己的最优解空间。分别在CASIA WEBFACE和CelebA两个数据集上进行验证,实验结果表明知识蒸馏得到的小尺寸学生网络相较全监督训练的教师网络,识别准确率仅下降了1.5%左右。同时将本研究所提方法与面向特征图知识蒸馏算法和基于对抗学习训练的模型压缩算法进行对比,所提方法具有较高的人脸识别准确率。  相似文献   

14.
罗易昌  王娟  石磊  陈丁 《智能安全》2023,2(2):15-25
目标检测技术已经被广泛应用于行人检测、人脸识别等诸多领域。随着社会生活与工业发展中新需求的出现,目标检测的对象与要求也随之出现新的变化。若直接用旧模型训练新类别可能会导致灾难性遗忘缺陷。因此,增量目标检测逐渐成为一个热门的研究方向。总结了常用的数据集和模型评价指标,研究了增量目标检测技术,将增量目标检测分为基于知识蒸馏的目标检测模型、基于回放的增量目标检测模型、开放世界目标检测模型,指出目前增量目标检测存在新增可识别类别的数据有限、新的可识别类别增加会导致模型准确率降低、小目标检测困难、检测速度慢等问题。通过比较最新增量目标检测模型,提出未来增量目标检测应从优化知识蒸馏方式、加强旧目标类别范例样本选择、更好地结合Transformer网络等几个方面进行改进。  相似文献   

15.
知识蒸馏被广泛应用于语义分割以减少计算量.以往的语义分割知识提取方法侧重于像素级的特征对齐和类内特征变化提取,忽略了对语义分割非常重要的类间距离知识的传递.为了解决这个问题,本文提出了一种类间距离提取方法,将特征空间中的类间距离从教师网络转移到学生网络.此外,语义分割是一个位置相关的任务,因此本文开发了一个位置信息提取模块来帮助学生网络编码更多的位置信息.在Cityscapes、Pascal VOC和ADE20K这3个流行的语义分割数据集上的大量实验表明,该方法有助于提高语义分割模型的精度,取得了较好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号