共查询到15条相似文献,搜索用时 78 毫秒
1.
2.
在人工智能迅速发展的今天,深度神经网络广泛应用于各个研究领域并取得了巨大的成功,但也同样面临着诸多挑战.首先,为了解决复杂的问题和提高模型的训练效果,模型的网络结构逐渐被设计得深而复杂,难以适应移动计算发展对低资源、低功耗的需求.知识蒸馏最初作为一种从大型教师模型向浅层学生模型迁移知识、提升性能的学习范式被用于模型压缩.然而随着知识蒸馏的发展,其教师 学生的架构作为一种特殊的迁移学习方式,演化出了丰富多样的变体和架构,并被逐渐扩展到各种深度学习任务和场景中,包括计算机视觉、自然语言处理、推荐系统等等.另外,通过神经网络模型之间迁移知识的学习方式,可以联结跨模态或跨域的学习任务,避免知识遗忘;还能实现模型和数据的分离,达到保护隐私数据的目的.知识蒸馏在人工智能各个领域发挥着越来越重要的作用,是解决很多实际问题的一种通用手段.本文将近些年来知识蒸馏的主要研究成果进行梳理并加以总结,分析该领域所面临的挑战,详细阐述知识蒸馏的学习框架,从多种分类角度对知识蒸馏的相关工作进行对比和分析,介绍了主要的应用场景,在最后对未来的发展趋势提出了见解. 相似文献
3.
在传统知识蒸馏框架中,教师网络将自身的知识全盘传递给学生网络,而传递部分知识或者特定知识的研究几乎没有。考虑到工业现场具有场景单一、分类数目少的特点,需要重点评估神经网络模型在特定类别领域的识别性能。基于注意力特征迁移蒸馏算法,提出了三种特定知识学习算法来提升学生网络在特定类别分类中的分类性能。首先,对训练数据集作特定类筛选以排除其他非特定类别的训练数据;在此基础上,将其他非特定类别视为背景并在蒸馏过程中抑制背景知识,从而进一步减少其他无关类知识对特定类知识的影响;最后,更改网络结构,即仅在网络高层抑制背景类知识,而保留网络底层基础图形特征的学习。实验结果表明,通过特定知识学习算法训练的学生网络在特定类别分类中能够媲美甚至超越参数规模六倍于它的教师网络的分类性能。 相似文献
4.
目前存储和计算成本严重阻碍深度神经网络应用和推广,而神经网络量化是一种有效的压缩方法.神经网络低比特量化存在的显著困难是量化比特数越低,网络分类精度也越低.为了解决这一问题,文中提出基于指数移动平均知识蒸馏的神经网络低比特量化方法.首先利用少量图像进行自适应初始化,训练激活和权重的量化步长,加快量化网络收敛.再引入指数移动平均(EMA)知识蒸馏的思想,利用EMA对蒸馏损失和任务损失进行归一化,指导量化网络训练.在ImageNet、CIFAR-10数据集上的分类任务表明,文中方法可获得接近或超过全精度网络的性能. 相似文献
5.
6.
针对关系型知识蒸馏方法中教师网络与学生网络的层数差距过大导致蒸馏效果下降的问题,提出一种基于关系型蒸馏的分步神经网络压缩方法.该方法的要点在于,在教师网络和学生网络之间增加一个中间网络分步进行关系型蒸馏,同时在每一次蒸馏过程中都增加额外的单体信息来进一步优化和增强学生模型的学习能力,实现神经网络压缩.实验结果表明,本文的方法在CIFAR-10和CIFAR-100图像分类数据集上的分类准确度相较于原始的关系型知识蒸馏方法均有0.2%左右的提升. 相似文献
7.
随着人工智能应用的实时性、隐私性和安全性需求增大,在边缘计算平台上部署高性能的神经网络成为研究热点。由于常见的边缘计算平台在存储、算力、功耗上均存在限制,因此深度神经网络的端侧部署仍然是一个巨大的挑战。目前,克服上述挑战的一个思路是对现有的神经网络压缩以适配设备部署条件。现阶段常用的模型压缩算法有剪枝、量化、知识蒸馏,多种方法优势互补同时联合压缩可实现更好的压缩加速效果,正成为研究的热点。本文首先对常用的模型压缩算法进行简要概述,然后总结了“知识蒸馏+剪枝”、“知识蒸馏+量化”和“剪枝+量化”3种常见的联合压缩算法,重点分析论述了联合压缩的基本思想和方法,最后提出了神经网络压缩联合优化方法未来的重点发展方向。 相似文献
8.
在线知识蒸馏通过同时训练两个或多个模型的集合,并使之相互学习彼此的提取特征,从而实现模型性能的共同提高.已有方法侧重于模型间特征的直接对齐,从而忽略了决策边界特征的独特性和鲁棒性.利用一致性正则化来指导模型学习决策边界的判别性特征.具体地说,网络中每个模型由特征提取器和一对任务特定的分类器组成,通过正则化同一模型不同分类器间以及不同模型对应分类器间的分布距离来度量模型内和模型间的一致性,这两类一致性共同用于更新特征提取器和决策边界的特征.此外,模型内一致性将作为自适应权重,与每个模型的平均输出加权生成集成预测值,进而指导所有分类器与之相互学习.在多个公共数据集上,该算法均取得了较好的表现性能. 相似文献
9.
知识蒸馏算法对深度神经网络的精简具有很大的推动作用。当前基于特征的知识蒸馏算法或只关注单个部分进行改进,忽视了其他有益部分,或是对小模型应重点关注的部分提供有效指导,这使得蒸馏的效果有所欠缺。为了充分利用大模型的有益信息并处理,提升小模型知识转换率,提出一种新型蒸馏算法。该算法首先使用条件概率分布对大模型中间层进行特征空间分布拟合,提取拟合后趋于相似的空间注意力图,将其与其他有益信息一起,通过用于缩小模型间差距的小型卷积层,将转换后的信息传递给小模型,实现蒸馏。实验结果表明,该算法具有多师生组合适用性与多数据集通用性,相比于当前较为先进的蒸馏算法,性能提升约1.19%,用时缩短0.16 h。对大型网络的优化与深度学习部署在低资源设备上的应用具有着重要的工程意义与广泛的应用前景。 相似文献
11.
针对目前用于超分辨率图像重建的深度学习网络模型结构深且计算复杂度高,以及存储网络模型所需空间大,进而导致其无法在资源受限的设备上有效运行的问题,提出一种基于知识蒸馏的超分辨率卷积神经网络的压缩方法。该方法使用一个参数多、重建效果好的教师网络和一个参数少、重建效果较差的学生网络。首先训练好教师网络,然后使用知识蒸馏的方法将知识从教师网络转移到学生网络,最后在不改变学生网络的网络结构及参数量的前提下提升学生网络的重建效果。实验使用峰值信噪比(PSNR)评估重建质量的结果,使用知识蒸馏方法的学生网络与不使用知识蒸馏方法的学生网络相比,在放大倍数为3时,在4个公开测试集上的PSNR提升量分别为0.53 dB、0.37 dB、0.24 dB和0.45 dB。在不改变学生网络结构的前提下,所提方法显著地改善了学生网络的超分辨率重建效果。 相似文献
12.
13.
针对法律判决预测中罪名预测和法条推荐子任务,提出基于BERT (bidirectional encoder representation from transformers)预训练模型与知识蒸馏策略的多任务多标签文本分类模型.为挖掘子任务间的关联,提高预测准确率,运用BERT预训练模型进行多任务学习,建立BERT12multi文本分类模型;针对罪名、法条类别中的样本不均衡问题,采用分组的焦点损失(focal loss)以增强模型对于罕见罪名及法条的辨别能力;为降低模型计算复杂度并且提高模型推理速度,提出一种以教师模型评价为参考的知识蒸馏策略,通过动态平衡蒸馏中的蒸馏损失和分类损失,将BERT12multi压缩为浅层结构的学生模型.综上,构建出可以处理不均衡样本且具有较高推理速度的多任务多标签文本分类模型BERT6multi.在CAIL2018数据集上的实验表明:采用预训练模型及分组focal loss可显著提高法律判决预测的性能;通过融入教师模型评价,知识蒸馏得到的学生模型推理速度提高近一倍,并且在罪名预测及法条推荐任务... 相似文献
14.
新冠肺炎以来,肺部疾病引起了人们更大的关注.肺音的特征与诊断是肺病理学中重要的组成部分.现有的肺音分析工作主要是对肺音的类型进行分类,分类肺病的研究较少.另外,单个分类模型无法在保护隐私的前提下融合多方数据,复杂的模型也难以保证分类的实时性.针对这些问题,本文提出集成知识蒸馏的肺疾病分类模型.首先从肺音音频中提取梅尔频谱特征,然后建立多个二分类卷积神经网络模型作为教师模型,最后通过集成知识蒸馏技术,将多个教师模型的知识集成到一个精简的多分类学生模型上.实验表明,该模型能够在预测准确率达95%的情况下,参数量比教师模型减少79%,预测速度提升20%.在同等条件下,时耗仅有MobileNet–v3–small模型的6%,实现实时性肺疾病分析. 相似文献
15.
细粒度图像分类任务由于自身存在的细微的类间差别和巨大的类内差别使其极具挑战性,为了更好地学习细粒度图像的潜在特征,该算法将知识蒸馏引入到细粒度图像分类任务中,提出基于知识蒸馏与目标区域选取的细粒度图像分类方法(TRS-DeiT),能使其兼具CNN模型和Transformer模型的各自优点。此外,TRS-DeiT的新型目标区域选取模块能够获取最具区分性的区域;为了区分任务中的易混淆类,引入对抗损失函数计算不同类别图像间的相似度。最终,在三个经典细粒度数据集CUB-200-2011、Stanford Cars和Stanford Dogs上进行训练测试,分别达到90.8%、95.0%、95.1%的准确率。实验结果表明,该算法相较于传统模型具有更高的准确性,通过可视化结果进一步证实该算法的注意力主要集中在识别对象,从而使其更擅长处理细粒度图像分类任务。 相似文献