首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对关系型知识蒸馏方法中教师网络与学生网络的层数差距过大导致蒸馏效果下降的问题,提出一种基于关系型蒸馏的分步神经网络压缩方法.该方法的要点在于,在教师网络和学生网络之间增加一个中间网络分步进行关系型蒸馏,同时在每一次蒸馏过程中都增加额外的单体信息来进一步优化和增强学生模型的学习能力,实现神经网络压缩.实验结果表明,本文的方法在CIFAR-10和CIFAR-100图像分类数据集上的分类准确度相较于原始的关系型知识蒸馏方法均有0.2%左右的提升.  相似文献   

2.
针对基于互学习的知识蒸馏方法中存在模型只关注教师网络和学生网络的分布差异,而没有考虑其他的约束条件,只关注了结果导向的监督,而缺少过程导向监督的不足,提出了一种拓扑一致性指导的对抗互学习知识蒸馏方法 (Topology-guided adversarial deep mutual learning, TADML).该方法将教师网络和学生网络同时训练,网络之间相互指导学习,不仅采用网络输出的类分布之间的差异,还设计了网络中间特征的拓扑性差异度量.训练过程采用对抗训练,进一步提高教师网络和学生网络的判别性.在分类数据集CIFAR10、CIFAR100和Tiny-ImageNet及行人重识别数据集Market1501上的实验结果表明了TADML的有效性, TADML取得了同类模型压缩方法中最好的效果.  相似文献   

3.
当前的知识蒸馏算法均只在对应层间进行蒸馏,为了解决这一问题,提高知识蒸馏的性能,首先分析了教师模型的低层特征对学生模型高层特征的指导作用,并在此基础上提出了基于知识回顾解耦的目标检测蒸馏方法。该方法首先将学生模型的高层特征与低层特征对齐、融合并区分空间和通道提取注意力,使得学生的高层特征能够渐进式地学到教师的低层和高层知识;随后将前背景解耦,分别蒸馏;最后通过金字塔池化在不同尺度上计算其与教师模型特征的相似度。在不同的目标检测模型上进行了实验,实验表明,提出的方法简单且有效,能够适用于各种不同的目标检测模型。骨干网络为ResNet-50的RetinaNet和FCOS分别在COCO2017数据集上获得了39.8%和42.8%的mAP,比基准提高了2.4%和2.3%。  相似文献   

4.
在图像分类和工业视觉检测过程中,缺陷样本量少导致神经网络分类器训练效率低及检测精度差,直接采用原始的离散标签又无法使网络分类器学习到不同类别间的相似度信息。针对上述问题,在区域丢弃算法的基础上,提出一种基于生成对抗网络的知识蒸馏数据增强算法。使用补丁对丢弃区域进行填补,减少区域丢弃产生的非信息噪声。在补丁生成网络中,保留生成对抗网络的编码器-解码器结构,利用编码器卷积层提取特征,通过解码器对特征图上采样生成补丁。在样本标签生成过程中,采用知识蒸馏算法中的教师-学生训练模式,按照交叉检验方式训练教师模型,根据教师模型生成的软标签对学生模型的训练进行指导,提高学生模型对特征的学习能力。实验结果表明,与区域丢弃算法相比,该算法在CIFAR-100、CIFAR-10数据集图像分类任务上的Top-1 Err、Top-5 Err分别降低3.1、0.8、0.5、0.6个百分点,在汽车转向器轴承数据集语义分割任务上的平均交并比和识别准确率分别提高2.8、2.3个百分点。  相似文献   

5.
在传统知识蒸馏框架中,教师网络将自身的知识全盘传递给学生网络,而传递部分知识或者特定知识的研究几乎没有。考虑到工业现场具有场景单一、分类数目少的特点,需要重点评估神经网络模型在特定类别领域的识别性能。基于注意力特征迁移蒸馏算法,提出了三种特定知识学习算法来提升学生网络在特定类别分类中的分类性能。首先,对训练数据集作特定类筛选以排除其他非特定类别的训练数据;在此基础上,将其他非特定类别视为背景并在蒸馏过程中抑制背景知识,从而进一步减少其他无关类知识对特定类知识的影响;最后,更改网络结构,即仅在网络高层抑制背景类知识,而保留网络底层基础图形特征的学习。实验结果表明,通过特定知识学习算法训练的学生网络在特定类别分类中能够媲美甚至超越参数规模六倍于它的教师网络的分类性能。  相似文献   

6.
针对传统自蒸馏方法存在数据预处理成本高、局部特征检测缺失,以及模型分类精度低的情况,提出了基于相似一致性的模型自蒸馏方法(Similarity and Consistency by Self-Distillation, SCD),提高模型分类精度。首先,对样本图像的不同层进行学习得到特征图,通过特征权值分布获取注意力图。然后,计算Mini-batch内样本间注意力图的相似性获得相似一致性知识矩阵,构建基于相似一致性的知识,使得无须对实例数据进行失真处理或提取同一类别的数据来获取额外的实例间知识,避免了大量的数据预处理工作带来的训练成本高和训练复杂的问题。最后,将相似一致性知识矩阵在模型中间层之间单向传递,让浅层次的相似矩阵模仿深层次的相似矩阵,细化低层次的相似性,捕获更加丰富的上下文场景和局部特征,解决局部特征检测缺失问题,实现单阶段单向知识转移的自蒸馏。实验结果表明,采用基于相似一致性的模型自蒸馏方法:在公开数据集CIFAR100和TinyImageNet上,验证了SCD提取的相似一致性知识在模型自蒸馏中的有效性,相较于自注意力蒸馏方法(Self Attention Distilla...  相似文献   

7.
目前,基于深度学习的合成孔径雷达(SAR)舰船目标检测方法受到广泛关注。但因为模型参数量大、运算内存高等问题限制了其实际应用。通过学生网络模仿教师网络,知识蒸馏被视作一种高效的模型压缩方法。然而,大部分的知识蒸馏算法只针对常见的可见光图像任务,将其直接应用到复杂的SAR图像舰船目标检测上性能表现不佳。通过分析,出现上述性能不佳现象有以下两个原因:(1)前景背景面积严重失衡;(2)缺乏对前景和背景像素的关系建模。针对上述问题,提出基于解耦特征的拓扑距离知识蒸馏算法。前景和背景解耦蒸馏可以缓解前景背景失衡问题。通过解耦特征拓扑距离蒸馏,学生网络可以从教师网络学习到前景背景之间的关系,增强对背景噪声鲁棒性。实验结果表明,相比许多蒸馏算法,所提出的算法可以十分有效地提升学生网络在SAR图像舰船目标检测精度。比如,基于ResNet18-C4骨干网络的Faster R-CNN模型在HRSID数据集上AP提升6.85个百分点,从31.81%提升到38.66%。  相似文献   

8.
唐进洪 《信息与电脑》2023,(11):217-219+232
随着人工智能技术的发展,基于深度学习的产品表面缺陷检测逐渐成为工业品质检验的重要手段。然而,传统的单一模型在复杂数据分布下的效果不尽如人意,因此采用集成学习的方法提高模型的诊断精度。文章提出了一种基于多教师知识蒸馏网络的工业产品表面缺陷诊断方法。该方法将3个结构差异较大的模型(ResNet50、Inception-v4和EfficientNet)作为教师网络,再将知识蒸馏到一个轻量化的学生网络(MobileNetv3)中,从而诊断钢铁表面缺陷。通过实验验证可知,多教师知识蒸馏网络比单一模型具有更高的准确率和鲁棒性。实验结果表明,该方法不仅可以提高钢铁表面缺陷诊断的精度,而且可以有效应用于其他复杂数据分类问题。  相似文献   

9.
神经网络层数的不断增加使网络复杂度也呈指数级上升,导致应用场景受到限制。提出一种基于彩票假设的软剪枝算法实现网络加速。通过使用前一阶段的剪枝网络对其进行知识蒸馏来补偿的方法恢复错误参数,并在知识蒸馏的损失函数中加入稀疏约束来保持稀疏性。在此基础上,将当前阶段得到的剪枝网络与知识蒸馏得到的学生网络进行融合。在进行网络融合时,计算剪枝网络与学生网络的相似性,并通过设计特定的融合公式来突出相近的网络参数和抑制相离的网络参数,使得网络在剪枝率提高后仍然表现良好。在CIFAR-10/100数据集上对VGG16、ResNet-18和ResNet-56模型进行实验,结果显示:剪枝率为80%时,VGG16在CIFAR-10数据集上的分类精度下降0.07个百分点;剪枝率为60%时,ResNet-56在CIFAR-10数据集上的分类精度提升0.06个百分点;剪枝率为85%、95%和99%时,ResNet-18在CIFAR-100数据集上的分类精度仅下降1.03、1.51和2.04个百分点。实验结果表明,所提算法在提高网络剪枝率的同时仍能使其保持较高的精度,验证了算法的有效性。  相似文献   

10.
宫颈癌筛查对宫颈癌预防和早期宫颈癌诊断具有重要意义。针对现有宫颈细胞图像分类模型泛化能力不足、参数量大、对硬件要求高且难以部署终端等问题,提出一种基于知识蒸馏的宫颈细胞图像分类方法。使用残差网络为骨干网络,以ResNet18为基础学生网络,引入知识蒸馏机制使用ResNet34作为教师网络进行指导学习。采用迁移学习方法提高教师模型基准精度;将教师网络概率预测知识通过知识蒸馏传递给学生网络进行学习,以提升学生模型分类准确率。实验结果表明:知识蒸馏优化后的学生网络ResNet18精度高达95.59%,相比未优化前精度91.13%提升了4.46个百分点。蒸馏优化后的模型参数量小、精度高,网络的整体性能优秀,为建立临床轻量级宫颈细胞图像分类模型研究提供了参考。  相似文献   

11.
知识蒸馏被广泛应用于语义分割以减少计算量.以往的语义分割知识提取方法侧重于像素级的特征对齐和类内特征变化提取,忽略了对语义分割非常重要的类间距离知识的传递.为了解决这个问题,本文提出了一种类间距离提取方法,将特征空间中的类间距离从教师网络转移到学生网络.此外,语义分割是一个位置相关的任务,因此本文开发了一个位置信息提取模块来帮助学生网络编码更多的位置信息.在Cityscapes、Pascal VOC和ADE20K这3个流行的语义分割数据集上的大量实验表明,该方法有助于提高语义分割模型的精度,取得了较好的性能.  相似文献   

12.
为压缩网络剪枝过程中较大的搜索空间,从预训练深度神经网络中找到最佳的稀疏网络结构,本文提出一种基于遗传算法和知识蒸馏的分块压缩学习算法(CCLA).首先,在预定义压缩空间中将学生网络初始化为一个稀疏网络结构.然后,将教师网络和学生网络按层划分多个块网络,在教师网络的监督下对学生网络进行逐块压缩.最后,使用遗传算法搜索学生网络中每个块网络的稀疏结构.在CIFAR-10数据集上对VGG-16网络和ResNet-110网络的实验结果表明,本文所提方法性能表现良好,例如,在CIFAR-10数据集上对VGG-16进行压缩,可压缩掉87.82%的参数和70.4%的浮点运算(Floating Point of operations, FLOPs),而精度损失仅为0.37%.  相似文献   

13.
随着深度学习方法的不断发展,其存储代价和计算代价也不断增长,在资源受限的平台上,这种情况给其应用带来了挑战。为了应对这种挑战,研究者提出了一系列神经网络压缩方法,其中知识蒸馏是一种简单而有效的方法,成为研究热点之一。知识蒸馏的特点在于它采用了“教师—学生”架构,使用一个大型网络指导小型网络进行训练,以提升小型网络在应用场景下的性能,从而间接达到网络压缩的目的。同时,知识蒸馏具有不改变网络结构的特性,从而具有较好的可扩展性。本文首先介绍知识蒸馏的由来以及发展,随后根据方法优化的目标将知识蒸馏的改进方法分为两大类,即面向网络性能的知识蒸馏和面向网络压缩的知识蒸馏,并对经典方法和最新方法进行系统的分析和总结,最后列举知识蒸馏方法的几种典型应用场景,以便加深对各类知识蒸馏方法原理及其应用的理解。知识蒸馏方法发展至今虽然已经取得较好的效果,但是各类知识蒸馏方法仍然有不足之处,本文也对不同知识蒸馏方法的缺陷进行了总结,并根据网络性能和网络压缩两个方面的分析,给出对知识蒸馏研究的总结和展望。  相似文献   

14.
目前存储和计算成本严重阻碍深度神经网络应用和推广,而神经网络量化是一种有效的压缩方法.神经网络低比特量化存在的显著困难是量化比特数越低,网络分类精度也越低.为了解决这一问题,文中提出基于指数移动平均知识蒸馏的神经网络低比特量化方法.首先利用少量图像进行自适应初始化,训练激活和权重的量化步长,加快量化网络收敛.再引入指数移动平均(EMA)知识蒸馏的思想,利用EMA对蒸馏损失和任务损失进行归一化,指导量化网络训练.在ImageNet、CIFAR-10数据集上的分类任务表明,文中方法可获得接近或超过全精度网络的性能.  相似文献   

15.
为了提高无监督哈希学习的性能,实现鲁棒的哈希图像检索,提出了一种鲁棒的双教师自监督蒸馏哈希学习方法。该方法包括自监督双教师学习和鲁棒哈希学习两个阶段:第一阶段设计了一种改进的聚类算法,有效提高了硬伪标签的标注精度,而后通过微调教师网络得到了图像的初始软伪标签;第二阶段提出了一种结合混合去噪和双教师共识去噪策略的软伪标签去噪方法,有效去除了初始软伪标签中的噪声,而后利用蒸馏学习将双教师网络中的信息通过去噪软伪标签传递给学生网络,进而获得无标签图像的鲁棒哈希码。在CIFAR-10,FLICKR25K和EuroSAT上进行了实验,实验结果表明,与TBH方法相比,在CIFAR-10上所提方法的MAP平均提高了18.6%;与DistillHash方法相比,在FLICKR25K上所提方法的MAP平均提高了2.4%;与ETE-GAN方法相比,在EuroSAT上所提方法的MAP平均提高了18.5%。  相似文献   

16.
知识蒸馏作为一种模型压缩方法,将大网络(教师网络)学到的知识传递给小网络(学生网络),使小网络获得接近大网络的精度。知识蒸馏在图像分类任务上获得不错的效果,但在目标检测上的研究较少,且有待提高。当前目标检测中主要基于特征提取层进行知识蒸馏,该类方法存在两个问题,第一,没有对教师网络传递知识的重要程度进行度量,第二,仅对特征提取层进行蒸馏,教师网络的知识未充分传递给学生网络。针对第一个问题,通过引入信息图作为蒸馏的监督信号,强化了学生网络对教师网络重点知识的学习;针对第二个问题,对特征提取层和特征融合层的输出同时进行蒸馏,使学生网络更充分地学习教师网络传递的知识。实验结果表明,以YOLOv3为检测模型,在不改变学生网络结构的基础上,平均类别精度(mAP)提升9.3个百分点。  相似文献   

17.
意图分类是一种特殊的短文本分类方法,其从传统的模板匹配方法发展到深度学习方法,基于BERT模型的提出,使得大规模的预训练语言模型成为自然语言处理领域的主流方法。然而预训练模型十分庞大,且需要大量的数据和设备资源才能完成训练过程。提出一种知识蒸馏意图分类方法,以预训练后的BERT作为教师模型,文本卷积神经网络Text-CNN等小规模模型作为学生模型,通过生成对抗网络得到的大量无标签数据将教师模型中的知识迁移到学生模型中。实验数据包括基于真实场景下的电力业务意图分类数据集,以及通过生成对抗网络模型生成的大量无标签文本作为扩充数据。在真实数据和生成数据上的实验结果表明,用教师模型来指导学生模型训练,该方法可以在原有数据资源和计算资源的条件下将学生模型的意图分类准确率最高提升3.8个百分点。  相似文献   

18.
针对基于深度学习的人脸识别模型难以在嵌入式设备进行部署和实时性能差的问题,深入研究了现有的模型压缩和加速算法,提出了一种基于知识蒸馏和对抗学习的神经网络压缩算法。算法框架由三部分组成,预训练的大规模教师网络、轻量级的学生网络和辅助对抗学习的判别器。改进传统的知识蒸馏损失,增加指示函数,使学生网络只学习教师网络正确识别的分类概率;鉴于中间层特征图具有丰富的高维特征,引入对抗学习策略中的判别器,鉴别学生网络与教师网络在特征图层面的差异;为了进一步提高学生网络的泛化能力,使其能够应用于不同的机器视觉任务,在训练的后半部分教师网络和学生网络相互学习,交替更新,使学生网络能够探索自己的最优解空间。分别在CASIA WEBFACE和CelebA两个数据集上进行验证,实验结果表明知识蒸馏得到的小尺寸学生网络相较全监督训练的教师网络,识别准确率仅下降了1.5%左右。同时将本研究所提方法与面向特征图知识蒸馏算法和基于对抗学习训练的模型压缩算法进行对比,所提方法具有较高的人脸识别准确率。  相似文献   

19.
为了解决预训练语言模型训练时间过长、参数多且难以部署,以及非预训练语言模型分类效果较差的问题,提出了基于知识蒸馏模型的文本情感分析。以预训练深度学习模型(Bidirectional Encoder Representations from Transformers, BERT)作为教师模型,选择双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)作为学生模型;在知识蒸馏过程中,将教师模型的Softmax层的输出作为“知识”蒸馏给学生模型,并将蒸馏后的模型应用到公共事件网络舆情文本情感分析中。实验结果表明,该模型参数仅为BERT模型的1/13,使BiLSTM模型的准确率提升了2.2百分点,优于其他同类别轻量级模型,提高了文本情感分析效率。  相似文献   

20.
为提高多天候下的车辆检测效果,本文提出一种基于改进知识蒸馏方法的卷积网络训练框架。该网络框架利用复杂CNN(Convolutional Neural Network)作为教师网络、轻量CNN作为学生网络,在不增加新训练数据集和略微增加轻量CNN参数量的同时提高轻量CNN多天候下车辆检测的效果。该知识蒸馏方法采用特殊的数据增强方法产生含有多天候特征的数据集,将不含天气特征的原始图片投入教师网络,将对应含有天气特征的增强图片投入学生网络训练。由于不含天气特征的图片能够提供更多的信息,相较于一般知识蒸馏方法,该种训练方式能使学生网络对教师网络的输出信息进行更有效的学习。最终,经过在天气数据增强后的BDD100k数据集上进行训练和多天候车辆检测的性能测试,在本文知识蒸馏卷积网络框架下训练的学生网络模型目标检测的能力和在多天候环境下检测精度的稳定性得到了提高;在DAWN多天候数据集上进行多个网络的泛化能力对比测试表明,本文改进的知识蒸馏卷积网络框架在平均查准率(Average precision,AP)和检测速度上均取得了一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号