一种课程学习范式下的知识蒸馏方法 |
| |
引用本文: | 张邵伟,王朝飞,杨柯,罗显光,吴澄,李锵.一种课程学习范式下的知识蒸馏方法[J].计算机集成制造系统,2022(7):2075-2082. |
| |
作者姓名: | 张邵伟 王朝飞 杨柯 罗显光 吴澄 李锵 |
| |
作者单位: | 1. 天津大学微电子学院;2. 清华大学自动化系;3. 北京化工大学化学学院;4. 中车株洲电力机车有限公司 |
| |
基金项目: | 国家自然科学基金资助项目(62071323,61471263,61872267);;天津大学自主创新基金资助项目(2021XZC-0024); |
| |
摘 要: | 随着工业4.0时代的到来,神经网络在实现整个工业系统自动化的各个环节获得了广泛的应用。然而大规模神经网络往往消耗了大量的存储、内存带宽和计算资源,在计算受限的工业场景中很难高效利用,相比之下,轻量级网络具有更加广泛的应用前景。知识蒸馏提取一个大规模高性能教师网络的知识来指导一个轻量化低性能学生网络的训练,在提升轻量级网络性能方面已获得成功验证。但是,现有的知识蒸馏方法均采用传统的训练数据输入策略,即将训练数据集打乱后随机采样小批量的数据序列,从而将知识从教师网络迁移给学生网络,没有考虑样本输入顺序对学生网络学习知识产生的影响。针对该问题,提出将课程学习范式引入知识蒸馏场景,模拟现实教学场景,使学生网络学习知识遵循先易后难的顺序,即在知识蒸馏过程中,样本输入采用先易后难的策略,其中样本的难度由教师网络和学生网络协作判断,以综合教师网络的经验优势和学习网络的需求特点,达到最合理的课程设计。实验在CIFAR数据集上进行了验证,在多种网络结构下均能大幅提升传统知识蒸馏基线方法的准确率,而且提出的课程学习范式还可以应用于其他主流知识蒸馏方法,进一步提升其性能。另外,消融实验也说明了教师网络和学生...
|
关 键 词: | 知识蒸馏 教师网络 学生网络 随机采样 课程学习 难度判断 |
|
|