抑制图像非语义信息的通用后门防御策略 |
| |
作者姓名: | 郭钰生 钱振兴 张新鹏 柴洪峰 |
| |
作者单位: | 复旦大学计算机科学技术学院, 上海 200438;复旦大学计算机科学技术学院, 上海 200438;文化和旅游部数字文化保护与旅游数据智能计算重点实验室, 上海 200438;复旦大学计算机科学技术学院, 上海 200438;复旦大学金融科技研究院, 上海 200438 |
| |
基金项目: | 国家自然科学基金项目(U20B2051,U1936214) |
| |
摘 要: | 目的 后门攻击已成为目前卷积神经网络所面临的重要威胁。然而,当下的后门防御方法往往需要后门攻击和神经网络模型的一些先验知识,这限制了这些防御方法的应用场景。本文依托图像分类任务提出一种基于非语义信息抑制的后门防御方法,该方法不再需要相关的先验知识,只需要对网络的输入进行编解码处理就可以达到后门防御的目的。方法 核心思想是在保持图像语义不改变的同时,尽量削弱原始样本中与图像语义不相关的信息,以此抑制触发器。通过在待保护模型前添加一个即插即用的U型网络(即信息提纯网络)来实现对图像非语义信息的抑制。其输入是干净的初始样本,输出命名为强化样本。具体的训练过程中,首先用不同的训练超参数训练多个结构不一的干净分类器,然后在保持强化样本被上述分类器正确分类的前提下,优化信息提纯网络使强化样本和原始样本之间的差异尽可能地大。结果 实验在MNIST、CIFAR10和Image Net10数据集上进行。实验结果显示,经过信息提纯网络编解码后,干净样本的分类准确率略有下降,后门攻击成功率大幅降低,带有触发器的样本以接近干净样本的准确率被正确预测。结论 提出的非语义信息抑制防御方法能够在不需要相关先验知识的...
|
关 键 词: | 卷积神经网络(CNN) 模型安全 图像分类 神经网络后门 后门防御 |
收稿时间: | 2022-05-07 |
修稿时间: | 2022-11-03 |
|
| 点击此处可从《中国图象图形学报》浏览原始摘要信息 |
|
点击此处可从《中国图象图形学报》下载免费的PDF全文 |
|