基于噪声破坏和波形重建的声纹对抗样本防御方法 |
| |
作者姓名: | 魏春雨 孙蒙 张雄伟 邹霞 印杰 |
| |
作者单位: | 陆军工程大学 指挥控制工程学院 南京 中国 210007;江苏警官学院 南京 中国 210031 |
| |
基金项目: | 本课题得到江苏省优秀青年基金(No. BK20180080)和国家自然科学基金(No. 62371469, No. 62071484)资助。 |
| |
摘 要: | 语音是人类最重要的交流方式之一。语音信号中除了文本内容外,还包含了说话人的身份、种族、年龄、性别和情感等丰富的信息,其中说话人身份的识别也被称为声纹识别,是一种生物特征识别技术。声纹具有获取方便、容易保存、使用简单等特点,而深度学习技术的进步也极大地促进了识别准确率的提升,因此,声纹识别已被应用于智慧金融、智能家居、语音助手和司法调查等领域。另一方面,针对深度学习模型的对抗样本攻击受到了广泛关注,在输入信号中添加不可感知的微小扰动即可导致模型预测结果错误。对抗样本的出现对基于深度学习的声纹识别也将造成巨大的安全威胁。现有声纹对抗样本防御方法会不同程度地影响正常样本的识别,并且局限于特定的攻击方法或识别模型,鲁棒性较差。为了使对抗防御能够兼顾纠正错误输出和准确识别正常样本两个方面,本文提出一种“破坏+重建”的两阶段对抗样本防御方法。第一阶段,在对抗样本中添加具有一定信噪比幅度限制的高斯白噪声,破坏对抗扰动的结构进而消除样本的对抗性。第二阶段,利用提出的名为SCAT-Wave-U-Net的语音增强模型重建原始语音样本,通过在Wave-U-Net模型结构中引入Transformer全局多头自注意力和层间交叉注意力机制,使改进后的模型更有助于防御声纹对抗样本攻击。实验表明,提出的防御方法不依赖于特定声纹识别系统和对抗样本攻击方式,在两种典型的声纹识别系统下对多种类型对抗样本攻击的防御效果均优于其他预处理防御方法。
|
关 键 词: | 声纹识别 噪声破坏 语音增强 对抗样本防御 |
收稿时间: | 2022/5/8 0:00:00 |
修稿时间: | 2022/7/6 0:00:00 |
Defense of Speaker Recognition Against Adversarial Examples Based on Noise Destruction and Waveform Reconstruction |
| |
Authors: | WEI Chunyu SUN Meng ZHANG Xiongwei ZOU Xi YIN Jie |
| |
Affiliation: | College of Command and Control Engineering, Army Engineering University of PLA, Nanjing 210007, China; Jiangsu Police Institute, Nanjing 210031, China |
| |
Abstract: | |
| |
Keywords: | speaker recognition noise destruction speech enhancement defense of adversarial examples |
|
| 点击此处可从《》浏览原始摘要信息 |
|
点击此处可从《》下载全文 |
|