摘 要: | 深度神经网络(DNN)已经被广泛应用于图像识别和自然语言处理等各个领域。近年来的研究表明,向DNN模型输入包含微小扰动的样本后,很容易对其输出结果造成严重破坏,这样处理过的样本被称为对抗样本。但中文对抗样本生成领域一直面临着一个严重问题,攻击成功率和对抗样本的可读性难以兼得。该文提出了一种在对抗样本生成的不同阶段,对对抗样本进行视觉相似度和语义相似度进行约束的对抗攻击方法 MCGC。MCGC生成的对抗样本不但具有良好的可读性,且在针对Text-CNN、Bi-LSTM、BERT-Chinese等多个模型的定向和非定向攻击可以达到90%左右的攻击成功率。同时,该文还研究了以BERT-Chinese为代表的掩码语言模型(MLM)和传统自然语言处理模型在鲁棒性上的差异表现。
|