基于BERT模型的文本对抗样本生成方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于BERT模型的文本对抗样本生成方法

作者姓名：	李宇航杨玉丽马垚于丹陈永乐

作者单位：	太原理工大学计算机科学与技术学院(大数据学院)

摘要：	针对现有对抗样本生成方法需要大量访问目标模型,导致攻击效果较差的问题,提出了基于BERT(Bidirectional Encoder Representations from Transformers)模型的文本对抗样本生成方法（TAEGM）。首先采用注意力机制,在不访问目标模型的情况下,定位显著影响分类结果的关键单词;其次通过BERT模型对关键单词进行单词级扰动,从而生成候选样本;最后对候选样本进行聚类,并从对分类结果影响更大的簇中选择对抗样本。在Yelp Reviews、AG News和IMDB Review数据集上的实验结果表明,相较于攻击成功率（SR）次优的对抗样本生成方法CLARE(ContextuaLized AdversaRial Example generation model),TAEGM在保证对抗攻击SR的前提下,对目标模型的访问次数（QC）平均减少了62.3%,时间平均减少了68.6%。在此基础之上,进一步的实验结果验证了TAEGM生成的对抗样本不仅具有很好的迁移性,还可以通过对抗训练提升模型的鲁棒性。
关键词：	对抗样本注意力机制 BERT 对抗攻击聚类算法