语言模型攻击性的自动评价方法 |
| |
作者姓名: | 侯丹阳 庞亮 丁汉星 兰艳艳 程学旗 |
| |
作者单位: | 1.中国科学院 计算技术研究所 数据智能系统研究中心,北京 100190; 2.中国科学院 计算技术研究所 中国科学院网络数据科学与技术重点实验室,北京 100190; 3.中国科学院大学,北京 100049 |
| |
基金项目: | 北京智源人工智能研究院(BAAI2020ZJ0303);国家自然科学基金(61773362,61906180);中国科学院青年创新促进会项目(2016102);国家重点研发计划(2016QY02D0405);腾讯AILab犀牛鸟专项研究计划(JR202033) |
| |
摘 要: | 基于大规模语料训练的语言模型,在文本生成任务上取得了突出性能表现.然而研究发现,这类语言模型在受到扰动时可能会产生攻击性的文本.这种不确定的攻击性给语言模型的研究和实际使用带来了困难,为了避免风险,研究人员不得不选择不公开论文的语言模型.因此,如何自动评价语言模型的攻击性成为一项亟待解决的问题.针对该问题,该文提出了一...
|
关 键 词: | 文本生成 语言模型 自动评价 |
|
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|