摘 要: | 跨语言迁移旨在借助源语言的标注样本学习目标语言上的相应任务,是解决目标语言标记数据不足的重要途径.近期表现出色的方法多基于自训练,通过逐步自动标记无标注样本实现知识的迁移.然而自训练存在不准确监督的问题,即当前模型(称为老师模型)对目标语言无标注样本的错误预测会误导后续模型(称为学生模型)的学习.跨语言迁移中,源语言和目标语言样本之间存在的分布差异加重了这个问题.本文提出一种名为“老师-课程-学生”(TCS)的学习框架,综合使用三项技术解决自训练中的不准确监督的问题,包括软目标训练技术、渐进式样本选择技术、“从可信到可疑”的课程学习技术等.在跨语言文本分类和跨语言命名实体识别基准数据集上的实验表明,TCS取得的平均结果在自训练的基础上分别提高了2.51%和3.25%,并分别比现有最佳结果高1.51%和4.45%.消融实验表明,TCS使用的三项技术都能有效提升最终模型的性能,其中课程学习技术和“从可信到可疑”的课程顺序是取得出色结果的关键.相关代码和实验配置可以在https://github.com/ericput/TCS获取.
|