首页 | 本学科首页   官方微博 | 高级检索  
     

基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
引用本文:王可超,郭军军,张亚飞,高盛祥,余正涛.基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法[J].计算机工程与科学,2022,44(10):1861-1868.
作者姓名:王可超  郭军军  张亚飞  高盛祥  余正涛
作者单位:(1.昆明理工大学信息工程与自动化学院,云南 昆明 650500; 2.昆明理工大学云南省人工智能重点实验室,云南 昆明 650500)
基金项目:国家自然科学基金(61732005,61761026,61866020,61672271,61762056,61972186);国家重点研发计划(2019QY1801,2019QY1802,2019QY1800)
摘    要:回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉 越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务。针对此问题,构建基于比例抽取的孪生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料。在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升。

关 键 词:汉越平行语料扩充  回译  数据增强  比例抽取  孪生网络  
收稿时间:2020-12-07
修稿时间:2021-02-23

A Chinese Vietnamese parallel corpus expansionmethod based on back translation and proportionalextraction siamese network screening
WANG Ke chao,GUO Jun jun,ZHANG Ya-fei,GAO Sheng-xiang,YU Zheng-tao.A Chinese Vietnamese parallel corpus expansionmethod based on back translation and proportionalextraction siamese network screening[J].Computer Engineering & Science,2022,44(10):1861-1868.
Authors:WANG Ke chao  GUO Jun jun  ZHANG Ya-fei  GAO Sheng-xiang  YU Zheng-tao
Abstract:Chinese-Vietnamese parallel corpus expansion;back translation;data enhancement;proportional extraction;siamese network
Keywords:
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号