基于孪生对比网络的汉语-东南亚语言多语言平行句对抽取 |
| |
引用本文: | 周远卓,毛存礼,沈政,张思琦,余正涛,王振晗.基于孪生对比网络的汉语-东南亚语言多语言平行句对抽取[J].模式识别与人工智能,2023(10):931-941. |
| |
作者姓名: | 周远卓 毛存礼 沈政 张思琦 余正涛 王振晗 |
| |
作者单位: | 1. 昆明理工大学信息工程与自动化学院;2. 昆明理工大学云南省人工智能重点实验室 |
| |
基金项目: | 国家自然科学基金项目(No.62166023,U21B2027,61972186);;云南省科技重大专项项目(No.202103AA080015,202203AA080004,202302AD080003); |
| |
摘 要: | 平行句对抽取应用在东南亚稀缺资源语言上性能不佳,主要原因在于缺少训练语料,导致句对抽取模型表征能力较差.因此,文中提出基于孪生对比网络的汉语-东南亚语言多语言平行句对抽取方法,从模型结构、训练策略与数据三方面提升性能.首先,提出孪生对比网络框架,将对比学习思想应用到孪生网络中,增强模型对平行句对的表征能力.然后,引入相似语言联合训练策略,有效进行知识共享,提高模型的学习能力.最后,通过多语言词替换的方式构造汉语-混合东南亚语言平行句对,为训练提供较充分的样本信息.在汉语-泰语和汉语-老挝语数据集上的实验表明,文中方法可有效提升平行句对抽取性能.
|
关 键 词: | 平行句对抽取 对比学习 联合训练 孪生网络 |
|
|