首页 | 本学科首页   官方微博 | 高级检索  
     

面向“一带一路”的低资源语言机器翻译研究
引用本文:侯钰涛,阿布都克力木·阿布力孜,史亚庆,马依拉木·木斯得克,哈里旦木·阿布都克里木.面向“一带一路”的低资源语言机器翻译研究[J].计算机工程,2024(4):332-341.
作者姓名:侯钰涛  阿布都克力木·阿布力孜  史亚庆  马依拉木·木斯得克  哈里旦木·阿布都克里木
作者单位:新疆财经大学信息管理学院
基金项目:国家自然科学基金(61966033,62366050);
摘    要:随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一种基于NLLB模型改进的低资源语言机器翻译训练方法。首先基于多语言预训练模型提出一种改进的训练策略,该策略在数据增强的前提下,对损失函数进行优化,从而在机器翻译任务中有效提高低资源语言的翻译性能;然后使用ChatGPT以及ChatGLM模型分别评估老挝语-汉语以及越南语-汉语的翻译能力,大语言模型(LLM)已具备一定的翻译低资源语言的能力,而且ChatGPT模型在越南语-汉语翻译任务上已经大幅超越传统的神经机器翻译(NMT)模型,但是在老挝语上的翻译性能还有待进一步提高。实验结果表明,在4种低资源语言到汉语的翻译任务上,相比NLLB-600M基线模型,平均提升了1.33个双语替换测评(BLEU)值以及0.82个chrF++值,从而充分证明了该方法在低资源语言机器翻译任务上的有效性。此外,该方法使用ChatGPT和ChatGLM模型分别对老挝语-汉语以及越南语-汉语进行了...

关 键 词:低资源语言  机器翻译  数据增强  多语言预训练模型  大语言模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号