首页 | 本学科首页   官方微博 | 高级检索  
     

融合BERT语境词向量的译文质量估计方法研究
引用本文:李培芸,李茂西,裘白莲,王明文. 融合BERT语境词向量的译文质量估计方法研究[J]. 中文信息学报, 2020, 34(3): 56-63
作者姓名:李培芸  李茂西  裘白莲  王明文
作者单位:江西师范大学 计算机信息工程学院,江西 南昌 330022
基金项目:国家自然科学基金(61662031,61462044,61876074)
摘    要:蕴含语义、句法和上下文信息的语境词向量作为一种动态的预训练词向量,在自然语言处理的下游任务中有着广泛应用。然而,在机器译文质量估计中,没有相关研究工作涉及语境词向量。该文提出利用堆叠双向长短时记忆网络将BERT语境词向量引入神经译文质量估计中,并通过网络并联的方式与传统的译文质量向量相融合。在CWMT18 译文质量估计评测任务数据集上的实验结果表明,融合中上层的BERT语境词向量均显著提高了译文质量估计与人工评价的相关性,并且当对BERT语境词向量的最后4层表示平均池化后引入译文质量估计中对系统性能的提高幅度最大。实验分析进一步揭示了融合语境词向量的方法能利用译文的流利度特征来提高翻译质量估计的效果。

关 键 词:神经译文质量估计  语境词向量  循环神经网络  编码器—解码器网络  质量向量  

Integrating BERT Word Embedding into Quality Estimation of Machine Translation
LI Peiyun,LI Maoxi,QIU Bailian,WANG Mingwen. Integrating BERT Word Embedding into Quality Estimation of Machine Translation[J]. Journal of Chinese Information Processing, 2020, 34(3): 56-63
Authors:LI Peiyun  LI Maoxi  QIU Bailian  WANG Mingwen
Affiliation:School of Computer and Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China
Abstract:The word embedding of BERT contains semantic, syntactic and context information, pre-trained for a various downstream tasks of natural language processing. We propose to introduce BERT into neural quality estimation of MT outputs by employing stacked BiLSTM (bidirectional long short-term memory), concatenated with the existing the quality estimation network at the output layer. The experiments on the CWMT18 datasets show that the quality estimation can be significantly improved by integrating upper and middle layers of the BERT, with the top-improvement brought by average pooling of the last four layers of the BERT. Further analysis reveals that the fluency in translation is better exploited by BERT in the MT quality estimation task.
Keywords:neural quality estimation of machine translation    contextual word embedding    recurrent neural network    encoder-decoder network    quality vector  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号