基于Transformer的英文粘连词还原方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Transformer的英文粘连词还原方法

作者姓名：	朱鑫洋迟呈英战学刚

作者单位：	辽宁科技大学计算机与软件工程学院

基金项目：	国家自然科学基金面上项目(61672138);

摘要：	神经机器翻译(Neural Machine Translation, NMT)性能依赖于语料库的数据量和数据质量,经研究分析发现英文数据中存在多词粘连的现象,以下统称为粘连词,出现粘连词影响数据质量。为了进一步提高数据质量,需将粘连词还原成独立词,即词与词之间由空格作为分隔符的形式。针对该问题提出使用Transformer模型对粘连词进行还原。在数据预处理阶段,对数据采取三种不同的策略。实验证明,对数据进行分词、BPE切分的策略最佳,在真实数据集上准确率达到95.5%,在Transformer模型的基础上添加后处理操作后的正确率达到98.5%。该文方法具备可迁移性,对于任一种单词间用空格分割的语言都是可用的。
关键词：	数据质量粘连词贝叶斯 Transformer模型