首页 | 本学科首页   官方微博 | 高级检索  
     

基于Transformer的英文粘连词还原方法
作者姓名:朱鑫洋  迟呈英  战学刚
作者单位:辽宁科技大学计算机与软件工程学院
基金项目:国家自然科学基金面上项目(61672138);
摘    要:神经机器翻译(Neural Machine Translation, NMT)性能依赖于语料库的数据量和数据质量,经研究分析发现英文数据中存在多词粘连的现象,以下统称为粘连词,出现粘连词影响数据质量。为了进一步提高数据质量,需将粘连词还原成独立词,即词与词之间由空格作为分隔符的形式。针对该问题提出使用Transformer模型对粘连词进行还原。在数据预处理阶段,对数据采取三种不同的策略。实验证明,对数据进行分词、BPE切分的策略最佳,在真实数据集上准确率达到95.5%,在Transformer模型的基础上添加后处理操作后的正确率达到98.5%。该文方法具备可迁移性,对于任一种单词间用空格分割的语言都是可用的。

关 键 词:数据质量  粘连词  贝叶斯  Transformer模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号