首页 | 本学科首页   官方微博 | 高级检索  
     

基于混合自注意力机制的神经机器翻译
作者姓名:宋恺涛  陆建峰
作者单位:南京理工大学计算机科学与工程学院
摘    要:编码器-解码器结构是神经机器翻译最常用的一种框架,许多新型结构都基于此框架进行设计以改善翻译性能。其中,深度自注意力网络是非常出色的一种网络结构,其利用了自注意力机制来捕获全局的语义信息。然而,这种网络却不能有效地区分每个单词的相对位置,例如,依赖单词究竟位于目标单词的左边还是右边,也不能够捕获当前单词的局部语义。为了缓解这类问题,该文提出了一种新型的注意力机制,叫做混合注意力机制。该机制包含了对自注意力网络设计的多种不同的特定掩码来获取不同的语义信息,例如,全局和局部信息,以及左向或者右向信息。最后,该文提出了一个压缩门来融合不同类型的自注意力网络。在三个机器翻译数据集上的实验结果表明,该文方法能够取得比深度自注意力网络更好的结果。

关 键 词:自注意力  神经机器翻译  深度神经网络
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号