首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   2篇
  免费   0篇
  国内免费   1篇
自动化技术   3篇
  2021年   3篇
排序方式: 共有3条查询结果,搜索用时 15 毫秒
1
1.
神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳.目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据.考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语...  相似文献   
2.
低资源型的汉越神经机器翻译中,数据稀疏问题是影响翻译性能的主要原因,目前缓解该问题的途径之一是通过语料扩充方法生成伪平行数据,并用于机器翻译模型的训练,伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译3种.目前的研究集中于3种方法的单独使用,缺少方法间融合利用方面的研究工作,针对此问题,提出了融入双语词典的正反向枢轴方法,利用英语作为枢轴语言,在汉到英到越正向枢轴的基础上,融入利用稀有词构建的汉-英和英-越双语词典,将汉语单语数据通过模型翻译成英语数据,再利用英-越模型将其翻译成越南语数据,其次进行越到英到汉反向枢轴翻译将越南语单语数据翻译为汉语,以此在2个方向上生成汉越伪平行数据,并利用语言模型对生成的伪平行数据进行筛选.汉-越翻译任务上的实验结果表明,提出的融入双语词典的正反向枢轴方法,能够产生更优的伪平行语料,进而显著提升汉越神经机器翻译任务的性能.  相似文献   
3.
神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语语料进行短语抽取构建短语对齐表,并通过在维基百科中抽取的实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与识别出的短语相似性较高的短语对进行替换,以此实现短语级的数据增强,并将生成的伪平行句对与原始数据一起训练最终的神经机器翻译模型。在汉-越翻译任务上的实验结果表明,通过短语替换生成的伪平行句对可以有效提高汉-越神经机器翻译的性能。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号