期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘群《中文信息学报》2011,25(6):63-72

该文总结了我们近几年来在基于句法的统计机器翻译方面所做的研究工作,特别是基于源语言句法的一系列统计机器翻译模型与方法,具体包括基于最大熵括号转录语法的翻译模型,基于源语言短语结构树的树到串翻译模型及其相应的基于树的翻译方法,基于森林的翻译方法和句法分析与解码一体化翻译方法,基于源语言依存树的翻译模型。相似文献

2.

一种基于语料库的日语动词格框架自动构造技术*

倪瑞煜戴新宇尹存燕陈家骏《计算机应用研究》2007,24(6):66-68

结合一个基于格语法的日汉机器翻译系统,针对现有系统日语动词格框架缺乏的现状,提出一种日语动词格框架自动构造方法.该方法基于类比与统计思想,从现有的少量人工构造的动词格框架和大量生语料出发,自动构造日语动词格框架. 相似文献

3.

日语用言格框架在机译系统中的应用 总被引：2，自引：1，他引：1

雍殿书《中文信息学报》1994,8(1):56-63

本文介绍了基于格文法的日语动词、形容词及形容动词格框架在日汉机器翻译系统中的重要应用, 为建立实用化的日汉机器翻译系统提供了有力的技术支持。相似文献

4.

依存句法语言模型对短语统计机器翻译性能的影响

董人菘王华张晓钟余正涛张涛《计算机科学》2014,41(2):99-101

为提高汉-英统计机器翻译的翻译效果,提出一个基于依存句法关系的语言模型,在较成熟的基于短语翻译的统计特征下,对解码产生的NBEST候选翻译结果进行进一步约束,重新计算得分,调整NBEST候选翻译序列,以得到最佳翻译。实验以"Pharaoh"为比较基准,以500句汉英句对为测试集,最终的实验结果表明,提出的基于依存句法关系的语言模型可以在一定程度上提高汉-英统计机器翻译最佳翻译的正确率。相似文献

5.

融合被动和可能态模型的日汉统计机器翻译

王楠徐金安明芳陈钰枫张玉洁《中文信息学报》2016,30(6):201-207

日语中谓词语态有不同的词尾变形,其中被动态和可能态具有相同的词尾变化,在统计机器翻译中难以对其正确区分及翻译。因此,该文提出一种利用最大熵模型有效地对日语可能态和被动态进行分类,然后把日语的可能态和被动态特征有效地融合到对数线性模型中改进翻译模型的方法,以提高可能态和被动态翻译规则选择的准确性。实验结果表明,该方法可以有效提升日语可能态和被动态句子的翻译质量,在大规模日汉语料上,最高翻译BLEU值能够由41.50提高到42.01,并在人工评测中,翻译结果的整体可理解度得到了2.71%的提升。相似文献

6.

汉蒙翻译模型中的依存语法与形态信息应用研究

骆凯李淼乌达巴拉杨攀朱海《中文信息学报》2009,23(6):98-105

该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信息;利用LOP思想将源语言依存句法信息和目标语言形态信息引入翻译模型构造中。实验表明,其BLEU评分比传统的短语统计翻译模型有明显提高。该方法通过词、短语、句法三层面信息的结合,实现了汉蒙两种语言语法结构的平衡,特别适合于源语言形态信息贫乏而目标语言形态信息丰富的统计机器翻译系统。相似文献

7.

融合双向依存自注意力机制的神经机器翻译

李治瑾赖华文永华高盛祥《计算机应用》2022,42(12):3679-3685

针对神经机器翻译中资源稀缺的问题,提出了一种基于双向依存自注意力机制（Bi-Dependency）的依存句法知识融合方法。首先,利用外部解析器对源句子解析得到依存解析数据;然后,将依存解析数据转化为父词位置向量和子词权重矩阵;最后,将依存知识融合到Transformer编码器的多头注意力机制上。利用Bi-Dependency,翻译模型可以同时对父词到子词、子词到父词两个方向的依存信息进行关注。双向翻译的实验结果表明,与Transformer模型相比,在富资源情况下,所提方法在汉-泰翻译上的BLEU值分别提升了1.07和0.86,在汉-英翻译上的BLEU值分别提升了0.79和0.68;在低资源情况下,所提方法在汉-泰翻译上的BLEU值分别提升了0.51和1.06,在汉-英翻译上的BLEU值分别提升了1.04和0.40。可见Bi-Dependency为模型提供了更丰富的依存信息,能够有效提升翻译性能。相似文献

8.

统计机器翻译中翻译规则抽取

刘颖姜巍《计算机工程与应用》2012,48(32):98-101,146

对齐短语是决定统计机器翻译系统质量的核心模块。提出基于短语结构树的层次短语模型,这是利用串-树模型的思想对层次短语模型的扩展。基于短语结构树的层次短语模型是在双语对齐短语的基础之上结合英语短语结构树抽取翻译规则,并利用启发式策略获得翻译规则的扩展句法标记。采用翻译规则的统计机器翻译系统在不同数据集上具有稳定的翻译结果,在训练集和测试集的平均BlEU评分高于短语模型和层次短语模型的BLEU评分。相似文献

9.

面向机器翻译的句类依存树库构建及应用

王慧兰张克亮《中文信息学报》2015,29(1):75-81

该文以汉英机器翻译为应用目标,以概念层次网络理论的语义网络和句类分析方法为理论基础,探讨了句类依存树库构建的理论和标注实践等问题,描述了构建树库所需的概念类别标注集和句类关系标注集。并通过与已有汉语树库进行对比,以汉语显性轻动词句的标注为例,分析了汉语句类依存树库的特点。该文在应用层面定义了面向汉英机器翻译的融句法语义信息于一体的“句类依存子树到串”双语转换模板,尝试基于汉语句类依存树库提取汉英转换模板。相似文献

10.

基于依存图网络的汉越神经机器翻译方法

普浏清余正涛文永华高盛祥刘奕洋《中文信息学报》2021,35(12):68-75

汉越神经机器翻译是典型的低资源翻译任务，由于缺少大规模的平行语料，可能导致模型对双语句法差异学习不充分，翻译效果不佳。句法的依存关系对译文生成有一定的指导和约束作用，因此，该文提出一种基于依存图网络的汉越神经机器翻译方法。该方法利用依存句法关系构建依存图网络并融入神经机器翻译模型中，在Transformer模型框架下，引入一个图编码器，对源语言的依存结构图进行向量化编码，利用多头注意力机制，将向量化的依存图结构编码融入到序列编码中，在解码时利用该结构编码和序列编码一起指导模型解码生成译文。实验结果表明，在汉越翻译任务中，融入依存句法图可以提升翻译模型的性能。相似文献

11.

面向口语翻译的双语语块自动识别 总被引：1，自引：0，他引：1

程葳赵军刘非凡徐波《计算机学报》2004,27(8):1016-1020

语块识别是实现“基于语块处理方法”的基础 .目前 ,针对单语语块的研究成果已有很多 ,但机器翻译更需要双语相关的语块分析 .该文根据口语翻译的实际需要 ,提出了“双语语块”的概念 .并在此基础上 ,实现了一种针对并行语料库进行双语语块自动识别的新方法 .该方法将统计和规则相结合 ,可同时保证双语语块的语义特性和句法规范 .通过在一个 6万句的旅馆预定领域口语语料库中的实验可以看出 ,该方法对汉英并行语料的双语语块识别正确率可达到 80 %左右 . 相似文献

12.

一种面向汉英口语翻译的双语语块处理方法 总被引：3，自引：2，他引：3

程葳赵军徐波刘非凡《中文信息学报》2003,17(2):22-28

基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是,要将其应用于口语翻译当中,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上,根据中、英文差异和口语翻译特性,从句法和语义两个层次提出了一种汉英双语语块概念,并对其特点进行了分析。同时,针对中、英文并行语料库,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法,对汉英句子级对齐的口语语料进行双语语块划分和对整,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明,本文提出的双语语块定义符合口语翻译的实际需要,使用基于双语语块的语料处理方法,能有效地提高口语系统的翻译性能。相似文献

13.

基于单语语料的面向日语假名的日汉人名翻译对抽取方法

王东明徐金安陈钰枫张玉洁《中文信息学报》2015,29(5):84-91

命名实体的翻译等价对在跨语言信息处理中非常重要。传统抽取方法通常使用平行语料库或可比语料库,此类方法受到语料库资源的质量和规模的限制。在日汉翻译领域,一方面,双语资源相对匮乏;另一方面,对于汉字命名实体,通常使用汉字对照表;对于日语纯假名的命名实体,通常采用统计翻译模型,此类方法受到平行语料库的质量和规模的限制,且精度低下。针对此问题,该文提出了一种基于单语语料的面向日语假名的日汉人名翻译对自动抽取方法。该方法首先使用条件随机场模型,分别从日语和汉语语料库中抽取日语和汉语人名;然后,采用基于实例的归纳学习法自动获取人名实体的日汉音译规则库,并通过反馈学习来迭代重构音译规则库。使用音译规则库计算日汉人名实体之间的相似度,给定阈值判定人名实体翻译等价对。实验结果表明,提出的方法简单高效,在实现系统高精度的同时,克服了传统方法对双语资源的依赖性。
相似文献

14.

一种基于日语格语法表示的英语生成

沈逸海陈家骏戴新宇王启祥《中文信息学报》2002,16(2):34-39,59

本文在已开发的一个具有一定规模的基于转换翻译的日汉机器翻译系统的基础上,为了检验该系统的日语分析结果的表达能力,设计一个基于日语格语法表示的英语生成系统。文章首先描述了一种基于格语法的日语分析及其表示;然后给出了从该格语法表示的日语生成英语的生成过程,重点对生成规则的设计进行描述;最后对英语生成中的一些问题进行探讨。相似文献

15.

视频序列的全景图拼接技术 总被引：10，自引：0，他引：10

下载免费PDF全文

朱云芳叶秀清顾伟康《中国图象图形学报》2006,11(8):1150-1155

提出了一种对视频序列进行全景图拼接的方法。主要讨论了有大面积的非刚性运动物体出现的序列，不过此方法也同样适用于无运动物体的纯背景序列。为计算各帧间的投影关系，用仿射模型来描述摄像机运动，并用特征点匹配的方法计算出模型中各参数的值。由于用相关法计算的匹配结果准确率比较低，所以用RANSAC（Random Sampling Consensus）对匹配结果进行了筛选，可以准确求出摄像机运动参数。利用运动参数进行投影，然后用多帧相减并求交集，估计出每帧图像中运动物体存在的区域，最后计算得到了全景图。该方法的结果与前人得到的结果进行了比较，证明用此方法能获得质量较高的全景图。相似文献

16.

Chunk-lattices for verb reordering in Arabic–English statistical machine translation

Arianna Bisazza Daniele Pighin Marcello Federico 《Machine Translation》2012,26(1-2):85-103

Syntactic disfluencies in Arabic-to-English phrase-based SMT output are often due to incorrect verb reordering in Verb–Subject–Object sentences. As a solution, we propose a chunk-based reordering technique to automatically displace clause-initial verbs in the Arabic side of a word-aligned parallel corpus. This method is used to preprocess the training data, and to collect statistics about verb movements. From this analysis we build specific verb reordering lattices on the test sentences before decoding, and test different lattice-weighting schemes. Finally, we train a feature-rich discriminative model to predict likely verb reorderings for a given Arabic sentence. The model scores are used to prune the reordering lattice, leading to better word reordering at decoding time. The application of our reordering methods to the training and test data results in consistent improvements on the NIST-MT 2009 Arabic–English benchmark, both in terms of BLEU (+1.06%) and of reordering quality (+0.85%) measured with the Kendall Reordering Score. 相似文献

17.

从汉语格关系表示生成日语 总被引：3，自引：1，他引：3

戴新宇陈家骏王启祥《中文信息学报》2003,17(6):18-25

本文介绍了一个基于转换翻译的汉日机器翻译系统中日语生成子系统的设计和实现。文章首先描述了一种基于格关系的汉语依存分析树,分析树结点记录语法语义以及格关系信息;然后,针对日语的特征,分析了日语生成中的主要问题,包括译词选择、用言活用形确定、助词添加等;给出基于规则的日语生成系统的组织结构,重点介绍生成规则系统的设计和实现。最后,给出规则描述的实例以及翻译实例,提出进一步改进本系统的初步想法。相似文献

18.

Improving Syntactic Parsing of Chinese with Empty Element Recovery

下载免费PDF全文

周国栋李培峰《计算机科学技术学报》2013,28(6):1106-1116

This paper puts forward and explores the problem of empty element （EE） recovery in Chinese from the syntactic parsing perspective, which has been largely ignored in the literature. First, we demonstrate why EEs play a critical role in syntactic parsing of Chinese and how EEs can better benefit syntactic parsing of Chinese via re-categorization from the syntactic perspective. Then, we propose two ways to automatically recover EEs： a joint constituent parsing approach and a chunk-based dependency parsing approach. Evaluation on the Chinese TreeBank （CTB） 5.1 corpus shows that integrating EE recovery into the Charniak parser achieves a significant performance improvement of 1.29 in Fl-measure. To the best of our knowledge, this is the first close examination of EEs in syntactic parsing of Chinese, which deserves more attention in the future with regard to its specific importance. 相似文献

19.

煤矿井下巷道变形巡检视频异常检测方法

杨春雨袁晓光《工矿自动化》2021,(2)

采用智能视频巡检技术进行煤矿井下巷道变形检测时,常用的背景差分算法因要求输入图像具有良好的时空连续性而无法满足巡检视频背景建模要求。根据煤矿井下巷道变形巡检机器人匀速、定向运动及周期性采集视频数据的特点,提出一种巡检视频异常检测方法:结合巡检机器人定位信息对巡检视频分段并提取相应关键帧,采用均值哈希算法建立背景模型,对背景模型中图像进行特征跟踪以实现校正,之后将背景模型与关键帧进行差分运算,生成二值掩膜并进行去噪及连通处理后,输出异常检测结果并更新关键帧。实验结果表明,该方法在一定条件下可较准确地定位关键帧并检测出异常目标,检测速度约为50帧/s。相似文献

20.

中国人和日本人在认知日语词句时的差异比较

下载免费PDF全文

刘向阳米丽萍任福继《计算机工程与应用》2010,46(27):138-141

通过分析中国人双语者和日本人母语者视觉认知日语汉字和句子时的ERP的差异,探讨了两组对日语词句认知的特点。研究结果表明,中日两组在认知日语汉字时没有明显的差异,而在认知日语句子时存在着显著性差异,证明了两组认知含有假名的日语句子的神经机制不同。中国人对句子的认知速度慢于日本人,困难程度大于日本人。认知日语歧义句时,出现在中国人右前头叶的激活,反映了中国人对歧义句的句法再分析与右半球也相关。通过实验结果得出,对于中国人来说,日语学习的难点不是日语汉字,而是对包含有假名的句子的认知理解。从脑科学的角度为中国人双语者提高日语学习效果提供科学的学习方法,为人工智能模拟人脑的语言处理提供脑科学依据。相似文献