首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 25 毫秒
1.
小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结构的话题自足句,并提出了这样界定的语言学依据和认知依据。  相似文献   

2.
英汉小句对齐语料库服务于英语和汉语小句的语法结构对应关系研究和应用,对于语言理论和语言翻译(包括人的翻译和机器翻译)有重要意义。前人的语法理论和相关语料库的工作对于小句复合体和小句的界定缺乏充分研究,在理论上有缺陷,难以支持自然语言处理的应用。该文首先为英汉小句对齐语料库的建设做理论准备。从近年提出的汉语小句复合体的理论出发,该文界定了成分共享的概念,基于话头共享和引语共享来界定英语的小句和小句复合体,使小句和小句复合体具有功能的完整性和单一性。在此基础上,该文设计了英汉小句对齐的标注体系,包括英语NT小句标注和汉语译文生成及组合。语料库的标注表明,在小句复合体层面上英汉翻译涉及到的结构变换,其部件可以限制为英语小句和话头、话体,无须涉及话头和话体内部的结构。基于这些工作的英汉小句对齐语料库为语言本体研究和英汉语言对比、英汉机器翻译等应用提供了结构化的标注样本。  相似文献   

3.
汉语到维吾尔语的自动机器翻译有着重要的现实意义。目前对于汉维统计机器翻译方法的研究相对空白。该文提出了一种以维吾尔语为词干词缀粒度的汉维机器翻译方法。该方法利用维吾尔语形态分析后的词干词缀作为翻译的基本单位,并且根据其黏着语特性提出了一种基于有向图的维吾尔语“词干-词缀”语言模型。基于开放语料的实验证明我们的词干词缀翻译模型以及语言模型显著优于之前的基于词粒度的模型。  相似文献   

4.
如何有效利用篇章上下文信息一直是篇章级神经机器翻译研究领域的一大挑战。该文提出利用来源于整个篇章的层次化全局上下文来提高篇章级神经机器翻译性能。为了实现该目标,该文提出的模型分别获取当前句内单词与篇章内所有句子及单词之间的依赖关系,结合不同层次的依赖关系以获取含有层次化篇章信息的全局上下文表示。最终源语言当前句子中的每个单词都能获取其独有的综合词和句级别依赖关系的上下文。为了充分利用平行句对语料在训练中的优势,该文使用两步训练法,在句子级语料训练模型的基础上使用含有篇章信息的语料进行二次训练以获得捕获全局上下文的能力。在若干基准语料数据集上的实验表明,该文提出的模型与若干强基准模型相比取得了有意义的翻译质量提升。实验进一步表明,结合层次化篇章信息的上下文比仅使用词级别上下文更具优势。除此之外,该文还尝试通过不同方式将全局上下文与翻译模型结合并观察其对模型性能的影响,并初步探究篇章翻译中全局上下文在篇章中的分布情况。  相似文献   

5.
篇章话题结构分析是自然语言理解的前沿基础,而大规模高质量的适用于汉语篇章分析的语料资源缺乏,严重制约了相关篇章话题计算模型的研究.针对上述问题,首先研究了汉语篇章话题结构的理论表示体系.分析了主述位理论、英语修辞结构理论和宾州篇章树库体系的优势,结合汉语复句句群理论以及汉语自身特点,提出了一种基于主述位理论的汉语篇章微观话题结构表示方式,并借助微观话题链构建了汉语篇章话题结构表示体系.随后,在此基础上,采用自顶向下、后向搜索的标注策略和人机结合的语料库标注方式,构建了基于篇章微观话题表示体系的汉语篇章话题结构语料库(Chinese discourse topic corpus, CDTC).CDTC共包含500个文档,对其进行了详细统计分析并展示了语料库的标注情况.与宾州篇章树库体系、广义话题结构理论的对比表明,所提篇章微观话题结构表示体系在理论上具有一定的优越性,并且符合汉语特点;一致性检验表明CDTC能够充分体现汉语篇章话题分析问题本身的难度,并能够为相关研究提供语料资源支持.  相似文献   

6.
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务 单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。  相似文献   

7.
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。  相似文献   

8.
为进一步提升机器翻译模型的英语到汉语的翻译水平,基于迁移学习技术和双向长短时记忆网络Bi-LSTM,提出一种英汉自动翻译模型。其中,通过Gumbel-Tree-LSTM模型对基础的Bi-LSTM翻译模型进行优化,再引入迁移学习中的迁移枢轴参数的思想对模型进行进一步优化。实验结果表明,与其他翻译模型相比,设计的基于迁移学习的改进Bi-LSTM英汉翻译模型GBi-LSTM的翻译质量更好,在英法和英德两个语料库翻译测试上的BLEU评分和METEOR评分上分别达到了22.95%,36.02%,24.47%,37.18%;与各个基线模型相比,引入迁移枢轴模型参数后的各个翻译模型的翻译质量均有明显提升。以上结果表明,设计的GBi-LSTM翻译模型翻译性能优秀,能够应用于实际的英汉翻译场景,可行性较高。  相似文献   

9.
句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。目前已在人民日报语料上完成了8000个句子的小句关系标注。抽取出其中1000个句子检测了双盲标注的一致性,揭示了汉语意合性语言小句关系标注的困难;并基于标注数据对关系类型进行了定量分析,指示了汉语句际关系自动分析将面临的重点和难点。  相似文献   

10.
广义话题结构是汉语篇章中客观存在的结构形式。依据有限状态机的思想设计了识别广义话题结构的计算模型,在较大规模语料中初步检验了它的有效性,分析了该模型的空间复杂度和时间复杂度。该模型的特点是:递推控制,输出和输入以标点句为单位同步进行,无长距离回溯,有限回填,有限存储,保持词序。这些特点正是人在“话题-说明”信息的认知过程中所遵循的准则,因此该计算模型可以看作人完成这一认知过程的机械模型。  相似文献   

11.
一个基于GLR算法的英汉机器翻译浅层句法分析器   总被引:5,自引:0,他引:5  
浅层句法分析是指短语级的自然语言句法分析。在研制MatLink英汉机器翻译系统的过程中,提出了扩充的CFG文法用于描述英语短语句法,并改进了GLR算法,设计实现了用于英汉翻译的英语浅层句法分析器。该分析器采用多出口的分析表结构,引入符号映射函数实现短语边界的自动识别,用孩子兄弟树描述短语的句法结构,并通过短语转换模式实现源语言向目标语言的短语级转换。最后,通过对一个实例句子的分析阐述了该浅层句法分析器的设计思想和工作过程。  相似文献   

12.
为了提高英汉翻译系统的翻译精度,提出一种基于人机交互和特征提取的英汉翻译系统模型。首先,为了实现翻译特征语境特征的提取,通过特征提取算法提取语义翻译语境矩阵和非语义翻译语境矩阵;其次,为度量同一翻译环境下的两个语义向量之间的相似度,选择余弦相似度函数计算翻译相似度。将翻译相似度引入英汉翻译系统模型,通过比较两个语义向量之间的翻译相似度实现英汉之间的翻译。与SOA、SCA和SLA对比可知,基于人机交互和特征提取的英汉翻译具有更高的准确率、精确率和召回率,为英语翻译提供新的方法和途径。  相似文献   

13.
为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。  相似文献   

14.
We report experimental results on automatic extraction of an English-Chinese translation lexicon, by statistical analysis of a large parallel corpus, using limited amounts of linguistic knowledge. To our knowledge, these are the first empirical results of the kind between an Indo-European and non-Indo-European language for any significant vocabulary and corpus size. The learned vocabulary size is about 6,500 English words, achieving translation precision in the 86–96% range, with alignment proceeding at paragraph, sentence, and word levels. Specifically, we report (1) progress on the HKUST English-Chinese Parallel Bilingual Corpus, (2) experiments supporting the usefulness of restricted lexical cues for statistical paragraph and sentence alignment, and (3) experiments that question the role of hand-derived monolingual lexicons for automatic word translation acquisition. Using a hand-derived monolingual lexicon, the learned translation lexicon averages 2.33 Chinese translations per English entry, with a manually-filtered precision of 95.1%, and an automatically-filtered weighted precision of 86.0%. We then introduce a fully automatic two-stage statistical methodology that is able to learn translations for collocations. A statistically-learned monolingual Chinese lexicon is first used to segment the Chinese text, before applying bilingual training to produce 6,429 English entries with 2.25 Chinese translations per entry. This method improves the manually-filtered precision to 96.0% and the automatically-filtered weighted precision to 91.0%, an error rate reduction of 35.7% from using a hand-derived monolingual lexicon.  相似文献   

15.
李玉鉴 《计算机科学》2004,31(5):172-175
本文提出了一种新的机器翻译方法,即基于UAMRT的机器翻译。该方法的基本思想非常简单:首先设计模板匹配替换通用算法UAMRT,然后利用UAMRT匹配句子中的源语言模板,并将其替换为相应的目标语言模板,从而实现对句子的翻译。在结合句型分析算法和从句分析算法的基础上,利用启发式搜索机制进一步提高了句子的翻译速度和质量。速度测试表明用该方法实现的英汉翻译系统在P-IV1.7G的计算机上翻译速度每秒可以达到1300个单词左右;质量测试表明该系统的性能在开发过程中仅仅通过增加更多的模板就会变得越来越好,而且在应用时与几种商用系统相比可以达到中等水平。  相似文献   

16.
随着互联网的扩展,网络上出现了越来越多的含有观点信息的主观性评论文本。挖掘这些文本中的情感词语并进行极性判别具有重要的现实意义和商业价值。为此,提出一种基于翻译方法的情感词提取方法,使用汉英机器翻译系统翻译汉语种子情感词典生成候选英语词语,根据WordNet提取候选英语词语的上下位词、同义词或反义词并将这些词语翻译成汉语,进而提取汉语情感词语。另外,依据SentiWordNet判别候选英语词语极性,并将候选英语词语极性映射到目标汉语情感词语上,进而达到判别汉语情感词语极性的目的。实验结果表明上述方法可以有效提高情感词的识别效率以及极性判别的准确率。  相似文献   

17.
基于目标语词汇组合合理性评价的译文选择模型   总被引:1,自引:0,他引:1  
机器翻译使用计算机实现自然语言的翻译功能,是计算机技术在语言学领域的新兴应用和研究,其中,源语言词汇的译文选择直接决定机器翻译的质量,是人们关注的难题,基于目标语词汇组合合理性评价的模糊分类模型试图以语言学和模糊数学为理论基础,尝试解决歧义词的译文选择问题,将该模型用于英汉机器翻译系统的译文选择实验,具有良好的译文选择性能,它的优势还在于可以同时为全句范围内的所有歧义词选择译文,因此适用于机器翻译的大规模开发任务。  相似文献   

18.
该文利用搜索引擎从网络中挖掘英语人名的中文翻译。该方法综合利用翻译辅助词、英中人名共现规则、音译相似度和翻译概率。首先,利用搜索引擎从互联网上搜索英文人名的中文翻译候选。把汉语人名标注结果、翻译辅助词、英中人名共现规则和英文人名的发音音节长度结合起来提取翻译候选词。翻译辅助词有助于搜索与英文人名更相关的信息,英中人名共现规则和发音音节长度进一步缩小英文人名的翻译范围,使得英文人名的翻译搜索符合人名共现规律和发音规律。然后,根据音译相似度和翻译概率对候选词进行排序。人名翻译的绝大部分是根据发音翻译过来的,音译相似度是帮助判断两个词在发音上的相似性。翻译概率从统计上判断两个词互为翻译的可能性。实验结果表明,翻译辅助词、规则、音译相似度和翻译概率都有助于提高人名翻译的正确率。  相似文献   

19.
多策略汉日机器翻译系统中的核心技术研究   总被引:1,自引:0,他引:1  
多策略的机器翻译是当今机器翻译系统的一个发展方向。该文论述了一个多策略的汉日机器翻译系统中各翻译核心子系统所使用的核心技术和算法,其中包含了使用词法分析、句法分析和语义角色标注的汉语分析子系统、利用双重索引技术的基于翻译记忆技术的机器翻译子系统、以句法树片段为模板的基于实例模式的机器翻译子系统以及综合了配价模式和断段分析的机器翻译子系统。翻译记忆子系统的测试结果表明其具有高效的特性;实例模式子系统在1 559个句子的封闭测试中达到99%的准确率,在1 500个句子的开放测试中达到85%的准确率;配价模式子系统在3 059个句子的测试中达到了89%的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号