期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于双语对齐口语语料的翻译词典的自动生成 总被引：2，自引：0，他引：2

陈博兴杜利民《计算机学报》2003,26(3):275-280

提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法，首先利用释义词典过渡双语文本，得到“过滤词典”，继而通过统计共现概率，计算出所有词对的相互关联值，并且生成“汉英（英汉）相互关联值表”，对于每个源语词汇选取相互关联值最大的若干项目标误作为候选词对，分别赋予信任值1，然后统计每个候选词对人信任值作为翻译词典的分级标准，得到4个不同级别的词典，其中“过滤词典＋4级词典”在召回率为93．5％的情况下，正确率达到93．389％。相似文献

2.

EBMT系统中的多词单元翻译词典获取研究 总被引：2，自引：0，他引：2

程洁杜利民《中文信息学报》2004,18(1):56-62

EBMT系统是一种基于语料库的机器翻译方法,其主要思想是通过类比原理进行翻译。如何从语料库中提取出一个实用的翻译词典进行系统的辅助翻译已经越来越多的引起关注。本文探讨了如何结合阈值和关联度提取的方法获取多词单元翻译词典,在这两种方法中,阈值提取受主观影响太大,关联值提取效率太低,都不能很好的满足翻译词典提取的要求。本文提出的算法利用阈值提取出备选多词单元,其中提出了四点规则弱化主观影响且保证全面覆盖所有多词单元,降低了阈值本身所带来的不精确度的影响,然后对计算结果进行三层过滤,进一步提高了准确率;该算法还合并了单词译成多词单元和多词单元互译两部分词典的提取,提高了工作效率。相似文献

3.

多策略英汉词对齐方法的研究

周蓝海蔡东风《计算机工程与设计》2009,30(17)

词对齐技术在机器翻译,特别是在统计机器翻译中起着重要作用.词形、语义、句法的多样性和灵活性,未登陆词及分词错误等不利因素,直接或间接影响了词对齐的质量.多策略英汉词对齐方法,融合了基于词典、GIZA++以及基于知网的词对齐方法.通过对双语语料和多策略对齐结果的分析,利用集合形式的运算指导词对齐的消歧过程.实验结果表明,该方法在对齐结果上F值较IBM模型提高近10%,达到了85.07%,对齐错误率降低10%.该方法根据不同算法对齐结果的可靠性和相容性,实现了各种算法的优势互补. 相似文献

4.

基于自动抽取词汇信息的双语句子对齐 总被引：9，自引：0，他引：9

刘昕周明朱胜火黄昌宁《计算机学报》1998,21(Z1):151-158

双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度. 相似文献

5.

面向小词典的高效英汉双语语料对齐算法 总被引：1，自引：0，他引：1

下载免费PDF全文

熊伟陈蓉刘佳徐淼于中华《计算机工程》2007,33(13):210-212

双语语料自动对齐是自然语言处理的一个重要研究课题。该文针对基于词典译文的英汉句子对齐算法存在的缺点，提出了面向小词典的高效英汉句子对齐算法，该算法在小词典的情况下仍具有较高的准确率，效率比传统算法提高近一倍。通过理论分析、对比实验可知，该算法是有效的。相似文献

6.

基于语义相似度并运用语言学知识进行双语语句词对齐 总被引：1，自引：0，他引：1

晋薇黄河燕夏云庆《计算机科学》2002,29(11):44-47

一、引言自八十年代以来,基于统计(Statistics-Based)和基于实例(Example-Based)方法的出现及其广泛应用给机器翻译的研究工作注入了新的活力,标志着机器翻译进入了一个新时期。这两种方法共同的特点是:都需要一个双语语料库(Bilin-gual Corpora)直接或间接地作为翻译的知识库。这种双语语料库中包含了原文和译文相互对应的语言信息,是支持机器翻译的最为宝贵的资源。双语语料比单语种提供了更多的信息。在近些年里,在对篇章、段落、句子对齐进行了大量的研究之后,许多工作已经相似文献

7.

高正确率的双语语块对齐算法研究

俞敬松王惠临吴胜兰《中文信息学报》2015,29(1):67-74

高质量的自动对齐双语语块,对于机器翻译系统,特别是计算机辅助翻译系统的性能提高有重要作用,而且对于人工翻译以及辞典编纂也都有巨大的应用价值。该文提出基于单词间粘合度与松弛度的语块划分评分方法以及双语语块划分的双向约束算法,使得源语言和目标语言的语块的划分与对齐能相互促进。与传统方法相比,因为无需事先进行双语语块划分,而是在搜索最佳对齐时动态地考察划分效果,故可以减少边界划分错误对对齐结果的影响。该算法获得了远超过传统算法的高正确率。相似文献

8.

基于平行语料和翻译概率的多语种词对齐方法

杨飞扬赵亚慧崔荣一易志伟《中文信息学报》2019,33(12):37-44

为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。相似文献

9.

基于统计和词典方法相结合的韩汉双语语料库名词短语对齐

凌天斌毕玉德《中文信息学报》2018,32(8):27-31

韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。相似文献

10.

无双语词典的英汉词对齐 总被引：7，自引：0，他引：7

吕学强吴宏林姚天顺《计算机学报》2004,27(8):1036-1045

该文提出了一种基于语料库的无双语词典的英汉词对齐模型．它把自然语言的句子形式化地表示为集合,通过集合的交运算和差运算实现单词对齐,同时还考虑了词序和重复词的影响．该模型不仅能对齐高频单词,而且能对齐低频单词,对未登录词和汉语分词错误具有兼容能力．该模型几乎不需要任何语言学知识和语言学资源,使语料库方法可独立应用．实验表明,同质语料规模越大．词对齐的正确率和召回率越高．相似文献

11.

基于“相同与差异”的机译单元的自动提取研究

陈博兴杜利民《中文信息学报》2003,17(3):35-41

从双语语料库中提取的机译单元能更好地覆盖真实语言文本,本文提供了一个通过找出两个双语句对之间非全部为高频功能词的“相同和差异”部分,并且利用翻译词典和动态规划算法对齐“相同和差异”部分来获取机译单元的算法。对于获取的候选机译单元,本算法设计了三个过滤器来考察其正确性:双语词串相似度过滤考察其语义对应性,词性相似度过滤考察其语法对应性,首尾禁用词过滤考察其搭配正确性。通过抽样检验,最后提取的机译单元的正确率为86% ,召回率约为61.34% ,该算法对于获取机译单元提供了一种新的实用的方法。相似文献

12.

新闻领域双语语料建设与句子对齐方法的研究

林哲辉贾剑锋郭文《电脑与信息技术》2008,16(1):5-7

双语对齐的平行语料库在机器翻译和自然语言处理领域中扮演着非常重要的角色,它的研究和制作具有重要的理论意义和实用价值,双语语料的建设十分必要,其中双语对齐是最基本的环节.文章首先简要介绍了语料库的建设情况,然后结合主流的句子对齐方法提出并实现了基于词典和语言学信息的英汉双语句子对齐. 相似文献

13.

双语知识库中关联实例的多策略提取机制

张桂平姚天顺尹宝生蔡东风宋彦《中文信息学报》2007,21(3):34-39

双语库是翻译记忆系统最重要的组成部分之一。从有限规模的双语库中提取更多的符合用户当前翻译需要的关联实例是翻译记忆技术研究的主要内容,本文首先对当前基于单一方法的实例检索算法存在的局限性进行了分析,并在对双语库进行知识化表示的基础上,提出了基于多策略的关联实例提取机制,即综合运用句子句法结构匹配、句子编辑距离计算、句子短语片段匹配、词汇语义泛化、基于扩展信息(如: 句子来源、所属专业、应用频度等信息)的优选等策略进行关联实例提取。试验结果表明,该方法有效提高了关联实例的召回数量和质量,明显改善了对用户的辅助效果。相似文献