共查询到18条相似文献,搜索用时 296 毫秒
1.
一种面向汉英口语翻译的双语语块处理方法 总被引:3,自引:2,他引:3
基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是,要将其应用于口语翻译当中,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上,根据中、英文差异和口语翻译特性,从句法和语义两个层次提出了一种汉英双语语块概念,并对其特点进行了分析。同时,针对中、英文并行语料库,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法,对汉英句子级对齐的口语语料进行双语语块划分和对整,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明,本文提出的双语语块定义符合口语翻译的实际需要,使用基于双语语块的语料处理方法,能有效地提高口语系统的翻译性能。 相似文献
2.
提出了一种新的语块对应算法 ,该算法是建立在实词对应基础上来划分语块的 ,这样可以保证语块正确对应的同时 ,有效地避免了双语语块边界划分不一致的情况。实验结果表明 ,该算法能够获得令人满意的结果 相似文献
3.
利用浅层句法分析提取特征的词义消歧 总被引:1,自引:0,他引:1
针对如何从文本中提取高质量消歧特征的问题,提出了基于浅层句法分析的消歧特征提取算法,建立了以语块分析识别为核心的特征提取模型.该模型通过对实词类型语块识别、分析中心词语词性和虚词类型语块分析,得到多义词的消歧特征.以北京大学计算语言研究所的现代汉语基本标注语料库为基础,选取了44个多义词,通过使用最大熵消歧模型进行训练和预测实验,准确率达到了78.71%. 相似文献
4.
基于多层过滤的统计机器翻译 总被引:1,自引:0,他引:1
本文提出了一种基于多层过滤的算法。该算法主要实现从对齐的中英文句子中自动的抽取与对齐双语语块。根据不同语块具备的不同特性,采用不同的层次对其处理。该算法不同于传统的算法,它不需要对句子进行标注,句法分析,词法分析甚至不需要对汉语句子进行分词等操作。初步的实验结果表明该算法性能较好,测试的结果是:抽取语块的准确率能达到F = 0170 ,对齐语块的准确率能达到F = 0180 ;而且将此算法获得的对齐双语语块用于统计机器翻译系统,跟基于词的系统做对比,结果表明基于语块的翻译系统明显提高了翻译水平,差不多能提高10 %。 相似文献
5.
基于规则的大规模试卷文本语块识别方法的研究* 总被引:2,自引:0,他引:2
提出了一种基于规则的试卷文本语块识别方法,有效解决了试题库中大规模试题数据的初始化问题。通过定义文本语块识别规则,构建自动机识别模型,在理论上描述了试卷文本的识别过程。实验表明,该模型具有良好的性能,在此基础上,实现了一个原型系统,通过具体的应用实例验证了该方法的可行性和有效性。 相似文献
6.
文本语块识别典型方法的比较与分析 总被引:2,自引:1,他引:1
文本语块识别在自然语言处理领域具有重要作用.以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低.因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果. 相似文献
7.
高质量的自动对齐双语语块,对于机器翻译系统,特别是计算机辅助翻译系统的性能提高有重要作用,而且对于人工翻译以及辞典编纂也都有巨大的应用价值。该文提出基于单词间粘合度与松弛度的语块划分评分方法以及双语语块划分的双向约束算法,使得源语言和目标语言的语块的划分与对齐能相互促进。与传统方法相比,因为无需事先进行双语语块划分,而是在搜索最佳对齐时动态地考察划分效果,故可以减少边界划分错误对对齐结果的影响。该算法获得了远超过传统算法的高正确率。 相似文献
8.
针对军用要图自动标绘对地名识别高精度的要求,紧扣“作战文书行文规范”这一特点,将句类分析之标点准则(语句的首尾边界是首块和末块的天然首尾边界)、介词准则(汉语的语块移位标志符由介词充当)、动词准则(充当特征块的动词是其它语块的天然边界)等应用于作战文书地名识别,采用基于规则的方法加以实现,实验结果F值在88%-97%之间.因此,作为作战文书向军用要图自动转换的预处理,地名识别这一结果是可用的. 相似文献
9.
为了能比较不同方法的性能,常常希望在公共的训练集和测试集上进行语块识别。但是,用于实验的公共训练集和测试集往往规模较小而且具有领域的局限性。因而,在跨领域的真实语料情况下,语块识别的精确率有很大的下降。采用真实开放语料,设计多组实验研究不同的词性标注结果、不同领域的语料和不同的知识库对语块识别的影响,考察基于多Agent结构的分布式英语语块识别策略在实际系统中应用的可能性。实验表明,基于多Agent结构的分布式英语语块识别策略在真实开放语料下F测度达到了92%,基本能够满足实际应用的需要。 相似文献
10.
文本蕴含识别(RTE)是判断两个句子语义是否具有蕴含关系的任务.近年来英文蕴含识别研究取得了较大发展,但主要是以类型判断为主,在数据中精确定位蕴含语块的研究比较少,蕴含类型识别的解释性较低.从中文文本蕴含识别(CNLI)数据中挑选12 000个中文蕴含句对,人工标注引起蕴含现象的语块,结合语块的语言学特征分析归纳了7种具体的蕴含类型.在此基础上,将中文蕴含识别任务转化为7分类的蕴含类型识别和蕴含语块边界-类型识别任务,在深度学习模型上达到69.19%和62.09%的准确率.实验结果表明,所提出的方法可以有效发现中文蕴含语块边界及与之对应的蕴含类型,为下一步研究提供了可靠的基准方法. 相似文献
11.
为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于“移进-归约”模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。 相似文献
12.
汉语块分析评测任务设计 总被引:1,自引:0,他引:1
该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务 基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了简要分析。最后通过相关统计数据分析和国内外相关研究评述,总结了这三项评测任务的主要特色。 相似文献
13.
问句分析是自动问答系统研究中的重点和难点。在中文问句的结构特点基础上,结合机器学习及组块分析理论,对问句进行组块分析,实现了基于神经网络的问句组块识别算法,并应用于银行领域自动问答系统中。测试结果表明,对问句组块的识别能够达到比较满意的效果。 相似文献
14.
15.
16.
17.
汉语组块分析研究综述 总被引:2,自引:0,他引:2
组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中于组块分析上。该文主要对组块的定义和分类、组块识别方法、组块的标注和评测以及组块内部关系分析等几方面的研究进展进行详细的综述。最后,探讨了组块分析存在的问题并对未来的发展方向进行了展望。 相似文献
18.
基于最大熵模型的汉语问句语义组块分析 总被引:1,自引:0,他引:1
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。 相似文献