首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 98 毫秒
1.
2.
缪建明  张全 《计算机科学》2006,33(12):145-147
主谓谓语句是汉语特有的语言现象,主谓结构做谓语的格式也是汉语最常见、最重要的句式,也是汉语区别于印欧语的重要句式之一。现代汉语语法对这种特殊句式进行了深入的研究,在语法、语义等方面取得了长足进展。本文尝试在HNC理论的总体框架下,对这一特殊句式展开全面、系统的解释,并从计算语言学的角度形成特有的处理规则,便于计算机在原始语料中发现这类语句,最终形成针对主谓谓语句的专家处理系统。  相似文献   

3.
缪建明  张全 《计算机科学》2006,33(5):173-177
为了适应语言中惯常出现的SVO表达语序,HNC理论对原有语句格式代码表(98版)进行了大幅度的调整,重点是重新界定基本格式的范围,扩充基本格式代码,使所有SVO语序的表达都可以用基本格式表示。同时,为了便于计算机处理和人类专家使用,新格式代码对代码中的每一数字都做了更加细致的约定,可以直接从代码得到具体的格式信息,而不用查阅格式代码表。本文详细说明了新版格式代码的设计思路及其带来的新变化,指出了新版格式代码与98版格式代码表的不同。  相似文献   

4.
格式在HNC理论中是指广义作用句各主语块位置的不同排列组合方式。由于主语块的排列方式在汉英两种语言中表达的差异,汉语句子翻译到英语时常常发生格式转换。格式转换是HNC机器翻译理论的一个重要内容,是机器翻译理论实践的基础和前提。以HNC机器翻译理论为指导,以真实文本的专利文献汉英句对为分析对象,研究专利机器翻译中汉英两种语言之间广义作用句的格式转换规律,制定了排除规则、识别规则和转换规则,对部分规则进行了人工评测,结果表明准确率能达到85%左右。  相似文献   

5.
李颖 《计算机应用》2004,24(6):137-141
文中针对一种特殊的语言现象(HNC称为包装句蜕)进行了分析,目的是为机器翻译提供一些理论支持。首先从目前机器翻译系统所暴露的问题中提出研究包装句蜕的必要性,然后是对包装句蜕进行语言学描述及汉英对比分析,从可计算的角度提出了包装句蜕的判别方法,最后是包装句蜕的机器处理策略及规则。  相似文献   

6.
王宇  王芳 《计算机应用研究》2020,37(6):1769-1773
社区问答系统中充斥着大量的噪声,给用户检索信息造成麻烦,以往的问句检索模型大多集中在词语层面。针对以上问题构建句子层面的问句检索模型。新模型基于概念层次网络(hierarchincal network of concept,HNC)理论当中的句类知识,从句子的语用、语法和语义三个层面计算问句间相似度。通过问句分类算法确定查询问句和候选问句的问句类别,得到问句间的语用相似度,利用句类表达式的结构和语义块组成分别计算问句间的语法及语义相似度。在真实数据集上的实验表明,基于HNC句类的新模型提高了问句检索结果的准确性。  相似文献   

7.
缪建明  张全 《计算机科学》2009,36(8):193-195
广义作用句和广义效应句的划分是作用效应链思想在句类体系中的体现.这一划分是对自然语言语句的一个最基本的分类.如果结合信息检索中采取的统计学办法,在检索结果的基础上进行二次精筛选,则提供给查询用户的结果必将更符合实际需求,能更有效提高信息检索的正确率.从人为数据统计结果来看,这一思路有效地把统计方·法和基本规则方法结合起来,提高了信息检索的检索准确率.  相似文献   

8.
基于句类向量空间模型的自动文本分类研究   总被引:2,自引:0,他引:2       下载免费PDF全文
张运良  张全 《计算机工程》2007,33(22):45-47
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。  相似文献   

9.
句类分析系统是HNC语言理解技术的重要支柱。为了减轻句类分析系统的计算强度,利用语言学研究的丰富成果,我们在专家系统及HNC小专家系统基础上,提出微型专家系统的概念及相关的开发和管理方法,并用实例说明了微型专家系统的具体建设过程。微型专家系统在保持HNC句类分析系统整体考虑的前提下,充分结合广大学者的长期的、分散的研究成果,有利于HNC句类分析系统的整体处理性能的提高。  相似文献   

10.
专利文献的自动翻译是机器翻译的一个重要应用领域,复杂长句的翻译是汉英机器翻译的难点。本研究期望找出汉英复杂长句中小句变换的形式化转换规则。汉语复杂长句中会包含多个小句,这些小句都是独立存在的,但翻译成英语时,一般只有一个核一心小句,其他小句都变换成doing、todo、从句或短语等其它形式。文中以1300句汉英双语专利文献语料为研究对象,对汉语中的小句翻译为英语的变换情况进行分类研究,从小句句间关系、共享关系的角度出发,描述激活特征,并按五种变换方式分类,提出了十二条变换规则,小规模语料实验结果证明规则可行有效。下一步工作需要扩充研究语料,对语料进行更深入的挖掘和分析,在更大规模语料中验证规则的实用性。  相似文献   

11.
基于长度的扩展方法的汉英句子对齐   总被引:7,自引:4,他引:7  
本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注,而且在统计方法中引入了关键词信息,以提高句子对齐的正确率。本文中所用的双语语料是LDC 的关于香港的双语新闻报道。动态规划算法用于系统的实现。和单纯的基于长度的方法和词汇方法相比,我们的扩展方法提高了句子对齐的正确率,并且结果是比较理想的。  相似文献   

12.
汉语中的零形回指及其在汉英机器翻译中的处理对策   总被引:5,自引:0,他引:5  
回指是语篇衔接的重要手段,零形回指是汉语中常见的一种回指形式。由于汉语、英语是不同类型的语言,因此零形回指对汉英机器翻译会产生一定的影响。本文详细分析了汉语零形回指的确认、类型、产生的原因及使用的条件,指出其对汉英机器翻译造成的主要障碍是生成的英语句子在结构上不合语法,并提出在句组层面上解决问题的算法。  相似文献   

13.
基于词类串的汉语句子结构相似度计算方法   总被引:9,自引:1,他引:9  
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。  相似文献   

14.
一种面向汉英口语翻译的双语语块处理方法   总被引:3,自引:2,他引:3  
基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是,要将其应用于口语翻译当中,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上,根据中、英文差异和口语翻译特性,从句法和语义两个层次提出了一种汉英双语语块概念,并对其特点进行了分析。同时,针对中、英文并行语料库,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法,对汉英句子级对齐的口语语料进行双语语块划分和对整,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明,本文提出的双语语块定义符合口语翻译的实际需要,使用基于双语语块的语料处理方法,能有效地提高口语系统的翻译性能。  相似文献   

15.
SC文法功能体系   总被引:18,自引:0,他引:18  
陈肇雄 《计算机学报》1992,15(11):801-808
文法体系的研究一直是自然语言处理研究的核心问题之一.但是,由于自然语言本身所固有的复杂性和非规范性,多义问题始终未能得到圆满的解决.本文提出了SC文法(A SubCategory grammar for integrating Se-mantic and Case analysis),它是一种基于传统的上下文无关文法、语义文法,以及超前与反馈分析技术和格框架约束分析等技术的上下文相关处理文法.该文法不仅能继承传统的上下文无关文法的表示简洁、处理方便的特点,而且能实现语法和语义一体化分析和处理上下文相关以及复杂多义问题.  相似文献   

16.
动词次范畴是根据句法行为对动词的进一步划分,它是由核心动词和一系列论元组成。其相关研究在英汉等多种语言方面都取得了较好的成果,但跨语言之间的研究还很少。该文提出了一种基于主动学习策略的英汉动词次范畴论元对应关系自动获取方法,这种方法可以在双语平行语料上,几乎不需要任何先验的语言学知识的情况下,自动获取英汉论元的对应关系。然后我们将这些对应关系加入了统计机器翻译系统。实验结果表明,融合了英汉动词次范畴论元对应关系的SMT系统在性能上有明显的提升,证明了自动抽取的对应关系的有效性,也为SMT提供了新的研究方向。  相似文献   

17.
针对专利文本翻译中长句翻译的问题,提出了一种句子切分算法,即把长句切分成多个独立的小句后再进行翻译的方法。切分算法使用了概念层次网络(HNC)理论的语义特征来切分小句,切分算法和一个基于规则的基线翻译系统进行了融合,融合后的翻译系统的BLEU值达到0189 8,比融合前的系统提高了30%。实验结果证明,提出的方法可以有效地改进专利翻译效果。  相似文献   

18.
现代汉语中基本否定词“不”以及扩充词“从不”、“很不”、“不能”、“不会”等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句,否定词的管辖判断也涉及到扩充的否定词。跨标否定词跨标点句管辖的判断和否定词共享问题是整个跨标点句句法共享问题的一个重要组成部分。本文从形式上找到了一些否定词跨标点句的共享规律,即着重从形式角度讨论了否定词跨标点句的辖域问题,对现代汉语长句句法分析有重要作用,并对汉外机器翻译有实用价值。  相似文献   

19.
日汉机器翻译系统中的多Agent研究   总被引:1,自引:2,他引:1  
机器翻译系统提高译文质量是一个关键性的难题。本文探讨如何在多方法的机器翻译系统中引入多Agent组织结构,并提出一种多层次多Agent组织结构 - 类工程组织结构,使用登记表通讯策略。该组织结构应用在多翻译方法的日汉MTS中,使翻译质量有了较大的改善。  相似文献   

20.
机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术。本文结合863 项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号