共查询到18条相似文献,搜索用时 109 毫秒
1.
回指研究一直是语言学研究的一个热点,回指解析则是文本信息处理中亟待解决的问题之一。传统语言学从句法、语用、篇章、认知角度出发对汉语零形回指进行了广泛的研究。在自然语言处理领域,针对汉语零形回指也有一些颇有影响的研究,如基于向心理论的零形回指解析算法,基于HNC理论的零形回指处理方法,以及基于DRT理论和语义分析等方法提出的汉语零形回指解析方法。该文从语言学角度对这些理论研究进行介绍,旨在指出语言信息工作者在注重工程实践的同时,应关注并借鉴语言学基础理论研究的成果,而从事中文信息处理的语言学家也应加强语言形式化的研究。 相似文献
2.
3.
汉语篇章中时间信息的分析及其在英语译文中的再现是汉英机器翻译的一个难点,本文首先提出了一种汉语篇章分析方法,然后建立了一个汉语篇章时间信息系统模型,并在汉英机器翻译中进行了实现工作。 相似文献
4.
受限汉语与汉英机器翻译系统 总被引:2,自引:0,他引:2
随着进入全球化的经济时代,对机器翻译的市场需求也正在急剧增长.传统的机器翻译依然只能作为一种辅助翻译工具.如果坚持对汉语的真实文本进行机器翻译路线,则不可能使汉英机器翻译质量取得实质性的突破.从计算机技术在自然语言信息处理领域的实际能力出发,开发面向受限汉语的汉英机器翻译系统,是机器翻译技术未来发展的基本方向. 相似文献
5.
随着进入全球化的经济时代,对机器翻译的市场需求也正在急剧增长.传统的机器翻译依然只能作为一种辅助翻译工具.如果坚持对汉语的真实文本进行机器翻译路线,则不可能使汉英机器翻译质量取得实质性的突破.从计算机技术在自然语言信息处理领域的实际能力出发,开发面向受限汉语的汉英机器翻译系统,是机器翻译技术未来发展的基本方向. 相似文献
6.
7.
机器词典的信息表示及在汉英机器翻译中的实现 总被引:3,自引:1,他引:2
在这篇文章中, 我们强调了机器词典对于机器翻译等自然语言处理系统的重要意义高质量的机器词典需要花费巨大的劳动词典知识来源于语言学研究和计算语言学的工程实践, 其编撰标准、信息表示及编码等均应考虑工程实现的效果本文结合作者正在研制的汉英机器翻译系统, 介绍了机译词典的有关实现问题, 并讨论了词典知识在汉语分析和汉英转换中的作用 相似文献
8.
人称代词处于一切自然语言的词汇核心层,机器翻译对其处理是否得当影响极大。本文运用对比分析的方法,揭示英汉人称代词的异同,同时针对机器翻译对人称代词处理的不足,提出解决问题的途径。 相似文献
9.
文中针对一种特殊的语言现象(HNC称为包装句蜕)进行了分析,目的是为机器翻译提供一些理论支持。首先从目前机器翻译系统所暴露的问题中提出研究包装句蜕的必要性,然后是对包装句蜕进行语言学描述及汉英对比分析,从可计算的角度提出了包装句蜕的判别方法,最后是包装句蜕的机器处理策略及规则。 相似文献
10.
11.
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根据零元素对应的先行词的状况将指代关系分成实体类、事件类、组合类和其他等4类;最后,基于篇章视角的汉语零指代表示体系,选取汉语树库CTB、连接词驱动的汉语篇章树库CDTB和OntoNotes语料中重叠的325篇文本进行了汉语零指代的标注,构建了服务于篇章分析的汉语零指代语料库.一方面,借助系统检测来说明所提出的表示体系合理有效,构造的语料库质量上乘;另一方面构建了完整的汉语零指代消解基准平台,从可计算的角度验证了所构建的汉语零指代语料库能够为篇章视角的汉语零指代研究提供必要的支撑. 相似文献
12.
中文零指代消解问题包括零指代项的识别和零指代项的消解2个相互关联的子任务. 传统的方法在解决该问题时,往往不考虑2个子任务间的关联关系,比如识别出的零指代项必须被消解以及发生消解的必须是零指代项等约束. 基于马尔可夫逻辑网络模型可以将零指代项的识别和零指代项的消解2个子任务融合在统一的机器学习框架下进行联合推断与联合学习,采用局部规则分别针对零指代项的识别和消解进行预测,采用全局规则描述这2个子任务间的关联关系. 基于OntoNotes3.0的中文数据集上的实验结果显示,基于马尔可夫逻辑网络的联合学习模型相比于独立学习模型以及多个baseline方法能够获得更好的实验效果. 相似文献
13.
基于词类串的汉语句子结构相似度计算方法 总被引:9,自引:1,他引:9
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。 相似文献
14.
基于长度的扩展方法的汉英句子对齐 总被引:7,自引:4,他引:7
本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注,而且在统计方法中引入了关键词信息,以提高句子对齐的正确率。本文中所用的双语语料是LDC 的关于香港的双语新闻报道。动态规划算法用于系统的实现。和单纯的基于长度的方法和词汇方法相比,我们的扩展方法提高了句子对齐的正确率,并且结果是比较理想的。 相似文献
15.
古代中文诗歌的巅峰——中文格律诗,包括律诗和绝句,是中国古典诗词的奇葩。该文从已有的古今名诗中自动学习作诗知识,实现了一个中文格律诗的自动生成系统。该系统接收用户选择的表达其思路的若干个关键词作为输入,首先,利用相关词汇数据库和语言模型,实现了根据用户选定的关键词自动生成诗歌的第一句。其次,我们独创性地将格律诗的上下句关系映射为源语言到目标语言的翻译关系,设计了一个基于短语的统计机器翻译模型,从而把诗歌的第N-1句作为输入用以生成第N句。并提供了一个用户交互式的系统,使得用户可以在每一步都选择一个最佳诗句。最后,我们还精心设计了一套翔实的格律诗评测标准,并通过单句实验和全诗实验证明,该方法是诗歌产生的一个较好的方法。 相似文献
16.
OpenE:一种基于n-gram共现的自动机器翻译评测方法 总被引:5,自引:0,他引:5
在机器翻译研究领域中,评测工作发挥着重要的作用,它不仅仅是简单地对各个系统输出结果进行比较,它还对关键技术的发展起到了促进作用。译文质量的评测工作长期以来一直以人工的方式进行。随着机器翻译研究发展的需要,自动的译文评测研究已经成为机器翻译研究中的一个重要课题。本文讨论了基于n-gram共现的自动机器翻译评测框架,介绍了BLEU、NIST、OpenE三种自动评价方法,并通过实验详细分析了三种方法的优缺点。其中的OpenE采用了本文提出了一种新的片断信息量计算方法。它有效地利用了一个局部语料库(参考译文库)和全局语料库(目标语句子库)。实验结果表明这种方法对于机器翻译评价来说是比较有效的。 相似文献
17.
格式在HNC理论中是指广义作用句各主语块位置的不同排列组合方式。由于主语块的排列方式在汉英两种语言中表达的差异,汉语句子翻译到英语时常常发生格式转换。格式转换是HNC机器翻译理论的一个重要内容,是机器翻译理论实践的基础和前提。以HNC机器翻译理论为指导,以真实文本的专利文献汉英句对为分析对象,研究专利机器翻译中汉英两种语言之间广义作用句的格式转换规律,制定了排除规则、识别规则和转换规则,对部分规则进行了人工评测,结果表明准确率能达到85%左右。 相似文献
18.
Semantic Inference for Anaphora Resolution: Toward a Framework in Machine Translation 总被引:1,自引:0,他引:1
Anaphora is a discourse-level linguistic phenomenon.There is consensus that anaphora resolution shouldrely on prior sentences within the context of thediscourse. We propose to cast anaphora resolution asa semantic inference process in which a combination ofmultiple strategies, each exploiting different aspectsof linguistic knowledge, is employed to provide acoherent resolution of anaphora. A framework whichencompasses several salient linguistic parameters suchas grammatical role, proximity, repetition, sentencerecency and semantic cues is demonstrated. This workalso shows how an anaphora-resolution algorithm can beembedded within a framework which captures all theabove salient parameters, as well as remedies some ofthe inadequacies found in any monolithic resolutionsystem. A language-neutral semantic representationcharacterized by semantic cues is presented in orderto capture the distilled information after resolution.The effectiveness of the language-neutralrepresentation, both for machine translation andanaphora resolution, is demonstrated through a set ofsimulations and evaluations. 相似文献