首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
基于译文的英汉双语句子自动对齐   总被引:5,自引:0,他引:5  
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题。目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来。根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规则算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错  相似文献   

2.
基于译文的英汉双语句子自动对齐   总被引:1,自引:0,他引:1  
本文利用英汉互译译文间的内在联系,提出了基于译文的方法,通过使用一部翻译较完整的词典作为桥梁,将英汉句子间的对应关系连结起来,根据英语文本中的单词,在词典中找其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况。并且普遍适用于任何文本,它大大地提高了对齐的精度,其效果是令人满意的。  相似文献   

3.
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来.根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对.实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况,它大大地提高了对齐的精度,其效果是令人满意的.  相似文献   

4.
双语语料对齐是自然语言处理的一个重要研究课题。对双语平行语料库的研究工作主要有构建、对齐和标注等方面,其中研究不同级别的对齐技术是一个重要的中心课题,对齐不仅是进一步利用平行语料库获取一些语言知识的必要前提.也是机器翻译系统利用双语知识的重要前期处理。重点介绍典型的句子对齐方法,并总结出每种方法的优缺点,具体分析了汉维双语句子对齐的方法。  相似文献   

5.
一种汉英双语句子自动对齐算法   总被引:2,自引:0,他引:2  
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作(诸如机器辅助翻译)的进行.基于汉英双语的实际情况,提出了一种新的句子对齐混合算法,该算法主要采用一种新的基于长度的对齐算法,并结合基于词典的对齐算法,通过正反双向对齐,进一步提高了句子对齐的准确率.最后通过100个文件,5000多句英汉双语对该算法进行了验证,从对齐效果可以发现,结果比较理想,因而可以证明,该算法在实际工作中是可行的.  相似文献   

6.
双语对齐是自然语言处理研究的重要课题之一,结合基于句子长度和基于词典的两种经典的对齐算法,通过段内寻找锚点的算法对双语互译文本进行划分,实现了双语句子对齐,为双语语料库的建设提供了工具,并为双语教学词典的编纂做了基础性工作.  相似文献   

7.
基于长度的扩展方法的汉英句子对齐   总被引:7,自引:4,他引:7  
本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注,而且在统计方法中引入了关键词信息,以提高句子对齐的正确率。本文中所用的双语语料是LDC 的关于香港的双语新闻报道。动态规划算法用于系统的实现。和单纯的基于长度的方法和词汇方法相比,我们的扩展方法提高了句子对齐的正确率,并且结果是比较理想的。  相似文献   

8.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。基于汉藏双语的实际情况,提出了一种利用句子长度、相似度和锚点信息的汉藏双语句子对齐方法,该方法用相似度找到句子的锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。通过测试数据进行的实验结果显示,这种方法有着良好的准确率,有效地解决了汉藏双语真实文本的句子对齐问题。  相似文献   

9.
基于双语对齐口语语料的翻译词典的自动生成   总被引:2,自引:0,他引:2  
提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法,首先利用释义词典过渡双语文本,得到“过滤词典”,继而通过统计共现概率,计算出所有词对的相互关联值,并且生成“汉英(英汉)相互关联值表”,对于每个源语词汇选取相互关联值最大的若干项目标误作为候选词对,分别赋予信任值1,然后统计每个候选词对人信任值作为翻译词典的分级标准,得到4个不同级别的词典,其中“过滤词典+4级词典”在召回率为93.5%的情况下,正确率达到93.389%。  相似文献   

10.
基于实例的机器翻译系统需要双语句对的支持。为大量获取双语句对,则需要以篇章对齐的双语文本为输入,实现句子的自动对齐。通过分析汉英双语法律文本的特征,提出了法律文本对齐假设。首先识别出法规源文和译文中的结构标识和句子,然后在句子一级对齐法律文本。该方法在150篇汉英法律文本语料上,取得了80.98%的对齐准确率。  相似文献   

11.
匹配树和决策树方法识别英语句子中的BaseNP   总被引:1,自引:1,他引:1  
提出了语料库和机器学习相结合的方法识别英语句子中的简单的、非递归的名词短语(BaseNP),在含有词性标注和BaseNP边界标注的训练语料中,抽取所有不同类型BaseNP短语对应的词性序列(BaseNP规则),通过规则排序和语方学知识,对其中正确率低且明显不符合语法的规则进行剔除,在识别时,采取规则匹配树的方法进行最大长度匹配,通过归纳机器学习C4.5自满引入上下文信息,由C4.5算法学习出有效(  相似文献   

12.
在分布式集群系统中,数据根据划分算法存储在集群的各个节点,这为涉及大量连接操作的复杂查询带来了昂贵的网络开销。针对该问题,基于信息网模型INM(Information Network Mode),提出最小通信量查询划分算法和多目标查询优化算法。其中查询划分算法将复杂查询划分成多个PWOC(parallelizable without communication)子查询,所有子查询可近似无通信地并行执行。多目标优化算法将子查询作为查询计划的基本操作,并将并行性和通信代价同时作为驱动目标,以传统多目标加权算法结合贪心策略作为评估依据生成查询计划树。最后,系统基于TPC-H基准生成测试数据,将原始算法与优化算法进行了对比实验,结果表明优化算法可以极大提高复杂查询的效率。  相似文献   

13.
并发定位的双头镜像磁盘的调度算法   总被引:2,自引:1,他引:2  
秦啸  庞丽萍  韩宗芬 《计算机学报》1998,21(12):1119-1124
本文建立了双头镜像磁盘系统的模型,提出双头镜像磁盘系统中并发定位操作的思想,然后给出并发定位磁盘调度算法。在阐述了模拟模型后,对并发定位调度算法及串行定位调度算法进行了性能模拟。从模拟结果中定量分析出并发定位调度的性能优于串行定位调度,并发定位调度算法使系统性能有很大的提高。文献[5]认为系统的寻道时间不受I/O请求到达率λ的影响,但本文的实验表明,采用了并发调度算法,I/O请求到达率λ与系统寻道  相似文献   

14.
基于形状和空间结构的商标图像检索方法   总被引:6,自引:0,他引:6  
本文提出一种基于单元子图像形状和空间结构的多级商标图像检索算法,根据单元子图像特征相似性对商标图像进行粗检索,然后对结果图像的空间结构用位置字符串匹配的方法进行分析。实验结果表明,本文提出的方法是有效的。  相似文献   

15.
针对数据的不完备性,提出一种新策略,通过在局部站点上增加知识层--用已知属性值粗略表示不确定属性值的一套规则,将分布式信息系统转换为分布式知识系统,利用多个站点的信息协作解决了查询异常问题;给出了一个新的协作知识系统的框架,论述了知识层的内容与构造方法,最后针对不完备的信息系统,给出一种协作的查询处理算法。  相似文献   

16.
We describe a syntactically based salience algorithm for pronominal anaphora resolution and a procedure for reevaluating the decisions of the algorithm on the basis of statistically modeled lexical semantic/pragmatic preferences. We report the results of an extensive blind test of both systems on computer manual text. We discuss the implications of these results for the comparative roles of syntactically defined salience and statistically measured lexical preference in determining the references of pronouns in text.  相似文献   

17.
Scheduling is a capital problem when using distributed heterogeneous computing (HC) and grid environments to solve complex problems. The scheduling problem in heterogeneous environments is NP‐hard, so a significant effort has been made to develop efficient methods for solving the problem. However, few works have faced realistic grid‐sized problem instances. This work presents a parallel CHC (pCHC) evolutionary algorithm codified over MALLBA, a general‐purpose library for combinatorial optimization, for solving the scheduling problem in HC and grid environments. Efficient numerical results are reported in the experimental analysis performed on both a standard benchmark and a set of large‐sized problem instances specially designed in this work. The comparative study shows that pCHC is able to achieve high problem solving efficacy, significantly improving over traditional deterministic scheduling methods, while also showing a good scalability behavior when solving large problem instances.  相似文献   

18.
传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。  相似文献   

19.
Java在科学计算方面的并行处理   总被引:6,自引:0,他引:6  
讨论了Java和Web技术在科学和工程计算中的作用。应用三种大计算量问题,调查了Java作为高性能并行分布计算语言的可能性。Java将能够很好地成为科学和工程领域的主导语言。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号