首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

2.
汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。  相似文献   

3.
介绍从平行语料库中如何抽取双语短语翻译对。首先用统计模型正则期望从汉语专利语料库中抽取汉语短语。抽取的短语利用统计知识和语言学知识来过滤,使得过滤后汉语短语的正确率较高;其次,利用词对齐工具Giza++从汉英平行语料库中抽取词汇对齐,在词汇对齐的基础上利用开源工具Moses抽取汉英短语对齐,根据短语对齐与抽取出的高质量汉语短语的交集来抽取候选的汉英互译的源语言短语;接着使用停用词、对数似然估计法LLR和上下文熵来对英语短语翻译进行过滤。实验结果表明,过滤后,抽取的汉语短语准确率为97.6%,汉英短语翻译对的准确率为92.4%。  相似文献   

4.
李业刚  黄河燕  史树敏  鉴萍  苏超 《软件学报》2015,26(7):1615-1625
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%.  相似文献   

5.
基于序列相交的短语译文获取   总被引:2,自引:2,他引:0  
短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。  相似文献   

6.
以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基本名词短语自动识别系统,实现了对30万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可行,识别精确率达到80.8%。  相似文献   

7.
本文进行了定中结构名词短语的分析,介绍了汉语短语的两种不同分类标准以及名词短语常见形式,提出了汉语定中结构名词短语(MHNP)的形式化定义,并据结构特点对其进行了分类。通过对人工标注语料库的分析、统计和归纳,利用基于特征词驱动的方法对带“的”字定中结构名词短语进行了自动标注。  相似文献   

8.
名词短语作为语言中一种普遍的语法现象,在自然语言处理领域日益受到了研究人员的关注.目前,对其研究范围主要集中在边界识别、语法分析、语义分析及其分类等方面.该文通过研究分析韩国语书面语名词短语的左右边界规则,从大规模标注语料库中自动提取出名词短语.实验结果表明:语料中的高频名词短语相对集中于8个类型之中.根据提取结果分别建立不同类型的名词短语库,为进一步建立双语平行短语语料库打下基础,以便于以后的机器翻译、信息检索等自然语言信息处理工作.  相似文献   

9.
本文提出一种基于双语语料库的短语复述实例获取方法,尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义,利用词对齐的双语语料库,构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比较每一个候选复述短语和输入短语之间的语义一致性,来确定每个候选是否成为最终的复述实例。实验结果表明,本文短语复述实例获取方法的综合准确率达到了 60% ,获取了较好的性能。  相似文献   

10.
通过对语料库中越南语名词短语的邻接词与邻接词性进行统计调查,发现越南语名词短语蕴含着丰富的边界信息,这对越南语名词短语识别具有重要价值。提出两种将越南语名词短语边界信息融入深度学习模型的方法。一是计算每个词与预训练名词短语(Noun Phrase,NP)向量的相似度得到边界相似度向量(Border Similarity Vector,BS Vector);二是计算每个词与每个预训练标签类别向量的相似度得到(Label Similarity Vector,LS Vector)。实验结果表明,在加入BS Vector后,模型的整体标注准确率提升了0.43%,在加入LS Vector后,模型的整体标注准确率提升了0.6%。该方法不仅对越南语名词短语识别任务具有提升作用,对其他语种、其他领域的识别任务也有很大的参考和借鉴意义。  相似文献   

11.
该文提出了一种从英汉平行语料库中自动抽取术语词典的算法。采用的是已对齐好的双语语料,中文经过了分词处理。利用英文和中文词性标注工具对英文语料和中文语料分辨进行词性标注。统计双语语料库中的名词和名词短语生成候选术集。然后对每个英文候选术语计算与其相关的中文翻译间的翻译概率。再通过设定阈值过滤掉一些与该英文候选词无关的中文翻译,最后通过贪心算法选取概率最大的词作为该英文候选词的中文翻译。  相似文献   

12.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。  相似文献   

13.
汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果.  相似文献   

14.
平行语料库中双语术语词典的自动抽取   总被引:7,自引:5,他引:2  
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。在对真实语料的术语抽取实验中取得了较好的结果。  相似文献   

15.
神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语语料进行短语抽取构建短语对齐表,并通过在维基百科中抽取的实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与识别出的短语相似性较高的短语对进行替换,以此实现短语级的数据增强,并将生成的伪平行句对与原始数据一起训练最终的神经机器翻译模型。在汉-越翻译任务上的实验结果表明,通过短语替换生成的伪平行句对可以有效提高汉-越神经机器翻译的性能。  相似文献   

16.
汉语最长名词短语的自动识别   总被引:22,自引:0,他引:22  
周强  孙茂松  黄昌宁 《软件学报》2000,11(2):195-201
通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法.实验结果显示,后者的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号