共查询到19条相似文献,搜索用时 46 毫秒
1.
针对基于短语统计机器翻译中目前常用的Och提出的短语抽取算法,提出了一种改进算法。该算法能够在原有算法的基础上抽取出更多的准确对齐信息,这对语料库较小的汉民统计机器来说意义重大,增加正确的对齐信息可以减少未登录词的产生,提高翻译正确率。经过对不同规模语料库的实验,抽取的短语对数目有明显增多。 相似文献
2.
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%. 相似文献
3.
统计机器翻译中短语切分的新方法 总被引:1,自引:0,他引:1
基于短语的统计机器翻译是目前主流的一种统计机器翻译方法,但是目前基于短语的翻译系统都没有对短语切分作专门处理,认为一个句子的所有短语切分都是等概率的。本文提出了一种短语切分方法,将句子的短语切分概率化: 首先,识别出汉语语料库中所有出现次数大于2次的词语串,将其作为汉语短语; 其次,用最短路径方法进行短语切分,并利用Viterbi算法迭代统计短语的出现频率。在2005年863汉英机器翻译评测测试集上的实验结果(BLEU4)是: 0.1764(篇章),0.2231(对话)。实验表明,对于长句子(如篇章),短语切分模型的加入有助于提高翻译质量,比原来约提高了0.5个百分点。 相似文献
4.
最大熵方法在英语名词短语识别中的应用研究 总被引:1,自引:0,他引:1
研究英语名词短语识别不仅是句法分析的基本问题,而且是进行机器翻译的基础.针对英语名词短语传统识别算法存在速度慢,效率低的难题,为提高识别准确率,提出一种基于最大熵原理的英语基本名词短语识别方法.首先综合考虑英语短语结构特性和上下文的位置来建立特征集模板.采用改进的频次和平均互信息相结合方法提取有效特征,表示为最大熵模型形式,最大熵原理完成最后的识别过程.对Penn Treebank语料库中的英语名词短语进行仿真,证明改进方法对短语识别正确率和召回率均达90%以上,远远高于传统方法的识别率,是一种简单、快速、高效的英语名词短语识别方法. 相似文献
5.
张惠春 《数字社区&智能家居》2009,(8)
中文名词短语识别在自然语言处理已经得到了广泛应用。该文首先对名词短语识别问题进行描述,然后利用最大熵模型建立名词短语识别系统,通过实验选取最大熵模型的特征,最后利用选取的特征进行名词短语识别,实验结果表明系统达到了较高的准确率和召回率。 相似文献
6.
提出一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维语词的情况(包括不连续),然后采用Och方法进行判断.如果满足条件则进行短语抽取.试验结果表明,改进后的短语抽取算法能够抽取出更多汉维短语对,提高短语翻译对抽取的效果. 相似文献
7.
8.
交互式机器翻译(Interactive Machine Translation,IMT)是一种通过机器翻译系统与译员之间的相互作用指导计算机解码并改善输出译文质量的技术。目前主流的IMT方法使用译员确定的前缀作为唯一约束指导解码,交互方式受限,交互效率低。该文从交互方式和解码算法两个方面对IMT方法进行改进。在交互方式方面,允许译员译前从短语译项列表中为源语言短语选择正确译项。该文还提出了基于短语表的多样性排序算法,来提高短语候选译项的多样性,并根据译员的翻译认知过程设计交互界面,改善译员在翻译过程中的用户体验。在解码算法方面,将双语短语与前缀一同作为约束参与指导解码过程,提高翻译假设评价和过滤的准确性。在LDC汉英平行语料上进行了人工评测,实验结果表明该方法较传统的IMT方法能够减轻译员的认知负担,减少翻译时间,提升翻译效率。 相似文献
9.
短语表是基于短语的统计机器翻译系统的一个核心组成部分,基于启发式方法抽取到的短语表受单词对齐错误和未对齐词的影响严重,同时抽取到的短语也并非句法意义上的短语。该文提出一种基于EM(Expectation-maximization)算法的双语句法短语抽取方法来抽取双语句法短语,此方法可以通过不断迭代的方式使各参数值达到最优。通过加入双语句法短语、增加新特征、重新训练三种不同的方法,将获得的双语句法短语与基于短语的统计机器翻译方法结合以提高统计机器翻译系统的性能。结果表明: 三种方法都不同程度提高了译文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64个点。 相似文献
10.
基于最大熵模型的英文名词短语指代消解 总被引:11,自引:0,他引:11
提出了一种新颖的基于语料库的英文名词短语指代消解算法,该算法不仅能解决传统的代词和名词/名词短语间的指代问题,还能解决名词短语间的指代问题。同时,利用最大熵模型,可以有效地综合各种互不相关的特征,算法在MUC7公开测试语料上F值达到了60.2%,极为接近文献记载的该语料库上F值的最优结果61.8%。 相似文献
11.
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻译方法的研究在使用大规模语料库的基础上,同时寻求其他可以提高系统性能的方法。针对以上问题,提出一种把双语词典应用在统计机器翻译中的方法,不仅优化了词对齐的准确率,而且得出质量更高的翻译结果,在一定程度上缓解了数据稀疏问题。 相似文献
12.
2005统计机器翻译研讨班研究报告 总被引:4,自引:1,他引:4
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。 相似文献
13.
14.
15.
16.
林晓庆 《计算机工程与设计》2010,31(8)
提出了一种基于句法分析与词语相关性相结合的方法实现英文专利文献中名词短语的翻译,建立了一个面向专利文献的名词短语双语实例库,形成名词短语(NP)树库.对待翻译的术语NP,先进行句法分析,再在NP树库中搜索与该术语NP匹配的NP树,对匹配的NP树,用<知网>计算词语间语义相似度,找到最相似NP树,然后计算词语的翻译候选之间的相关性找到词语翻译,最后调整语序生成译文;若不存在匹配的NP树,搜索与该NP树的子NP相匹配的NP树,递归生成译文.使用BLEU作为机器评价准则,实验结果表明,该方法优于基于短语的统计翻译系统(Pharaoh). 相似文献
17.
为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果,翻译效率比基于短语的统计翻译方法提高10%。 相似文献
18.
19.
基于条件随机域的复杂最长名词短语识别 总被引:3,自引:1,他引:3
识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性. 相似文献