首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
词对齐技术在机器翻译,特别是在统计机器翻译中起着重要作用.词形、语义、句法的多样性和灵活性,未登陆词及分词错误等不利因素,直接或间接影响了词对齐的质量.多策略英汉词对齐方法,融合了基于词典、GIZA++以及基于知网的词对齐方法.通过对双语语料和多策略对齐结果的分析,利用集合形式的运算指导词对齐的消歧过程.实验结果表明,该方法在对齐结果上F值较IBM模型提高近10%,达到了85.07%,对齐错误率降低10%.该方法根据不同算法对齐结果的可靠性和相容性,实现了各种算法的优势互补.  相似文献   

2.
一种汉英双语句子自动对齐算法   总被引:2,自引:0,他引:2  
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作(诸如机器辅助翻译)的进行.基于汉英双语的实际情况,提出了一种新的句子对齐混合算法,该算法主要采用一种新的基于长度的对齐算法,并结合基于词典的对齐算法,通过正反双向对齐,进一步提高了句子对齐的准确率.最后通过100个文件,5000多句英汉双语对该算法进行了验证,从对齐效果可以发现,结果比较理想,因而可以证明,该算法在实际工作中是可行的.  相似文献   

3.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

4.
基于汉英双语命名实体的识别与对齐特性,文中提出了一种双语命名实体交互式对齐模型,其中的修正对齐计算体现了汉英实体识别与对齐的密切结合:一方面,利用双语对齐信息帮助实体识别;另一方面,实体的对齐过程对实体的识别结果又具有一定的修正作用,两方面的结合实现了双语实体识别与对齐之间的交互式互助过程.实验证明,这种交互式对齐模型...  相似文献   

5.
本文提出了一种基于词性的判别函数,用来自动识别句子对齐结果的正确性。通过反向采用基于长度的对齐算法,纠正了初步对齐产生的连续性错误。该方法节省了人力,同时提高了对齐结果的正确率。实验结果表明,本模型开放集测试的召回率达到97.60%,已满足实际应用的需求。  相似文献   

6.
实体对齐旨在发现并链接不同知识图谱中指向现实世界的相同实体对象.针对基于图卷积网络的实体对齐通常作用于单一关系类型的无向图,容易导致对应实体学习的嵌入结果不一致问题,构建了一种基于双向图卷积网络和变异系数法的实体对齐模型.该模型通过拆分非对称邻接权重矩阵构建双向图卷积网络方法,学习实体前后向隐藏特征,实现实体的完整表示;同时通过变异系数法为属性加权,选择最有代表性的实体局部语义信息,有效提高实体对齐精确度.通过在两组大型真实异构数据集上对模型进行验证,实验结果表明,该方法与现有基于嵌入的实体对齐方法相比Hit@1值平均提高了4%,同时保持较高的平均倒数秩,在一定程度上可以提高实体对齐效果.  相似文献   

7.
基于自动抽取词汇信息的双语句子对齐   总被引:9,自引:0,他引:9  
刘昕  周明  朱胜火  黄昌宁 《计算机学报》1998,21(Z1):151-158
双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度.  相似文献   

8.
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来.根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对.实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况,它大大地提高了对齐的精度,其效果是令人满意的.  相似文献   

9.
语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,准确率受限于语音识别效果,识别字错误率高时文语对齐精度明显下降,识别字错误率对对齐精度影响较大;另一方面,这种对齐方法不能有效处理不完全匹配的长篇幅语音和文本的对齐.该文提出一种基于锚点和韵律信息的文语对齐方法,通过基于边界锚点加权的片段标注将语料划分为对齐段和未对齐段,针对未对齐段使用双门限端点检测方法提取韵律信息,并检测语句边界,降低了基于语音识别的对齐方法对语音识别效果的依赖程度.实验结果表明,与目前先进的基于语音识别的文语对齐方法比较,即使在识别字错误率为0.52时,该文所提方法的对齐准确率仍能提升45%以上;在音频文本不匹配程度为0.5时,该文所提方法能提高3%.  相似文献   

10.
实体对齐旨在找到位于不同知识图谱中的等效实体,是实现知识融合的重要步骤.当前主流的方法是基于图神经网络的实体对齐方法,这些方法往往过于依赖图的结构信息,导致在特定图结构上训练得到的模型不能拓展应用于其他图结构中.同时,大多数方法未能充分利用辅助信息,例如属性信息.为此,本文提出了一种基于图注意力网络和属性嵌入的实体对齐方法,该方法使用图注意力网络对不同的知识图谱进行编码,引入注意力机制从实体应用到属性,在对齐阶段将结构嵌入和属性嵌入进行结合实现实体对齐效果的提升.在现实世界的3个真实数据集上对本文模型进行了验证,实验结果表明提出的方法在很大程度上优于基准的实体对齐方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号