共查询到20条相似文献,搜索用时 171 毫秒
1.
张贯虹 《数字社区&智能家居》2014,(7):1519-1523
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。 相似文献
2.
双语句子对齐能够为机器翻译、信息检索等跨语言领域任务提供高质量的平行语料,在低资源的老挝语自然语言处理研究中显得尤为重要。由于汉老双语文本中存在非单调对齐(交叉对齐和空对齐)的情况,容易影响汉老句子对齐的效果。此外,人名、地名作为新闻要素,大多属于未登录词,也给汉老句子对齐研究增加了难度。该文提出了一种融合局部和全局语义信息的汉老双语句子对齐方法。首先,将汉老双语句长特征和人名地名特征融入Glove词向量,然后利用双向门控循环单元对特征词向量进行编码,以得到更细粒度的句子局部信息。其次,引入交互注意力机制,提取双语句子中的全局信息,保证对上下文语义特征的有效利用。最后,在多层感知机的基础上引入KM算法,该方法可以处理非单调对齐文本,提高模型的泛化能力。实验结果表明,该方法显著提高了汉老双语新闻语料的对齐性能。 相似文献
3.
基于长度的扩展方法的汉英句子对齐 总被引:7,自引:4,他引:7
本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注,而且在统计方法中引入了关键词信息,以提高句子对齐的正确率。本文中所用的双语语料是LDC 的关于香港的双语新闻报道。动态规划算法用于系统的实现。和单纯的基于长度的方法和词汇方法相比,我们的扩展方法提高了句子对齐的正确率,并且结果是比较理想的。 相似文献
4.
5.
双语短语对齐的输入是源语言(英语)、目标语言(汉语)候选句法分析树集。由于翻译异常现象的大量存在,源语言句法树和目标语言句法树间往往不存在简单的对应关系。如何在翻译异常的情况下,从源语言、目标语言候选句法树集中排除歧义,选出正确的句法树,并揭示其短语层次上的对应关系,是双语短语对齐的主要困难。提出的基于“有效句型”概念和“翻译中相对不变准则”的短语对齐模型基本解决了上述问题。双语短语对齐本身是一个复杂度较高的处理过程,提出的有关定量和算法使系统在保证对齐正确率的前提下,保证了时间效率。 相似文献
6.
基于自动抽取词汇信息的双语句子对齐 总被引:9,自引:0,他引:9
双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度. 相似文献
7.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。 相似文献
8.
基于锚点词对的双语词对齐算法 总被引:5,自引:0,他引:5
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率迭77.3%.F值达84.2%.基本上满足了有关应用的实际要采. 相似文献
9.
基于译文的英汉双语句子自动对齐 总被引:5,自引:0,他引:5
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题。目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来。根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规则算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错 相似文献
10.
基于实例的机器翻译系统需要双语句对的支持。为大量获取双语句对,则需要以篇章对齐的双语文本为输入,实现句子的自动对齐。通过分析汉英双语法律文本的特征,提出了法律文本对齐假设。首先识别出法规源文和译文中的结构标识和句子,然后在句子一级对齐法律文本。该方法在150篇汉英法律文本语料上,取得了80.98%的对齐准确率。 相似文献
11.
双语语料对齐是自然语言处理的一个重要研究课题。对双语平行语料库的研究工作主要有构建、对齐和标注等方面,其中研究不同级别的对齐技术是一个重要的中心课题,对齐不仅是进一步利用平行语料库获取一些语言知识的必要前提.也是机器翻译系统利用双语知识的重要前期处理。重点介绍典型的句子对齐方法,并总结出每种方法的优缺点,具体分析了汉维双语句子对齐的方法。 相似文献
12.
词对齐是自然语言处理领域的基础性研究课题之一。文中提出基于链式条件随机场(CRF)判别式模型的蒙古文-英文词对齐方法。该方法根据蒙古文和英文之间的差异,选择词形、词汇、词性等信息作为特征,建立双层CRF词对齐模型:在第1层利用CRF模型实现子块的对齐;在第2层利用CRF模型得到块内词之间的对齐结果。通过人工构建的词对齐语料开展相应实验。实验结果表明,该方法有效提高蒙英词对齐质量。 相似文献
13.
14.
15.
一种基于信息熵的中文高频词抽取算法 总被引:9,自引:0,他引:9
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。 相似文献
16.
该文在基本隐马尔克夫模型的基础之上,利用句法知识来改进词语对齐,把英语的短语结构树距离和基本隐马尔克夫模型相结合进行词语对齐。与基本隐马尔克夫模型相比,这个模型可以降低词语对齐的错误率,并且提高统计机器翻译系统BLEU值,从而提高机器翻译质量。 相似文献
17.
实体对齐旨在判断来自不同知识图谱的实体是否为指向真实世界的同一个对象。然而,知识图谱间的结构异质性往往会影响实体对齐的准确性。提出一种基于邻域聚合匹配网络(NAMN)模型的实体对齐方法。根据每跳邻居对中心实体重要性不同的特点,采用分层的思想区别处理每跳邻域信息,通过门控机制进行聚合以学习图结构的表征。在此基础上,为每个实体构建邻域局部子图进行跨图邻域匹配,并将匹配阶段的输出与通过门控机制所学习到的图结构表征进行联合编码,生成最终面向匹配的表征。采用DBP15K数据集进行实验,结果显示,Hits@1的所有值均在75%以上,Hits@10的所有值均在85%以上,最高可达到97%,平均倒数排名均高于80%,表明NAMN模型能够有效提高实体的匹配准确度。 相似文献
18.
19.
DNA多序列比对是生物信息学中的最重要的任务之一。本文针对多序列比对的特点,提出一种渐进蚁群算法,即将渐进比对算法和蚁群算法相结合。在渐进蚁群算法中,既能克服蚁群算法易于陷入局部最优解、收敛速度慢的特点,又能充分发挥渐进比对算法的优点。 相似文献