共查询到19条相似文献,搜索用时 142 毫秒
1.
在基于语料库的机器翻译系统中,相似句对的检索对于翻译的质量具有非常重要的作用。本文提出一种新颖的方法,可以利用双语例句来帮助度量待翻译句子与例句的相似度。为了提高检索的效率,我们还提供了一个双层的语料库索引方法。由于我们的相似度度量在计算相似度时考虑了例句对最终翻译结果的影响,因此在翻译实验中取得了较好好的效果。 相似文献
2.
3.
4.
基于自动句对齐的相似古文句子检索 总被引:3,自引:0,他引:3
随着语料库语言学的兴起,基于实例的机器翻译(EBMT)得到越来越多的研究。如何快速准确地构建大规模古今汉语平行语料库,以及从大量的对齐实例(句子级)中检索和输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的问题。本文综合考虑句子长度、汉字字形、标点符号三个因素提出了古今汉语句子互译模型,基于遗传算法、动态规划算法实现了古今汉语的自动句对齐。接着为古文句子建立全文索引,基于汉字的信息熵,本文设计与实现一种高效的最相似古文句子检索算法。最后给出了自动句对齐和最相似古文句子检索的实验结果。 相似文献
5.
该文提出了一种藏语句子相似度的计算方法,即采用散列单词倒排索引和基于句长相似度粗选的算法,快速从语料库中筛选出候选句子的集合,散列单词倒排索引能够有效提高算法的查找速度;再采用基于词形和连续单词序列相似度的多策略精选算法,可以有效衡量两个藏语句子的相似程度。实验结果证明算法是有效的。 相似文献
6.
为降低多源信息背景下平行语料库重复句段对翻译工作的干扰,提升去重效率,设计一种基于词频-逆向文件频率技术的平行语料库相似句段去重算法.构建平行语料库句子一级对齐关联,设计概率模型,挑选最大概率路径为对齐输出,运用基于长度的句子对齐方法,确立源语料库中语言单位与目标语言文本间的翻译关系;根据句段词表层特性与信息熵,从多源语料库中择取少量待选实例并进行泛化匹配,得到句段相似程度;根据单词主题相关性推导出单词权重,把专业术语单词长度当作分辨单词主题相关性的前提,正态拟合单词长度获得关键词权重公式,以权重大小区分句段含义,完成相似句段去重.实验结果证明,所提方法去重效率较好、精度较高,适用范围广,为语言服务企业的业务发展带来新的契机. 相似文献
7.
基于模板的机器翻译系统中模板库的自动构建技术 总被引:3,自引:0,他引:3
基于模板的机器翻译(Template Based Machine Translation,TBMT)系统需要一个具有较大规模、句型覆盖面广泛的模板库,而这样的模板库单凭手工无法构建,需要利用计算机自动构建,提出了一种利用基于动态规划的相似模型与基于系统聚类法的分类模型,从句子对齐的双语语料库中抽取模板库的方法。该方法是在句子对齐的语料库中,首先运用系统聚类法对其进行聚类,使得包含相同模板的句子对被聚成一类,然后根据句子的相似度模型计算句子之间的相似度,进而从各个子类中将模板抽取出来,构建出整个模板库。 相似文献
8.
在基于语料库的文语转换系统中,需要事先选择并合成一定数量的句子得到其MOS评分,通过使拼接损失与MOS分相关系数最大来优化拼接损失函数。该文以清华大学TH-Coss女声语料库为例,提出了归一化语境误差和与语料库相似度的概念,以归一化语境误差和最小为准则,从TH-Coss语料库中选出应该事先合成的那批句子,用剩下的句子替代整个语料库。实验结果表明,与随机选取相比,该文的方法选取出来的句子同整个语料库的相似度有较大幅度的提高,剩余句子组成的语料库与整个语料库的相似度达到0.995 5,表明这种替代是合理的。 相似文献
9.
基于译文的英汉双语句子自动对齐 总被引:5,自引:0,他引:5
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题。目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来。根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规则算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错 相似文献
10.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。基于汉藏双语的实际情况,提出了一种利用句子长度、相似度和锚点信息的汉藏双语句子对齐方法,该方法用相似度找到句子的锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。通过测试数据进行的实验结果显示,这种方法有着良好的准确率,有效地解决了汉藏双语真实文本的句子对齐问题。 相似文献
11.
12.
在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。 相似文献
13.
基于问句相似度的中文FAQ问答系统 总被引:5,自引:0,他引:5
常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存储好的问题答案。通过对常见问句特点的研究,给出一种基于分解的向量空间模型和语义概念的问句相似度计算方法,其主要思想是对一个问句向量进行分解,提取其三个关键部分:问点、主题词和疑问词,表示成三个分向量,然后对每个分向量计算基于《HIT-IRLab同义词词林(扩展版)》的语义相似度,通过线性加权就可以得出两个问句的语义相似度。试验表明,与传统的基于向量空间模型的TF-DF问句相似度计算方法相比,可以提高问句匹配的精度。 相似文献
14.
语句相似度计算在主观题自动批改技术中的初步应用 总被引:23,自引:0,他引:23
文字类主观题的自动批改是实现远程教学系统中在线考试功能的一个关键技术,由于其具有相当的难度,目前国内外在这方面的研究还不是很多,真正实用的系统更少。该文着重对语句相似度的计算进行了深入的研究,利用基于动态规划的语句相似度计算方法实现了文字类主观题的自动批改,测试结果初步达到预期目标。 相似文献
15.
句子相似度计算是信息处理领域一项基础技术,在基于实例的机器翻译中直接影响译文质量。该文以韩国语句子为研究对象,结合韩国语的句子特点提出了一种句子结构相似度的计算方法。该方法通过先提取句子的骨架结构,然后结合韩国语的句法特点制定标记转换规则,最后用转换后的句子结构与实例库中句子匹配得到与之相似的句子,得出两个句子间的结构相似度,并且通过实验验证了该方法的可行性,提高了相似度计算效果。 相似文献
16.
在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好语义角色的语料资源,以动词为分析核心,通过语义角色分析、标注句型的相似匹配、标注句型间相似度计算等步骤来实现句子语义的相似度量。为达到更好的实验效果,论文还综合比较了基于知网、词向量等多种计算词语相似度的算法,通过分析与实验对比,将实验效果最好的算法应用到句子相似度计算的研究中。实验结果显示,基于语义角色标注的句子相似度计算方法相对传统方法获得了更好的测试结果。 相似文献
17.
句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对"实体概念"的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。 相似文献
18.
针对现有的句子相似度计算方法没有考虑句子中的关键词的多属性信息, 无法更好衡量句子相似度的问题, 综合考虑句子的结构和包含的属性, 提出一种基于句子的多属性融合相似度计算方法. 该方法通过提取句子的词频属性、词序属性、词性属性及句长属性, 采用层次分析法(AHP)计算出各属性的权重, 并验证权重值的合理性, 继而加权融合4种属性的相似度. 将本文提出的多属性融合相似度计算方法在构建的数据集上进行实验, 验证此方法的可靠性及可行性, 并以召回率、准确率以及归一化F度量值为标准和其他传统方法进行对比分析, 结果表明, 该方法不仅有着均衡的召回率和准确率, 且F-度量值较高, 达到83.57%. 相似文献
19.
针对跨领域少样本关系分类任务,该文提出分段注意力匹配网络PAMN。基于句子相似度计算的少样本学习算法有较好的领域适应性,PAMN在句子相似度算法上进行改进,针对关系抽取问题,将句子分段进行匹配,能更准确地计算关系分类实例间的相似度。PAMN由编码层和句子匹配层组成。在编码层,PAMN使用预训练模型BERT对句子对进行编码,根据实体位置将句子分为三段,通过动态段长进行段长领域自适应。在句子匹配层,PAMN使用基于分段注意力机制的文本匹配方法计算查询实例与支持集合中实例的相似度,取均值作为查询实例与该支持集合的相似度。实验结果显示,PAMN在FewRel 2.0领域适应任务中取得了目前该测评榜单上的最好效果。 相似文献