共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
3.
老挝语属于低资源语言,在有限的语料中获取更多的语义信息可以有效解决汉语和老挝语短文本相似度计算不准确的问题。多任务学习是有效获取语义信息的一种方法,该文对汉语和老挝语短文本特点进行研究后,提出一种融合词性位置特征的多任务汉老双语短文本相似度计算方法:首先,通过词性位置特征权重和TF-IDF权重加权表征双语短文本的同时,使用改进后的TextRank算法获取双语短文本的核心句;然后,通过带有自注意力机制的双向长短时记忆网络分别计算双语短文本的相似度与双语短文本对应核心句的相似度;最后,使用多任务学习方法,将双语短文本的核心句相似度计算作为辅助任务,获取更多的语义信息进行共享以提升汉老双语短文本相似度计算模型的性能。实验结果表明,该文提出的方法在有限的训练语料下取得了更好的效果,F1值达76.16%。 相似文献
4.
5.
为解决近年来使用依存分析等语法信息计算句子相似度存在的手工标注代价较大、自动标注准确率低影响性能等问题,结合现有的句子相似度算法,提出两种方法融合词性特征计算句子相似度。在高精度的自动词性标注基础上,方法一通过词性信息调整不同词性的单词对句子相似度的影响,方法二使用词性信息选择句子中较为关键的单词进行计算。对比实验中,方法一在实验任务中取得了最高的准确率,方法二具有较优的准确率和较快计算速度,实验结果表明了两种方法的有效性。 相似文献
6.
7.
提出了一种综合多特征的句子相似度计算方法,该方法分别从句子的句法、词汇语义、词形三个方面来度量句子的相似度,最后将这三个方面加权整合计算得到句子的相似度。本方法综合考虑了句子的深层和表层信息,并对句子进行了词汇扩展,从而使句子相似度计算更加准确。 相似文献
8.
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。 相似文献
9.
在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。 相似文献
10.
11.
黄莉 《计算机与数字工程》2014,(1):9-13
针对当前主要的汉语句子相似度计算方法存在的问题,通过对大量的中文语句进行构式语义分析,提取构式语块特征,构建构式义特征库,并提出了一种基于构式语块的中文句子相似度计算方法.该方法最大化语块粒度,缩小语义理解间隙.在计算时,首先,通过自上而下语块分析方法,利用HMM学习算法,对复杂多样的汉语句子进行构式语块识别;然后,采用自底向上的计算方式,获取得到构式块间的相似度;最后,计算得出句子间的相似度量值.对比句子相似度实验结果表明,论文提出的计算方法优于其他算法. 相似文献
12.
基于词类串的汉语句子结构相似度计算方法 总被引:9,自引:1,他引:9
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。 相似文献
13.
14.
基于框架语义分析的汉语句子相似度计算 总被引:4,自引:0,他引:4
句子相似度计算在自然语言处理的许多领域中发挥着重要作用.已有的汉语句子相似度计算方法由于考虑句子的语义不全面,使得相似度计算结果不够准确,为此提出一种新的汉语句子相似度计算方法.该方法基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量.其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注,从而达到全面刻画句子语义的目的;在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分,能够使得相似度结果更准确.在包含多目标词的句子集上的实验结果显示,基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果. 相似文献
15.
句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对"实体概念"的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。 相似文献
16.
17.
双语句子对齐在双语语料库的处理中有着非常重要的地位,是构建双语词典的第一步工作。该文利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医学文献双语摘要语料中的锚信息,将生物医学摘要段落和句子进行分类计算相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的实验结果。 相似文献
18.