首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.  相似文献   

2.
基于框架语义分析的汉语句子相似度计算   总被引:4,自引:0,他引:4  
句子相似度计算在自然语言处理的许多领域中发挥着重要作用.已有的汉语句子相似度计算方法由于考虑句子的语义不全面,使得相似度计算结果不够准确,为此提出一种新的汉语句子相似度计算方法.该方法基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量.其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注,从而达到全面刻画句子语义的目的;在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分,能够使得相似度结果更准确.在包含多目标词的句子集上的实验结果显示,基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果.  相似文献   

3.
一种维吾尔语句子相似度算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于实例的机器翻译是一种重要的机器翻译技术,句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的维吾尔语机器翻译研究,维吾尔语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。提出了一种维吾尔语句子相似度的计算方法,采用的基于词形特征的粗选算法、散列单词倒排索引能够有效提高算法的查找速度,快速从语料库中筛选出候选句子集合;多策略精选算法中采用基于维吾尔语词频的单词区分度算法、连续单词序列抽取算法,可以有效衡量两个维吾尔语句子的相似程度,实验结果证明算法是有效的。  相似文献   

4.
一种基于语境的词语相似度计算方法   总被引:1,自引:0,他引:1  
词语相似度计算是机器翻译、信息检索等自然语言处理领域的关键问题之一。传统的词语相似度计算方法,未能很好地考虑上下文信息对词语语义的约束,从而不能对语境变换带来的词语间相似度的差异进行有效的区分。该文引入模糊数学中隶属函数的概念计算词语上下文信息的模糊重要度,并结合基于《知网》的语义相似度计算方法,提出一种基于语境的词语相似度计算方法。实验表明,该算法可以根据语境有效地区分语义相近的词语。  相似文献   

5.
基于语义树的中文词语相似度计算与分析   总被引:2,自引:1,他引:2  
词语相似度的分析与计算是自然语言处理关键技术之一,对句法分析、机器翻译、信息检索等能提供很好的帮助。基于语义资源Hownet的中文词语相似度计算是近年来的研究热点,但大多数的研究都是对中国科学院计算技术研究所刘群提出的计算方法的改进和完善。该文充分分析和利用新版Hownet(2007)的概念架构和语义多维表达形式,从概念的主类义原、主类义原框架以及概念特性描述三个方面综合分析词语相似度,并在计算中区分语义特征相似度和句法特征相似度。实验结果理想,与人的直观判断基本一致。  相似文献   

6.
基于动态权值的关联数据语义相似度算法研究   总被引:1,自引:0,他引:1  
贾丽梅  郑志蕴  李钝  王振飞 《计算机科学》2014,41(8):263-266,273
语义相似度计算对关联数据的信息检索有重要作用,直接影响数据的语义挖掘效果。实例的属性信息是关联数据语义相似度计算的一个重要因素。针对传统的关联数据语义相似度算法未考虑属性的重要性和取值类型导致计算精度较低的问题,提出基于动态权值的关联数据语义相似度计算方法,即根据待匹配的数据集中属性不同取值的数量、属性值的分布以及属性的有效性3个因素动态计算属性的权值,然后依据属性取值类型选用匹配相似度算法,最后结合属性的动态权值对概念进行实例的相似度计算。实验表明,基于动态权值的相似度计算方法与传统方法相比,实例相似度的计算精度得到了一定的提高。  相似文献   

7.
本文通过对汉蒙机器翻译方法的研究,给出了一种基于实例的汉蒙机器翻译方法,并加以了实现。本文给出了用于汉蒙EBMT机器翻译的实例搜索以及短语片段划分、匹配、组合的方法。本文给出的方法是基于词语对齐的,利用词语对齐进行词语的匹配,并根据匹配词数和长度计算相似度,选取最好的实例。通过对齐信息,确定片段组合的策略,生成翻译结果。通过对方法的实现和实验,完成了一个基于实例的汉蒙机器翻译系统。  相似文献   

8.
大规模句子相似度计算方法   总被引:4,自引:1,他引:4  
如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一.本文提出一种多层次句子相似度计算方法首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子.在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%,准确率达90%,充分说明了本文算法的有效性.  相似文献   

9.
在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。  相似文献   

10.
概念与文档的语义相似度计算   总被引:1,自引:0,他引:1  
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。  相似文献   

11.
基于自动句对齐的相似古文句子检索   总被引:3,自引:0,他引:3  
郭锐  宋继华  廖敏 《中文信息学报》2008,22(2):87-91,105
随着语料库语言学的兴起,基于实例的机器翻译(EBMT)得到越来越多的研究。如何快速准确地构建大规模古今汉语平行语料库,以及从大量的对齐实例(句子级)中检索和输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的问题。本文综合考虑句子长度、汉字字形、标点符号三个因素提出了古今汉语句子互译模型,基于遗传算法、动态规划算法实现了古今汉语的自动句对齐。接着为古文句子建立全文索引,基于汉字的信息熵,本文设计与实现一种高效的最相似古文句子检索算法。最后给出了自动句对齐和最相似古文句子检索的实验结果。  相似文献   

12.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

13.
语义相似度计算就是把词语间语言学上的信息映射为0到1之间的数值.基于知识本体的语义相似度计算方法,利用知识本体提供的信息,建立词语关系和语义相似度之间的函数关系,该方法可解释性强、使用简单,成为语义相似度计算的一类重要方法.提出了一种基于《同义词词林》的语义相似度计算模型,该模型运用遗传算法探索了《同义词词林》语义编码...  相似文献   

14.
The main tasks in Example-based Machine Translation (EBMT) comprise of source text decomposition, following with translation examples matching and selection, and finally adaptation and recombination of the target translation. As the natural language is ambiguous in nature, the preservation of source text’s meaning throughout these processes is complex and challenging. A structural semantics is introduced, as an attempt towards meaning-based approach to improve the EBMT system. The structural semantics is used to support deeper semantic similarity measurement and impose structural constraints in translation examples selection. A semantic compositional structure is derived from the structural semantics of the selected translation examples. This semantic compositional structure serves as a representation structure to preserve the consistency and integrity of the input sentence’s meaning structure throughout the recombination process. In this paper, an English to Malay EBMT system is presented to demonstrate the practical application of this structural semantics. Evaluation of the translation test results shows that the new translation framework based on the structural semantics has outperformed the previous EBMT framework.  相似文献   

15.
术语是由一个到多个单词按照某种语义角色组合而成的,传统的基于统计的相似度计算方法,将术语看作一个基本单元来进行计算,忽略了术语内部的语义角色,且对于上下文信息不丰富的术语,无法利用统计的方法取得理想的效果;基于语义资源的相似度计算方法,所涵盖的词语有限,因此不包含在语义资源中的术语便无法计算相似度。针对这些问题,该文针对专利提出了基于语义角色的术语相似度计算方法,该方法弥补了传统方法的不足。该文对术语内部的单词进行语义角色标注,通过共享最近邻方法计算单词的相似度,然后根据不同的语义角色,利用单词相似度来计算术语相似度。实验表明,该方法与传统方法相比,取得了较好的效果。  相似文献   

16.
基于实例的机器翻译 (Example BasedMachineTranslation ,简称EBMT)通过模仿实例的翻译实现源文的翻译。在EBMT中 ,实例的匹配是关键 ,它直接关系到EBMT本身的翻译质量。文章通过对现有几类实例匹配算法的比较和研究 ,提出一种基于模式的实例匹配算法。  相似文献   

17.
提出一种基于知网与搜索引擎的词汇语义相似度计算方法。利用义原在层次体系树的深度、密度、信息量优化义原的相似性计算。将逐点共有信息(PMI)算法与归一化谷歌距离(NGD)算法结合优化基于搜索引擎的词汇语义相似度计算。将词汇的词性作为权重因子融合知网与搜索引擎的词汇相似度计算结果。实验结果表明,与基于知网和基于搜索引擎的语义相似度计算方法相比,所提出的方法在NLPCC测试集上的平均相似度更接近于测试集的评测标准,在汽车票务领域的词汇相似度计算中具有较好的应用效果。  相似文献   

18.
翻译记忆中语句相似度计算方法的研究   总被引:1,自引:0,他引:1  
周文  徐国梁 《计算机应用》2007,27(5):1210-1213
对翻译记忆的关键技术——语句相似度的几种常用计算方法进行了分析,针对英汉翻译记忆系统的要求,提出了基于块的方法计算英语句子相似度,通过将英语句子按照句型分类存储,组合句子各个组成块的语义相似度与权重来得到整个句子的相似度。结果证明,它能很好的反映句子在语义和结构上的相似程度。  相似文献   

19.
汉英翻译系统英文生成中选词模型的设计   总被引:1,自引:1,他引:0  
本文描述了一种基于实例比较,辅以语义模式匹配的英文选词模型的设计。首先,我们讨论了汉英翻译系统英文生成中选词的重要性,然后比较了几种可能的选词策略并提出我们的选词模型,接着我们较详细地描述了生成词典的结构以及选词算法。文中,我们还简要介绍了我们所使用的语义知识资源——《知网》。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号