首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
近年来文本相似度计算在文本聚类、智能检索、网页问答、结果去重等其他许多自然语言处理领域具有举足轻重的地位,尤其是在搜索引擎中。该文简单论述了文本相似度计算的常用方法,以及本系统如何利用文本相似度计算判断多文本的同一性。更重要的是提出了迭代搜索的概念,进一步细化信息检索工作,尽可能确保信息检索的正确性,提高效率,解放人工。  相似文献   

2.
基于部件的文本相似度计算   总被引:1,自引:0,他引:1  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度.实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点.  相似文献   

3.
基于《知网》的词汇语义计算方法,提出了一种基于向量空间模型的文本信息检索新方法。方法的基本技术思想是通过计算关键词的语义相似度,并采用最大权匹配方法来计算查询向量和文本向量的相似度,作为相关文本的检索依据。该方法基于全局最优,使文本和查询向量中各词条的相似度总和最大,从而可以从整体上提高文本信息检索的准确率。论文还通过原型实验对该方法的有效性进行了验证。  相似文献   

4.
传统的基于向量空间模型的文本相似度计算方法,用TF-IDF计算文本特征词的权重,忽略了特征词之间的词义相似关系,不能准确地反映文本之间的相似程度。针对此问题,提出了结合词义的文本特征词权重计算方法,基于Chinese WordNet采用词义向量余弦计算特征词的词义相似度,根据词义相似度对特征词的TF-IDF权重进行修正,修正后的权重同时兼顾词频和词义信息。在哈尔滨工业大学信息检索研究室多文档自动文摘语料库上的实验结果表明,根据修正后的特征词权重计算文本相似度,能够有效地提高文本的类区分度。  相似文献   

5.
文本相似度计算的一种新方法   总被引:1,自引:0,他引:1  
1 引言目前信息检索技术已应用于许多领域,尤其广泛应用在Internet网络、图书馆等领域,为快速查阅文本信息提供极大便利。文本信息检索利用文本相似度描述文本与查询式之间的匹配程度。计算文本相似度的传统方法有向量空间模型,它把文本和查询式表示成以词为元素单位的向量,根据词频tf以及逆文本频率idf,赋予该向量各个分量的权值,与欧氏空间的向量1-1对应,用向量夹角的余弦值定量表示文本和查询式之间的相似度,即  相似文献   

6.
在信息检索,文本挖掘以及基于实例的机器翻译中,相似度计算都是一个关键问题.在实例机器翻译中,相似度计算一般是基于字符、词的匹配以及向量空间模型,但基于句子语义结构的相似度研究还不多见.借助了汉语框架语义网(Chinese FrameNet,简称CFN)的场景语义描述优势,提出了一种新的面向EBMT进行实例相似度计算的方...  相似文献   

7.
基于压缩稀疏矩阵矢量相乘的文本相似度计算   总被引:4,自引:0,他引:4  
在信息检索矢量模型的基础上.提出了一种基于压缩稀疏矩阵矢量相乘的文本相似度计算方法,具有矢量模型计算简单和速度快的特点.该方法采用压缩稀疏矩阵矢量空间存储数据,在相似度计算和数据存储时不需要考虑文本矢量矩阵中的零元素,大大减少了计算量和存储空间,从而使信息检索系统运行效率显著提高.仿真实验表明,上述方法比基于矢量模型的传统反向索引机制节省了38%的存储空间.  相似文献   

8.
随着人工智能的发展,自然语言检索已逐步成为信息检索领域中的研究热点,而文本相似度计算算法直接决定着检索效果.在分析已有研究工作的基础之上,分别在统计信息层面和语义信息层面上提出了对应的相似度计算算法,最后提出了一种综合相似度计算算法,并通过相关实验验证了综合相似度计算算法对自然语言智能检索的有效性.  相似文献   

9.
语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.  相似文献   

10.
为提高网络信息检索系统的查全率和查准率,引入空间向量模型设计网络信息检索系统。首先,基于网络信息检索系统结构基本框架采集和预处理网络信息文档。其次,引入空间向量模型计算文本段与查询式相似度。再次,根据相似度计算公式设置不同网络信息文档的相似度门槛值。最后,基于相似度门槛值过滤网络信息检索,将过滤后的网络信息作为检索结果显示给系统用户。通过对比实验的方式证明,新的检索系统可根据用户输入内容给出查全率和查准率较高的检索结果。  相似文献   

11.
基于本体的概念相似度计算   总被引:11,自引:2,他引:9  
概念相似度的计算是信息检索领域的研究热点。本体在信息检索和人工智能领域的广泛应用,为概念相似度计算带来新的方法。该文提出一种利用本体来计算概念间相似度的方法,综合考虑语义距离和本体库统计特征。加入概念的深度、语义重合度和概念间强度的辅助影响。实验结果表明,该方法对概念相似度的计算有效,可应用于面向Web的信息检索。  相似文献   

12.
基于改进VSM的文本信息检索研究   总被引:1,自引:1,他引:0  
网络信息的激增和多样化给有效的信息检索带来了种种困难,目前的检索工具忽视了很多文本中所隐含的语义信息,从而导致检索时效率低下,很难满足用户的查询要求.提出了一种基于向量空间模型改进的文本信息检索方法.把本体技术引入到传统的文本信息检索系统中,利用领域本体中概念相似度计算对向量空间模型进行改进,从而实现一个高效的文本检索系统,并简述了系统的模型.实例证明,该方法可以很好地提高文本信息检索的查全率和查准率.  相似文献   

13.
董苑  钱丽萍 《计算机科学》2017,44(Z11):422-427
为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩展相似度,找出文本词语间最大的相似度配对,从而计算出文本间的相似度。这种相似度计算方法利用语义词典,既考虑了不同文本间词语的相似度关系,又考虑了词语在各自文本中的词频高低。实验结果表明,与传统的语义算法和基于空间向量的文本相似度计算方法相比,TSSDWFI算法计算的文本相似度的准确度有了进一步提高。  相似文献   

14.
一种基于潜在语义分析的查询扩展算法   总被引:5,自引:0,他引:5  
该文提出一种新的查询扩展算法。通过对文本进行潜在语义分析,引入计算词语间语义相似度的方法,将文本聚类应用到检索的交互过程中,以提高信息检索的质量。实验结果表明该算法对于提高检索的准确率是十分有效的。  相似文献   

15.
信息检索中,如何较好地理解和表达用户的信息需求是提高信息检索效果的关键。从语言的内涵和外延出发,挖掘、计算信息需求的上边界、下边界,确定信息需求的需求域,建立了一种表达用户信息需求的界模型。引入文档与信息需求域的相似度,在信息检索时计算各文档的相似度,并根据相似度对文档进行排序。使用Lemur工具进行的对比分析实验表明,界模型具有较理想的检索效果。进一步对相似度中的参数进行了优化,得到了更优的检索效果。  相似文献   

16.
同义词在信息检索中的作用日趋重要,它可在一定程度上实现语义检索,提高检索性能。一般情况下,一个术语的同义词的个数是多于一个的,为了加以区别,目前普遍采用相似度计算来度量术语和其同义词的相似程度。在介绍信息检索同义词的基础上,给出了常用的词语相似度计算方法。  相似文献   

17.
文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征。在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词语或字符串之间的相似度计算。提出了一种文本片段化机制(TSM)进行文档检索,首先将每个候选文档划分成片段,再计算查询语句与文档片段之间的相关度,所使用的相关度匹配方案考虑了语义和词频等因素,筛选出关键的文本片段并得出相关片段比率,综合这些片段信息计算查询与文档之间的相关性得分,从而获取Top-K文档集。针对Glasgow信息检索专用数据集的实验结果表明,利用文本片段化机制进行文本匹配可以提高信息检索的性能。  相似文献   

18.
文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该文提出一种基于WordNet的中泰文跨语言文本相似度的计算方法。首先对中泰文本进行预处理和特征选择,然后利用语义词典WordNet将中泰文本转换成中间层语言,最后在中间层上计算中泰文本的相似度。实验结果表明,该方法准确率达到82%。  相似文献   

19.
分析了传统向量空间检索模型在Web信息检索中的不足,给出了基于N-Level向量空间模型,这种模型是将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此基础上可以更加精确地定义特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充。同时进行了两种模型算法时间的复杂度的比较分析。理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。  相似文献   

20.
本体可以提供强大的知识表示方法,是信息检索领域中的重要内容。传统的本体概念相似度计算方法大多采用特定于描述语言的通用推理服务来进行匹配,这些方法忽略了概念的语义信息。通过设计一个基于OWL本体的语义检索模型,介绍了如何通过概念的属性以及层次关系来表达概念的语义,计算概念间的柔性相似度。实验结果表明,该方法能充分利用OWL属性特征与层次关系来计算相关概念之间的柔性相似度,可以根据需要动态地调节匹配范围,并给出其在文本分类中的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号