首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
为提高网络信息检索系统的查全率和查准率,引入空间向量模型设计网络信息检索系统。首先,基于网络信息检索系统结构基本框架采集和预处理网络信息文档。其次,引入空间向量模型计算文本段与查询式相似度。再次,根据相似度计算公式设置不同网络信息文档的相似度门槛值。最后,基于相似度门槛值过滤网络信息检索,将过滤后的网络信息作为检索结果显示给系统用户。通过对比实验的方式证明,新的检索系统可根据用户输入内容给出查全率和查准率较高的检索结果。  相似文献   

2.
基于向量空间模型的信息检索技术是较为成熟且应用广泛的信息检索技术,该技术将文档和查询信息均用向量空间表示,查询匹配问题转化为向量空间的矢量匹配问题,文档与查询的相似度可用向量之间的夹角来度量.信息检索速度是衡量信息检索技术好坏的重要指标,基于向量空间模型的信息检索之串行算法的计算复杂度为θ(n^3),本文提出了一种在Hypercube SIMD模型上的并行算法,其时间计算复杂度为θ(nlogn),该算法与传统的串行算法相比,能显著地提高查询速度.  相似文献   

3.
基于《知网》的词汇语义计算方法,提出了一种基于向量空间模型的文本信息检索新方法。方法的基本技术思想是通过计算关键词的语义相似度,并采用最大权匹配方法来计算查询向量和文本向量的相似度,作为相关文本的检索依据。该方法基于全局最优,使文本和查询向量中各词条的相似度总和最大,从而可以从整体上提高文本信息检索的准确率。论文还通过原型实验对该方法的有效性进行了验证。  相似文献   

4.
基于属性论的文本相似度计算   总被引:38,自引:0,他引:38  
以属性论为理论依据,分析了文本属性与属性重心剖分模型的关系,建立了文本属性重心剖分模型,并在属性坐标系中表示文本向属与查询式向量,确定向量之间的匹配基准,计算匹配距离,从而建立一个文本与查询式之间的匹配相似度计算公式,该模型有效地描述文本属性和查询式属性之间的关系。  相似文献   

5.
对基于向量空间模型的检索方法进行改进,提出基于本体语义的信息检索模型。将WordNet词典作为参照本体来计算概念之间的语义相似度,依据查询中标引项之间的相似度,对查询向量中的标引项进行权值调整,并参照Word-Net本体对标引项进行同义和上下位扩展,在此基础上定义查询与文档间的相似度。与传统的基于词形的信息检索方法相比,该方法可以提高语义层面上的检索精度。  相似文献   

6.
基于改进VSM的文本信息检索研究   总被引:1,自引:1,他引:0  
网络信息的激增和多样化给有效的信息检索带来了种种困难,目前的检索工具忽视了很多文本中所隐含的语义信息,从而导致检索时效率低下,很难满足用户的查询要求.提出了一种基于向量空间模型改进的文本信息检索方法.把本体技术引入到传统的文本信息检索系统中,利用领域本体中概念相似度计算对向量空间模型进行改进,从而实现一个高效的文本检索系统,并简述了系统的模型.实例证明,该方法可以很好地提高文本信息检索的查全率和查准率.  相似文献   

7.
基于部件的文本相似度计算   总被引:1,自引:0,他引:1  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度.实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点.  相似文献   

8.
传统的基于向量空间模型的文本相似度计算方法,用TF-IDF计算文本特征词的权重,忽略了特征词之间的词义相似关系,不能准确地反映文本之间的相似程度。针对此问题,提出了结合词义的文本特征词权重计算方法,基于Chinese WordNet采用词义向量余弦计算特征词的词义相似度,根据词义相似度对特征词的TF-IDF权重进行修正,修正后的权重同时兼顾词频和词义信息。在哈尔滨工业大学信息检索研究室多文档自动文摘语料库上的实验结果表明,根据修正后的特征词权重计算文本相似度,能够有效地提高文本的类区分度。  相似文献   

9.
根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1)提出了一种新的词相似度计算公式;2)提出了一种新的基于词相似度的文本相似计算方法;3)成功的将该方法应用到WEB新闻相似查询中;4)通过实验证明算法的有效性.  相似文献   

10.
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号