共查询到19条相似文献,搜索用时 109 毫秒
1.
传统的话题模型假设每个文档只属于一个话题,而实际情况下一个文档往往与多个话题相关。应用LDA 模型将文档表示为多个话题的组合,并基于语言模型框架,提出了一种基于 LDA 的混合模型用于文本信息的 Ad hoc 检索。该方法将 LDA 模型与文档模型相结合,与聚类模型相比,在保持较低的计算复杂度外,具有很高的检索性能,因此更适用于大规模文档集的信息检索。 相似文献
2.
当前,随着互联网的普及和网上信息的爆炸式增长,信息检索系统及其核心技术搜检索擎的性能和效率问题已成为人们研究和关注的焦点。影响一个搜检索擎系统的性能有很多因素,但最主要的是信息检索模型,通过对信息检索模型研究的主要内容和构建策略进行了描述,就相关的问题进行了探讨,总结了信息检索模型的研究。 相似文献
3.
在信息时代,面对日益庞大的信息资源,需要通过一种科学手段来获取自己需要的准确及时的信息,这种科学的手段就是检索,信息检索。信息检索就是只从任何文献集合中查出所需信息的活动、过程和方法。通过论述信息检索的工作原理和其在网络环境下的作用,对比分析了基于网络的信息检索几种类型的特点,对高速而有效的信息检索系统的核心技术搜索引擎技术进行了分析,指出随之带来的亟待解决的快速有效获取信息的问题和搜索引擎技术符合时代要求的发展方向。 相似文献
4.
介绍了本体Ontology的概念和理论知识,提出一种基于本体的Web信息检索模型.该模型利用本体技术对Internet上的各类信息进行领域分类,规范用户信息检索模式,以达到快速、准确找到用户所需信息的目的. 相似文献
5.
基于网络信息检索的研究 总被引:1,自引:0,他引:1
在信息时代,面对日益庞大的信息资源,需要通过一种科学手段来获取自己需要的准确及时的信息,这种科学的手段就是检索,信息检索.信息检索就是只从任何文献集合中查出所需信息的活动、过程和方法.通过论述信息检索的工作原理和其在网络环境下的作用,对比分析了基于网络的信息检索几种类型的特点,对高速而有效的信息检索系统的核心技术搜索引擎技术进行了分析,指出随之带来的亟待解决的快速有效获取信息的问题和搜索引擎技术符合时代要求的发展方向. 相似文献
6.
7.
相对于传统的基于整个文档的检索模型来说,基于句子的信息检索模型将每个文档表示成为bag of sentences,并从这些句子中生成问题相对每个文档的产生概率,并对文档进行排序。该模型的优势在于能够在句子的层面灵活地结合词语相关性的信息,以改进排序结果。经对该模型与传统的统计语言模型进行的比较实验表明,本模型有效地提高了排序精度。 相似文献
8.
本文依次介绍了信息检索的三类数学模型——集合模型、代数模型和概率模型,并对这三类信息检索模型的检索效果进行了分析。在此基础上提出了一种实用的信息检索方法,我们称为二次检索方法。该方法基于布尔模型和向量空间模型,综合了两者的特点,从而有效地提高了信息检索的效果。文章最后通过实验,对二次检索方法、布尔模型、向量空间模型的查全率、查准率进行了比较,验证了二次检索的优点。 相似文献
9.
基于文摘的信息检索模型 总被引:1,自引:0,他引:1
基于文摘的检索模型是基于一个假设。即出现在文摘中的词要比未出现在文摘中的词更能表达文章的主题,因此对检索贡献更大.提出了两个基于文摘的语言检索模型,一个是用文摘模型代替文档模型直接检索文件(SQL),另一个是用文摘模型平滑文档模型(SBDM).在TREC数据集上的实验表明,该模型能够提高检索的性能.其中,SBDM的性能一致接近或优于传统的标准文档查询相似模型.有两个方面的贡献,一方面提出了面向检索的文摘抽取方法并考察了这些文摘方法对检索性能的影响;另一方面提出了新的检索模型,即基于文摘的检索模型. 相似文献
10.
上下文信息检索研究综述 总被引:4,自引:0,他引:4
上下文信息检索强调把有关用户、资源和查询的上下文与信息检索技术统一组织在一个整体框架内,以向用户提供最适合用户需求的检索信息。全面介绍了上下文信息检索的研究现状,概括了国内外研究者对上下文信息检索过程中涉及的上下文因素及其分类,并从用户上下文、文档上下文和系统上下文3个角度对国内外有关上下文信息检索技术的研究作了概述。最后从5个方面探讨了上下文信息检索领域存在的挑战,指出对用户检索背后需求的探究、基于语义的理解和融合上下文的信息检索模型等将是该领域目前亚需解决的问题。 相似文献
11.
12.
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。 相似文献
13.
信息检索的模型,主要是用于检索和排序的计算用户查询请求和信息的匹配程度的问题。目前已有的检索模型有布尔模型、向量模型、概率模型以及以上三个经典模型的变形模型。通过对经典模型进行分析比较,以便在设计具体的检索系统时,根据检索对象的特点,采取合适的检索模型,提高检索效率。 相似文献
14.
基于链接描述文本及其上下文的Web信息检索 总被引:20,自引:0,他引:20
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一,由此产生了基于超链接结构的检索技术。描述了链接描述文档的概念,并在此基础上研究链接文本(anchor text)及其上下文信息在检索中的作用。通过使用超过169万篇网页的大规模真实数据集以及TREC 2001提供的相关文档及评价方法进行测试,得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在已知网页定位的任务上能够使系统性能提高96%,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能;最后,把基于链接描述文本的方法与传统方法相结合,能够在检索性能上提高近16%。 相似文献
15.
16.
基于文档实例的中文信息检索 总被引:2,自引:0,他引:2
传统的信息检索系统基于关键词建立索引并进行信息检索.这些系统存在查询返回文档集大、准确率低和普通用户不便于构造查询等不足.为此,该文提出基于文档实例的信息检索,即以已有文档作为样本,在文档库中检索与样本文档相似的所有文档.文中给出了基于文档实例的中文信息检索的解决方法和实现技术.初步实验结果表明该方法是行之有效的. 相似文献
17.
查询扩展是提高检索效果的有效方法,传统的查询扩展方法大都以单个查询词的相关性来扩展查询词,没有充分考虑词项之间、文档之间以及查询之间的相关性,使得扩展效果不佳。针对此问题,该文首先通过分别构造词项子空间和文档子空间的Markov网络,用于提取出最大词团和最大文档团,然后根据词团与文档团的映射关系将词团分为文档依赖和非文档依赖词团,并构建基于文档团依赖的Markov网络检索模型做初次检索,从返回的检索结果集合中构造出查询子空间的Markov网络,用于提取出最大查询团,最后,采用迭代的方法计算文档与查询的相关概率,并构建出最终的基于迭代方法的多层Markov网络信息检索模型。实验结果表明 该文的模型能较好地提高检索效果。 相似文献
18.