共查询到18条相似文献,搜索用时 93 毫秒
1.
基于统计语言模型的信息检索 总被引:4,自引:0,他引:4
本文对基于统计语言模型的信息检索进行了综述,介绍了目前基于统计语言模型信息检索中比较有代表性的模型,给出了语言模型估计中常用的几种平滑技术,将语言模型同目前流行信息检索模型进行了比较,在此基础上,指出了基于统计语言模型信息检索的研究方向。 相似文献
2.
3.
基于文摘的信息检索模型 总被引:1,自引:0,他引:1
基于文摘的检索模型是基于一个假设。即出现在文摘中的词要比未出现在文摘中的词更能表达文章的主题,因此对检索贡献更大.提出了两个基于文摘的语言检索模型,一个是用文摘模型代替文档模型直接检索文件(SQL),另一个是用文摘模型平滑文档模型(SBDM).在TREC数据集上的实验表明,该模型能够提高检索的性能.其中,SBDM的性能一致接近或优于传统的标准文档查询相似模型.有两个方面的贡献,一方面提出了面向检索的文摘抽取方法并考察了这些文摘方法对检索性能的影响;另一方面提出了新的检索模型,即基于文摘的检索模型. 相似文献
4.
首先介绍了统计语言模型(SLM)的发展及常用的N元(n-gram)模型,对信息检索过程中的主要模型作了公式化描述并比较了不同模型,指出了它们之间及与传统概率检索方法的异同,分析了统计语言模型的弱点,最后介绍了对其可能的改进方法及最新研究进展,讨论了在中文信息检索中的应用和面对的挑战。 相似文献
5.
准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K2Means 聚类算法”来对文档集合进行聚类,通过引入Aspect Model 结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek2Mercer 模型方法相比较,主题语言模型检索系统的平均精度提高大约16117 % ,召回率提高大约
9164 %。 相似文献
6.
随着互联网的发展,各国人民的交流日渐增多,跨语言信息检索变得日益重要。由于中文和英文的用户众多,汉英跨语言信息检索有着特别重要的意义。本文首先介绍信息检索的基本模型,然后介绍翻译和非翻译策略的跨语言信息检索技术,并给出一些汉英跨语言信息检索的难点问题。 相似文献
7.
为适应中文问答系统中汉语语言的特点,本文对信息检索模块进行了深入分析,相对于传统的主流信息检索模型,找到了一种更有效的检索方法——基于SLM的语言模型的信息检索技术(SLM-IR)。同时,研究了N-gram模型的参数N选取及其几种主要的数据平滑技术,并通过对各种数据平滑方法的实验对比,讨论了影响这些数据平滑方法性能的有关因素,如训练集规模等,最终给出了在不同情况下的最优选择方案。 相似文献
8.
传统的话题模型假设每个文档只属于一个话题,而实际情况下一个文档往往与多个话题相关。应用LDA 模型将文档表示为多个话题的组合,并基于语言模型框架,提出了一种基于 LDA 的混合模型用于文本信息的 Ad hoc 检索。该方法将 LDA 模型与文档模型相结合,与聚类模型相比,在保持较低的计算复杂度外,具有很高的检索性能,因此更适用于大规模文档集的信息检索。 相似文献
9.
摘 要: 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好的实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA模型与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。 相似文献
10.
相对于传统的基于整个文档的检索模型来说,基于句子的信息检索模型将每个文档表示成为bag of sentences,并从这些句子中生成问题相对每个文档的产生概率,并对文档进行排序。该模型的优势在于能够在句子的层面灵活地结合词语相关性的信息,以改进排序结果。经对该模型与传统的统计语言模型进行的比较实验表明,本模型有效地提高了排序精度。 相似文献
11.
个性化信息检索是十分有用的检索方法,用户模型能够表示用户个人的爱好与兴趣,有许多研究工作以各种方式使用用户模型扩充问句.提出一种新的基于一元语言模型的方法.它通过对包含多个主题域的长期用户模型的学习得到相关的语义内容,对问句进行扩展后进行检索,得到更接近用户兴趣的结果,然后再与伪相关反馈模型相结合,进一步提高检索性能.通过实验证明,该方法取得了较好的效果. 相似文献
12.
13.
14.
15.
田欢 《计算机光盘软件与应用》2012,(1):22+46
本文概述了信息源的分类,对信息检索的概念做了简单的描述。对于经典的布尔检索、向量空间检索、概率检索做了比较详细的分析,并且对信息检索模型的发展方向做了一定的介绍。 相似文献
16.
17.
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。 相似文献
18.
以自然语言形式提出的查询问句不同于通常的关键词或主题词查询,需要提取用户真正要检索的信息内容。该文提出一个自然语言查询语句的处理框架,由3个部分构成:(1)离析查询问句的操作表述和信息内容;(2)凸显真正的信息需求内容;(3)对不同信息内容采取不同的词语实现方法。这一处理可望为自然语言信息检索提供准确的用户需永分析。 相似文献