首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 170 毫秒
1.
查询词之间的距离较为接近的文档,相关的可能性更大,将这种距离信息用于信息检索模型的构造可有效提高检索的性能。然而直接估计查询词在文档中的距离需要大量的训练文本,且计算复杂度高。该文提出了一种结合句子级别检索的信息检索模型,将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。标准数据集上的实验结果表明所提出的模型可以取得较好的性能。  相似文献   

2.
为了满足用户对信息检索结果准确不断提高的需求,尽可能应用那些与查询及检索结果有关的信息进行查询结果优化是一种有效的手段。查询扩展和结果重排就是利用附加信息进行检索结果优化的方法。该文提出了基于文档团的文档重排模型(DCRM模型),此模型通过对文档集的学习,构造文档与文档关系的Markov网络,提取出文档Markov网络中的“文档团”,应用文档团信息进行文档重排。在adi、cacm、med、cisi和cran五个数据集上的实验结果表明,本文提出的基于文档团的文档重排模型较BM25模型性能得到有效提高。  相似文献   

3.
该文针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;再次,用基于关键词相关度与主题相关度相结合的方法估计查询与样本集中文档的综合相关度,进而估计查询与各集合的相关度;最后,选择相关度最高的M个集合进行检索。实验部分采用RmP@nMAP作为评价指标,对集合选择方法的性能进行了验证。实验结果表明该方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。  相似文献   

4.
合理的文档集合划分能够有效的提高分布式信息检索的效果,本文针对分布式信息检索中的集合划分问题,提出了一种基于查询空间的文档集合划分算法。与传统的基于文档空间的划分算法相比,该算法从一种全新的角度看待和理解文档集合划分问题,给出了一种针对大规模海量信息的文档集合划分解决方案。实验表明该算法在算法效果和算法效率方面都有很大的提高。  相似文献   

5.
基于区域性分割索引节点的分布式副本定位方法   总被引:2,自引:0,他引:2  
提出了一种在数据网格环境下的基于区域性分割索引节点的分布式副本定位方法。利用将副本定位索引信息按着区域特点或访问的频繁程度分布存储在多个索引节点上,同时利用本地副本定位节点完成本地副本的查询。此方法实现简单且具有区域特性。  相似文献   

6.
张刚  周昭涛  王斌 《计算机工程》2006,32(12):80-81,84
介绍了一种基于主题的分布式信息检索方法,并对算法的有效性进行了深入的分析。该文通过文本聚类方法,把文档按照主题的方式来划分,经过实验发现查询答案明显地汇聚在少数的文档集合中。由此表明,基于主题的分布式信息检索方法比传统分布式信息检索方法在检索效果上有了显著的提高。  相似文献   

7.
本体是基于本体的信息检索性能优劣的关键。目前的本体学习没有专门针对信息检索的查询扩展和检索结果组织的特点,导致信息检索效果不佳。提出面向信息检索的本体学习框架,采用基于相容类的概念层次关系学习方法,各层领域概念从相容类对应的文档集合提取。然后量化表示领域概念,挖掘概念中的同义词,基于同义词重新建立文档集合的概念空间。将获取的本体应用到信息检索实验中,实验表明该框架获取的本体可提高检索的准确性和效率。  相似文献   

8.
针对现有信息检索系统难以按查询需求处理检索文档的问题,提出了一种基于相关反馈的信息检索模型,分析了查询词分解,推导了相关反馈机制和正规化过程,并进一步阐述了文档提取方法。提出的模型通过相关反馈和查询词扩展,克服了传统方法无法计算文档与查询词之间的相似度问题,并能有效地处理检索文档。仿真结果证明了该模型的有效性和可行性。  相似文献   

9.
为提高检索性能,提出将基于高斯分布-指数分布混合模型的融合方法应用于分布式检索系统的多站点融合。该方法利用高斯密度函数和指数密度函数分别描述站点检索结果集合的相关文档和非相关文档的相关分值分布,并用基于混合模型的方法对相关分值进行规范化处理,然后对规范化处理后的相关分值进行合并。该融合方法考虑到了相关文档和非相关文档在分值分布上的差异,使计算出的相关分值更加准确,而且可以为性能比较好的站点分配更高的权重值,以提高整个系统的平均查准率。实验结果表明该方法优于其它融合方法。  相似文献   

10.
查询扩展是信息检索中优化查询的一种有效方法。在分析几种基于互信息的查询扩展方法的基础上,将检索词在文档空间中的距离引入到互信息计算中,提出基于向量距离的改进互信息的查询扩展方法。实验结果表明,该方法能够有效提高信息检索中的查询效果。  相似文献   

11.
基于数据融合和相关度反馈的信息检索方法   总被引:1,自引:1,他引:0  
王非 《计算机应用》2008,28(9):2321-2323
数据融合和基于相关度反馈的查询扩展是两种有效的检索过程优化技术。前者通过集成多个检索结果提高检索性能,后者执行多次查询,依据前次结果修改/扩展用户查询,以求更好地反映用户信息需求。在混合数据融合和查询扩展技术的基础上提出一种检索过程优化方法——HQD方法,由相关度反馈结果生成多个替代查询,检索这些替代查询后采用求和余弦方法生成最终检索结果。HQD方法能有效提高检索性能。  相似文献   

12.
为了从这些海量信息中获取“有用的、满足用户需求的信息”,提出一个基于Hadoop和Lucene技术的分布式检索系统架构处理Web电子产品信息检索。利用Hadoop的Map和Reduce实现分布式索引文件的存储,通过Lucene检索技术实现索引文件的访问,从而提高信息检索的效率。并且针对Lucene_Hadoop架构存在粗粒度检索问题,提出了一种细粒度检索方法,减少了系统建立索引的时间。实验表明基于Hadoop和Lucene的分布式检索系统在Web电子产品信息中具有较高的检索性能。  相似文献   

13.
针对信息检索中存在的词不匹配问题,提出一种基于频繁项集和相关性的局部反馈查询扩展算法。设计查询扩展模型和扩展词权重计算方法,从前列n篇初检文档中,挖掘同时含有查询词项、非查询词项的频繁项集,在该频繁项集中提取非查询词项作为候选扩展词,计算每个候选扩展词与整个查询的相关性,并根据该相关性得到最终的扩展词,以此实现查询扩展。实验结果表明,该算法能有效提高信息检索的性能。  相似文献   

14.
将频繁项集挖掘和查询扩展技术应用于信息检索,提出一种新的基于频繁模式挖掘与查询扩展的信息检索系统模型及其算法,并给出该检索系统模型的设计思想,以及模型总体结构及其各模块功能,实现了系统原型。实验结果表明,该检索系统模型能有效地提高和改善信息检索性能。  相似文献   

15.
现实生活中的图像大多具有多种标签属性。对于多标签图像,理想情况下检索到的图像应该按照与查询图像相似程度降序排列,即与查询图像共享的标签数量依次递减。然而,大多数哈希算法主要针对单标签图像检索而设计的,而且现有用于多标签图像检索的深度监督哈希算法忽略了哈希码的排序性能且没有充分地利用标签类别信息。针对此问题,提出了一种具有性能感知排序的深度监督哈希方法(deep supervised hashing with performance-aware ranking,PRDH),它能够有效地感知和优化模型的性能,改善多标签图像检索的效果。在哈希学习部分,设计了一种排序优化损失函数,以改善哈希码的排序性能;同时,还加入了一种空间划分损失函数,将具有不同数量的共享标签的图像划分到相应的汉明空间中;为了充分地利用标签信息,还鲜明地提出将预测标签用于检索阶段的汉明距离计算,并设计了一种用于多标签分类的损失函数,以实现对汉明距离排序的监督与优化。在三个多标签基准数据集上进行的大量检索实验结果表明,PRDH的各项评估指标均优于现有先进的深度哈希方法。  相似文献   

16.
合理高效的数据对象选择策略是提高分布式空间数据检索效率的重要因素之一。基于人眼视觉特性,综合考虑了视口尺度对分布式空间数据检索的影响,提出了一种视口尺度相关的分布式空问数据检索方法,将视口尺度集成到分布式空问数据对象选择算法中,能根据视口尺度自适应地调整分布式空间数据对象的选择策略。实验结果表明,谈方法在小视口尺度检索时能显著降低处理和传输的数据量,以较小代价快速得到查询结果的近似解。  相似文献   

17.
针对传统的信息检索方法无法实现用户查询的语义理解、检索效率低等问题,本文提出基于领域本体进行查询扩展的贝叶斯网络检索模型。该模型首先将用户查询通过领域本体进行语义扩展,然后将扩展后的查询作为证据在贝叶斯网络检索模型中进行传播,进而得到查询结果,实验表明本文提出的贝叶斯网络检索模型能提高检索效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号