首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
查询扩展作为一门重要的信息检索技术,是以用户查询为基础,通过一定策略在原始查询中加入一些相关的扩展词,从而使得查询能够更加准确地描述用户信息需求。排序学习方法利用机器学习的知识构造排序模型对数据进行排序,是当前机器学习与信息检索交叉领域的研究热点。该文尝试利用伪相关反馈技术,在查询扩展中引入排序学习算法,从文档集合中提取与扩展词相关的特征,训练针对于扩展词的排序模型,并利用排序模型对新查询的扩展词集合进行重新排序,将排序后的扩展词根据排序得分赋予相应的权重,加入到原始查询中进行二次检索,从而提高信息检索的准确率。在TREC数据集合上的实验结果表明,引入排序学习算法有助于提高伪相关反馈的检索性能。  相似文献   

2.
针对信息检索中存在的词不匹配问题,提出一种基于频繁项集和相关性的局部反馈查询扩展算法。设计查询扩展模型和扩展词权重计算方法,从前列n篇初检文档中,挖掘同时含有查询词项、非查询词项的频繁项集,在该频繁项集中提取非查询词项作为候选扩展词,计算每个候选扩展词与整个查询的相关性,并根据该相关性得到最终的扩展词,以此实现查询扩展。实验结果表明,该算法能有效提高信息检索的性能。  相似文献   

3.
针对现有查询扩展缺陷,提出基于用户查询行为和词间完全加权关联规则挖掘的相关反馈查询扩展算法。在不改变用户查询信息习惯的前提下,无须用户参与,根据用户查询行为判断初检文档的相关性,提取相关的初检文档,挖掘与原查询相关的关联规则,构造规则库,从中提取与原查询相关的扩展词,实现查询扩展。实验结果表明,该算法能提高信息检索性能,具有很好的应用前景。  相似文献   

4.
将语词抽取、负关联规则挖掘和查询扩展技术应用于信息检索,提出一种基于语词抽取与负关联规则挖掘融合的信息检索系统模型及其算法.详细论述模型的设计思想、各模块的功能,以及模型的理论分析和检索算法.该模型能够将语词抽取、负关联规则挖掘和查询扩展三种技术融合,对初检文档集进行有效地处理,得到高质量的与原查询词相关的扩展词,和原查询组合成新查询,再进行二次检索,有效地解决了词不匹配的问题.实验结果表明,该模型有效,能改善和提高信息检索性能  相似文献   

5.
为在信息检索系统中获得更好的查询效果,提出一种混合的个性化查询扩展模型。通过潜在语义分析建立潜在语义空间,并在潜在语义空间中计算得到查询的概念相关扩展词和兴趣相关扩展词,不但有效解决了词典问题,而且满足了不同用户需求多样性和用户多兴趣点的需求。实验表明,该算法能够较好地提高搜索引擎系统的查全率、查准率,以及信息检索效率。  相似文献   

6.
针对现有信息检索系统中存在的词不匹配问题,本文提出一种基于负关联规则挖掘与特征词抽取融合的局部反馈查询扩展算法。该算法首先从前列n篇初检局部文档中抽取特征词,建立特征词库;然后,对特征词库挖掘同时含有查询词和非查询词的频繁项集和非频繁项集,由此挖掘前件是查询项的负关联规则,提取负关联规则的后件作为负关联特征词,计算负关联特征词与原查询的相关性,根据相关性在特征词库中删除负关联特征词,将余下的特征词作为最终扩展词,和原查询组合成新查询实现查询扩展。实验结果表明,该算法能有效地提高和改善信息检索性能。  相似文献   

7.
许静芳  李星  李粤 《计算机工程》2005,31(21):143-145
提出了一种基于用户查询日志的主题式词典的构建方法,用于中文信息检索中分词。利用互信息从用户查询日志中提取短语并与通用词典相结合构建主题式词典。该词典能提高信息检索的准确率和效率,并有助于解决未登录词问题。  相似文献   

8.
基于用户日志的查询扩展统计模型   总被引:24,自引:0,他引:24       下载免费PDF全文
崔航  文继荣  李敏强 《软件学报》2003,14(9):1593-1599
信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度.  相似文献   

9.
黄名选  钟智  张师超 《计算机工程与设计》2012,33(5):1863-1866,1880
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能.  相似文献   

10.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

11.
为了区分与原查询正负相关的扩展词,提高查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种基于关联规则q→ti和q→-tj挖掘的局部反馈查询扩展算法。该算法从初检的前列文档中挖掘只含查询词项的词间正负关联规则q→ti和q→-tj,构造正负规则库;从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,与原查询组合实现查询扩展。算法还给出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理。实验结果表明算法不仅能发现虚假扩展词,而且还能改善和提高信息检索性能。  相似文献   

12.
一种基于上下文的中文信息检索查询扩展   总被引:13,自引:5,他引:13  
在中文信息检索的研究和实践中,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果。本论文中提出并实现了一种基于上下文的查询扩展方法,可以根据查询的上下文对扩展词进行选择,是一种相对“智能”的查询扩展方法。在TREC - 9 中文信息检索测试集上进行的实验表明,相对于通常简单的查询扩展,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。  相似文献   

13.
查询扩展是解决查询词与相关文档中的词不匹配而导致检索效率低下问题的关键技术之一。提出了基于层次依赖的Markov网络信息检索扩展模型。该模型综合考虑了候选词与查询词的层次距离、词间相关性、词节点的出度和路径等因素,通过层次依赖关系对候选词进行重新加权,选择与查询最为相关的候选词应用于信息检索扩展模型,有利于挖掘出更多潜在的、深层次依赖关系的查询候选词。在5个标准数据集上进行了实验,结果表明基于层次依赖的Markov网络信息检索扩展模型与未进行查询扩展的BM25模型相比,在3-avg和11-avg上分别提高了5%~41%和5%~70%不等,与基于直接相关的Markov网络信息检索扩展模型相比,该模型在总体检索效率上表现更优。  相似文献   

14.
查询扩展是改善和提高信息检索性能的核心技术之一,其关键问题是如何获取与原查询相关的扩展词。通过关联规则挖掘技术获取扩展词是一种有效的扩展词来源方法。为了获取高质量的扩展词,提出了一种面向查询扩展的基于文本数据库的词间正负关联规则挖掘算法。该算法采用支持度-置信度-相关度框架衡量关联规则,避免产生自相矛盾的正、负关联规则,并结合查询项,给出新的剪枝策略,挖掘出只含有查询词项的正负规则,提高了挖掘效率。实验结果表明,与传统的挖掘算法比较,提出的算法更有效、合理,能检测和删除相互矛盾的规则。  相似文献   

15.
查询扩展作为查询优化的重要组成部分,对改善信息检索系统的性能起到了至关重要的作用.传统的伪相关反馈查询扩展方法虽然在一定程度上提高了检索性能,但选择的扩展词中会包含一部分与原查询不相关的词语,这对检索性能的提升产生了不利影响.提出了一种基于分类模型的查询扩展方法,该算法综合候选扩展词的统计信息和多种特征,采用朴素贝叶斯分类模型对初次得到的候选扩展词进行再次分类选择,进一步去除与查询词相关性小的扩展词.在TREC 2013数据集上的实验结果表明,提出的查询扩展方法能够有效提高用户查询的查准率和查全率.  相似文献   

16.
针对现有信息检索系统难以按查询需求处理检索文档的问题,提出了一种基于相关反馈的信息检索模型,分析了查询词分解,推导了相关反馈机制和正规化过程,并进一步阐述了文档提取方法。提出的模型通过相关反馈和查询词扩展,克服了传统方法无法计算文档与查询词之间的相似度问题,并能有效地处理检索文档。仿真结果证明了该模型的有效性和可行性。  相似文献   

17.
查询词之间的距离较为接近的文档,相关的可能性更大,将这种距离信息用于信息检索模型的构造可有效提高检索的性能。然而直接估计查询词在文档中的距离需要大量的训练文本,且计算复杂度高。该文提出了一种结合句子级别检索的信息检索模型,将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。标准数据集上的实验结果表明所提出的模型可以取得较好的性能。  相似文献   

18.
将Copulas理论引入文本特征词关联模式挖掘,提出融合Copulas理论和关联规则挖掘的查询扩展算法.从初检文档集中提取前列n篇文档构建伪相关反馈文档集或用户相关反馈文档集,利用基于Copulas理论的支持度和置信度对相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,从这些规则模式中提取扩展词,实现查询扩展.在NTCIR-5 CLIR中英文本语料上的实验表明,文中算法可有效遏制查询主题漂移和词不匹配问题,改善信息检索性能,提升扩展词质量,减少无效扩展词.  相似文献   

19.
为了区分与原查询正负相关的扩展词,提高查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种基于关联规则q→ti和q→-(┐)tj挖掘的局部反馈查询扩展算法.该算法从初检的前列文档中挖掘只含查询词项的词间正负关联规则q→ti和q→ (┐)tj,构造正负规则库;从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,与原查询组合实现查询扩展.算法还给出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理.实验结果表明算法不仅能发现虚假扩展词,而且还能改善和提高信息检索性能.  相似文献   

20.
针对现有信息检索系统查询性能的不足,提出了一种结合相关规则和WordNet本体信息的查询扩展方法.该方法借助相关规则挖掘和WordNet本体信息构建加权词语关系图,并根据加权图的结构和权重信息计算扩展词的重要性.查询时,从这个图中取原查询词的最邻近词作为扩展词来源,选取其中权重最大的p个词返回并进行二次检索.在实现算法的基础上,通过Lucene全文检索器进行实验,将所得的结果值F1与其他算法的结果作比较.比较结果表明,该方法比不作扩展的检索有约16.93%的性能提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号