首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
《计算机科学与探索》2016,(12):1673-1682
伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。  相似文献   

2.
传统伪相关反馈容易产生“查询主题漂移”,有效避免“查询主题漂移”的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合.在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型.相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档.  相似文献   

3.
查询词扩展要解决两个方面的问题:一是扩展词的来源,二是如何在来源集合里挑选扩展词项。对此,首先利用检索结果聚类和排序模型获取了较高质量的相关文档集合,并以此作为扩展源;然后结合XML文档的特点,通过词项间的局部共现特征进行查询扩展。相关实验结果表明,一方面,所采用的检索结果聚类和排序模型的相关文档集扩展源具有较高的用户查询相关性,相比传统的伪反馈扩展源,具有更高的质量;另一方面,提出的结合了XML结构特点的词共现查询扩展方案能获得与用户查询意图相关的扩展信息,与初始查询和无结构的词项扩展方法相比,所提方法能够更有效地提高搜索引擎检索性能。  相似文献   

4.
传统的伪相关反馈(pseudo relevance feedback,PRF)方法,将文档作为基本抽取单元进行查询扩展,抽取粒度过大造成扩展源中噪音量的增加。研究利用主题分析技术来减轻扩展源的低质量现象。通过获取隐藏在伪相关文档集(pseudo-relevant set)各文档内容中的语义信息,并从中提取与用户查询相关的抽象主题内容作为基本抽取单元用于查询扩展。在NTCIR 8中文语料上,与传统PRF方法和基于主题模型的PRF方法相比较,实验结果表明该方法可以抽取出更符合用户查询的扩展词。此外,结果显示从更小的主题内容粒度出发进行查询扩展,可以有效提升检索性能。  相似文献   

5.
基于关键字的XML信息检索反馈技术的研究   总被引:1,自引:0,他引:1  
信息检索中,反馈技术能很大程度上提高信息检索的准确率.提出了一种基于XML信息检索的相关反馈技术,根据用户反馈的相关文档,重构一个"主题+结构+内容"的查询表达式.该方法通过主题、结构、内容3个方面进行扩展,得到最终的查询表达式,尽可能完整地表达用户的查询意图.利用TopX 2. 0平台,在Wikipedia 2009数据集上的实验证明,该方法使得扩展后的平均查准率比扩展前在pre@10上提高了41% ,在pre@20上提高了39.5%.  相似文献   

6.
闫蓉  高光来 《计算机应用》2016,36(8):2099-2102
针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。  相似文献   

7.
将Copulas理论引入文本特征词关联模式挖掘,提出融合Copulas理论和关联规则挖掘的查询扩展算法.从初检文档集中提取前列n篇文档构建伪相关反馈文档集或用户相关反馈文档集,利用基于Copulas理论的支持度和置信度对相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,从这些规则模式中提取扩展词,实现查询扩展.在NTCIR-5 CLIR中英文本语料上的实验表明,文中算法可有效遏制查询主题漂移和词不匹配问题,改善信息检索性能,提升扩展词质量,减少无效扩展词.  相似文献   

8.
一种基于统计语义聚类的查询语言模型估计   总被引:2,自引:0,他引:2  
如何有效生成文档聚类并使用聚类信息提高检索效果是信息检索中的重要研究课题.如果假设文档中存在若干隐含的独立主题,那么文档可以看成是由这些隐含的独立主题混合噪声相互作用的结果.基于这个假设提出了一种基于独立分量分析的语义聚类技术,试图借助于独立分量分析的良好主题区分能力,将一组文档按照实际隐含的主题在语义空间上聚类.在语言模型的框架下,语义主题聚类将由用户初始查询按照一定的度量方式激活.利用激活语义聚类的信息估计一个反馈语义主题模型,并与初始查询模型一起形成新的查询模型.在5个TREC数据集上的实验结果表明:基于统计语义聚类估计的查询模型相比传统的查询模型以及其他基于聚类的语言模型在检索性能上有显著性提高.其主要原因是应用了和用户查询最相似的语义聚类信息来估计查询模型.  相似文献   

9.
提出了一种发现蕴藏在不同XML文档嵌套结构中的关系信息及其出现模式的新方法.可根据用户兴趣,发现描述不同实体之间联系的关系信息,抽取关系实例及其在文档中的出现模式.具体解决方案是:首先识别和收集包含用户感兴趣的实体的XML文档片段:然后根据文档片段标签的语义和文档片段的结构计算文档片段的相似度,并采用自适应阈值方法按相似度聚类文档片段.使得包含同一种关系的文档片段聚集在同一个片段簇:最后从XML文档片段簇中抽取关系实例及其出现模式.实验结果表明,对于包含有意义标签的各种XML文档,该方法能够准确地识别和抽取出描述指定实体之间联系的各种关系信息.  相似文献   

10.
基于关键字的XML检索技术是近几年信息检索领域的研究热点.但是由于关键字缺少XML结构语义信息,检索结果和用户需求偏差较大,检索质量难以提高;而XML结构检索由于用户难以提出准确描述查询意图的查询表达式而难以普及.另一个更突出的问题是现有的XML检索研究绝大多数都集中在单文档上,缺乏实用性.因此提出一种基于关键字的结构检索方法,即用分布式方式实现对多XML文档的检索,简称为MXDR(Multi-XML Distributed Retrieval).MXDR首先用一种兼顾结构和内容的聚类方法对多文档进行分类,通过分析查询关键字和类别结构信息,确定分布查找策略,再结合查询关键字和XML的结构信息,构建结构查询语句,最后通过结构查询系统实现关键字检索.在多组真实数据Sigmod数据集上的验证结果表明,与经典的SLCA方法比较,MXDR方法具有较高的查全率和查准率,尤其在检索效率上MXDR方法有显著优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号