首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
In information retrieval (IR) research, more and more focus has been placed on optimizing a query language model by detecting and estimating the dependencies between the query and the observed terms occurring in the selected relevance feedback documents. In this paper, we propose a novel Aspect Language Modeling framework featuring term association acquisition, document segmentation, query decomposition, and an Aspect Model (AM) for parameter optimization. Through the proposed framework, we advance the theory and practice of applying high‐order and context‐sensitive term relationships to IR. We first decompose a query into subsets of query terms. Then we segment the relevance feedback documents into chunks using multiple sliding windows. Finally we discover the higher order term associations, that is, the terms in these chunks with high degree of association to the subsets of the query. In this process, we adopt an approach by combining the AM with the Association Rule (AR) mining. In our approach, the AM not only considers the subsets of a query as “hidden” states and estimates their prior distributions, but also evaluates the dependencies between the subsets of a query and the observed terms extracted from the chunks of feedback documents. The AR provides a reasonable initial estimation of the high‐order term associations by discovering the associated rules from the document chunks. Experimental results on various TREC collections verify the effectiveness of our approach, which significantly outperforms a baseline language model and two state‐of‐the‐art query language models namely the Relevance Model and the Information Flow model.  相似文献   

2.
查询扩展作为一门重要的信息检索技术,是以用户查询为基础,通过一定策略在原始查询中加入一些相关的扩展词,从而使得查询能够更加准确地描述用户信息需求。排序学习方法利用机器学习的知识构造排序模型对数据进行排序,是当前机器学习与信息检索交叉领域的研究热点。该文尝试利用伪相关反馈技术,在查询扩展中引入排序学习算法,从文档集合中提取与扩展词相关的特征,训练针对于扩展词的排序模型,并利用排序模型对新查询的扩展词集合进行重新排序,将排序后的扩展词根据排序得分赋予相应的权重,加入到原始查询中进行二次检索,从而提高信息检索的准确率。在TREC数据集合上的实验结果表明,引入排序学习算法有助于提高伪相关反馈的检索性能。  相似文献   

3.
基于相关文档池建模的查询扩展   总被引:7,自引:0,他引:7  
在信息检索领域,相关反馈是提高检索性能的有效方法之一。所谓相关反馈,指用户按照一定策略从查找到的相关文档中选择一些和主题相关的词进行查询扩展的技术。本文介绍了概率模型和向量空间模型下的常用查询扩展方法,并提出了一种基于语言模型的相关反馈方法,该方法同时考虑了扩展词应该具备的两个特征,即相关性和覆盖性。在TREC测试集上对这些算法进行了比较,结果表明这种新算法在平均准确率上比传统方法有所提高。  相似文献   

4.
提出一种基于查询词邻近度的专家搜索算法。根据查询词在窗口中的共现关系构建概率语言模型的查询词邻近度,利用经典概率模型作为背景平滑,通过对多个查询词在文档中的距离关系建模,结合候选人与查询词之间的距离对候选专家排序。实验结果表明,在该算法中引入查询词邻近度可以提高搜索准确率,应用候选人与查询词2种邻近度可以取得更好的专家搜索效果。  相似文献   

5.
介绍了基于关联规则的局部反馈查询扩展基本思想,重点研究关联规则支持度、置信度和扩展词数量对查询扩展检索性能的影响。实验结果表明,这种查询扩展的检索性能对其支持度、置信度以及扩展词数量比较敏感;从关联规则获得的扩展词可以分为两类,即与原查询正相关的扩展词和与原查询负相关或者假相关的扩展词(即噪音),前者可以提高和改善查询扩展的检索性能,而后者只能降低其检索性能。  相似文献   

6.
基于上下文的查询扩展   总被引:5,自引:0,他引:5  
针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率.  相似文献   

7.
信息检索中的相关反馈技术综述*   总被引:4,自引:1,他引:3  
论述了信息检索中的向量空间模型、概率模型以及语言模型中所采用的相关反馈技术。其中主要介绍检索词的权重调整、查询扩展、文档相关反馈,以及语言模型中的查询语言模型和文档语言模型的调整。针对最近反馈方面的最新成果——基于term的反馈技术进行了探讨,指出了相关反馈在今后研究的方向,即提供个性化的如分层反馈和利用日志进行反馈,并讨论了相关反馈技术对检索性能的影响。  相似文献   

8.
以RDF结构为基础的数据网的发展中,高效数据检索成为关键问题之一。形式化查询语言(如SPARQL)因其语法的复杂性及查询本体的相关性阻碍其效用的发挥,迫切需要新的方法或工具实现以自然语言为基础(如关键字检索)的检索。形式化查询语言是检索这类结构化数据的有效方式,用户习惯自然语言为基础的检索方式。因而如何自动将关键词为基础的检索方式转换成以形式化查询为基础的检索方式是实现数据网的重要一环。关联数据的自然语言查询方法自动将自然语言查询转换成SPARQL查询,提高系统的有效性和效率。文中在抽象转换度量模型的基础上,以本体为基础构建查询语义图及实现语义消歧,构建SPARQL查询。实验结果表明,该方法具有更高的召回率、精度及更低的时间消耗。  相似文献   

9.
针对信息检索中存在的词不匹配问题,提出一种基于频繁项集和相关性的局部反馈查询扩展算法。设计查询扩展模型和扩展词权重计算方法,从前列n篇初检文档中,挖掘同时含有查询词项、非查询词项的频繁项集,在该频繁项集中提取非查询词项作为候选扩展词,计算每个候选扩展词与整个查询的相关性,并根据该相关性得到最终的扩展词,以此实现查询扩展。实验结果表明,该算法能有效提高信息检索的性能。  相似文献   

10.
查询扩展是提高检索性能的有效方法。为了弥补在数据集中由于词对没有直接出现而导致无法统计出词间关系进行查询扩展的缺陷,该文通过提取Markov网络中的词团信息来量化词间的混合相关性,将强化后的词间混合相关性应用于信息检索扩展模型中。实验表明 基于混合相关的Markov网络信息检索扩展模型的检索效果优于基于直接相关的查询扩展模型;此外,该文提出的模型在总体检索性能上略优于基于团的Markov网络信息检索模型,但在词团提取上大大减少了计算开销。  相似文献   

11.
基于权重标准化SimRank方法的查询扩展技术研究   总被引:1,自引:0,他引:1  
查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。该文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank算法的计算复杂度,该文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC标准数据集上的实验表明,该文的方法可以有效地选择相关扩展词。MAP指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。  相似文献   

12.
黄名选  钟智  张师超 《计算机工程与设计》2012,33(5):1863-1866,1880
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能.  相似文献   

13.
针对现有信息检索系统中存在的词不匹配问题,本文提出一种基于负关联规则挖掘与特征词抽取融合的局部反馈查询扩展算法。该算法首先从前列n篇初检局部文档中抽取特征词,建立特征词库;然后,对特征词库挖掘同时含有查询词和非查询词的频繁项集和非频繁项集,由此挖掘前件是查询项的负关联规则,提取负关联规则的后件作为负关联特征词,计算负关联特征词与原查询的相关性,根据相关性在特征词库中删除负关联特征词,将余下的特征词作为最终扩展词,和原查询组合成新查询实现查询扩展。实验结果表明,该算法能有效地提高和改善信息检索性能。  相似文献   

14.
专家发现是实体检索领域的一个研究热点,针对经典专家发现模型存在索引术语独立性假设与检索性能低的缺陷,提出一种基于贝叶斯网络模型的专家发现方法。该方法模型采用四层网络结构,能够实现图形化的概率推理,同时运用词向量技术能够实现查询术语的语义扩展。实验结果显示该模型在多个评价指标上均优于经典专家发现模型,能够有效实现查询术语语义扩展,提高专家检索性能。  相似文献   

15.
When performing queries in web search engines, users often face difficulties choosing appropriate query terms. Search engines therefore usually suggest a list of expanded versions of the user query to disambiguate it or to resolve potential term mismatches. However, it has been shown that users find it difficult to choose an expanded query from such a list. In this paper, we describe the adoption of set‐based text visualization techniques to visualize how query expansions enrich the result space of a given user query and how the result sets relate to each other. Our system uses a linguistic approach to expand queries and topic modeling to extract the most informative terms from the results of these queries. In a user study, we compare a common text list of query expansion suggestions to three set‐based text visualization techniques adopted for visualizing expanded query results – namely, Compact Euler Diagrams, Parallel Tag Clouds, and a List View – to resolve ambiguous queries using interactive query expansion. Our results show that text visualization techniques do not increase retrieval efficiency, precision, or recall. Overall, users rate Parallel Tag Clouds visualizing key terms of the expanded query space lowest. Based on the results, we derive recommendations for visualizations of query expansion results, text visualization techniques in general, and discuss alternative use cases of set‐based text visualization techniques in the context of web search.  相似文献   

16.
一个可视知识查询语言CAOBS/VKQL   总被引:1,自引:0,他引:1  
介绍的CAOBS/VKQL是一个可视知识查询语言,它以灵活,直观,方便的图形操纵方式提供给用户访问、查询知识库的强大能力。该语文的查询模型以RIKOM知识模型为基础,用户通过构造查询图来表达查询要求。  相似文献   

17.
查询扩展是信息检索中优化查询的一种有效方法。在分析几种基于互信息的查询扩展方法的基础上,将检索词在文档空间中的距离引入到互信息计算中,提出基于向量距离的改进互信息的查询扩展方法。实验结果表明,该方法能够有效提高信息检索中的查询效果。  相似文献   

18.
Query refinement is essential for information retrieval. In this study, a fuzzy-related thesaurus based query refinement mechanism is proposed. This thesaurus can be dynamically generated during the retrieval process for a document collection that is classified by an unsupervised neural network, the self-organising map. In contrast with general relational thesaurus, the fuzzy-related thesaurus is more effective and efficient. The relationships between the terms are based on the classification of a document collection, and thus, the generated thesaurus naturally has more power to enhance retrieval quality. The recognition of the relationships can be done automatically without human involvement, which significantly reduces the cost associated with the construction of the thesaurus. An evaluation on the query refinement mechanism based on the fuzzy-related thesaurus has conducted and the preliminary result is promising. A significant improvement on retrieval performance was observed when a fuzzy-related thesaurus was used for query refinement for a software document collection.  相似文献   

19.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

20.
一种新的隐马尔可夫模型及其在手绘图形识别中的应用   总被引:2,自引:0,他引:2  
提出了一种新的隐马尔可夫模型——自适应隐马尔可夫模型(AHMM).与传统的开环HMM相区别,AHMM是一种用于识别的带反馈机制的闭环HMM.AHMM采用带有压缩率调整因子的特征压缩算法,首先对待识别的特征序列进行较高压缩率的压缩,然后将压缩得到的特征序列送入HMM识别器进行识别.根据对识别效果满意度的判决,确定是否需要调整压缩率因子以获得较长的特征序列,并重新送入HMM识别器进行识别.将该文提出的AHMM用于联机手绘图形的识别,实验表明,AHMM方法与传统的HMM方法相比,识别率和识别速度均有显著提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号