共查询到20条相似文献,搜索用时 31 毫秒
1.
In information retrieval (IR) research, more and more focus has been placed on optimizing a query language model by detecting and estimating the dependencies between the query and the observed terms occurring in the selected relevance feedback documents. In this paper, we propose a novel Aspect Language Modeling framework featuring term association acquisition, document segmentation, query decomposition, and an Aspect Model (AM) for parameter optimization. Through the proposed framework, we advance the theory and practice of applying high‐order and context‐sensitive term relationships to IR. We first decompose a query into subsets of query terms. Then we segment the relevance feedback documents into chunks using multiple sliding windows. Finally we discover the higher order term associations, that is, the terms in these chunks with high degree of association to the subsets of the query. In this process, we adopt an approach by combining the AM with the Association Rule (AR) mining. In our approach, the AM not only considers the subsets of a query as “hidden” states and estimates their prior distributions, but also evaluates the dependencies between the subsets of a query and the observed terms extracted from the chunks of feedback documents. The AR provides a reasonable initial estimation of the high‐order term associations by discovering the associated rules from the document chunks. Experimental results on various TREC collections verify the effectiveness of our approach, which significantly outperforms a baseline language model and two state‐of‐the‐art query language models namely the Relevance Model and the Information Flow model. 相似文献
2.
查询扩展作为一门重要的信息检索技术,是以用户查询为基础,通过一定策略在原始查询中加入一些相关的扩展词,从而使得查询能够更加准确地描述用户信息需求。排序学习方法利用机器学习的知识构造排序模型对数据进行排序,是当前机器学习与信息检索交叉领域的研究热点。该文尝试利用伪相关反馈技术,在查询扩展中引入排序学习算法,从文档集合中提取与扩展词相关的特征,训练针对于扩展词的排序模型,并利用排序模型对新查询的扩展词集合进行重新排序,将排序后的扩展词根据排序得分赋予相应的权重,加入到原始查询中进行二次检索,从而提高信息检索的准确率。在TREC数据集合上的实验结果表明,引入排序学习算法有助于提高伪相关反馈的检索性能。 相似文献
3.
基于相关文档池建模的查询扩展 总被引:7,自引:0,他引:7
在信息检索领域,相关反馈是提高检索性能的有效方法之一。所谓相关反馈,指用户按照一定策略从查找到的相关文档中选择一些和主题相关的词进行查询扩展的技术。本文介绍了概率模型和向量空间模型下的常用查询扩展方法,并提出了一种基于语言模型的相关反馈方法,该方法同时考虑了扩展词应该具备的两个特征,即相关性和覆盖性。在TREC测试集上对这些算法进行了比较,结果表明这种新算法在平均准确率上比传统方法有所提高。 相似文献
4.
5.
6.
基于上下文的查询扩展 总被引:5,自引:0,他引:5
针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率. 相似文献
7.
8.
肖铮 《计算机技术与发展》2020,(5):70-75
以RDF结构为基础的数据网的发展中,高效数据检索成为关键问题之一。形式化查询语言(如SPARQL)因其语法的复杂性及查询本体的相关性阻碍其效用的发挥,迫切需要新的方法或工具实现以自然语言为基础(如关键字检索)的检索。形式化查询语言是检索这类结构化数据的有效方式,用户习惯自然语言为基础的检索方式。因而如何自动将关键词为基础的检索方式转换成以形式化查询为基础的检索方式是实现数据网的重要一环。关联数据的自然语言查询方法自动将自然语言查询转换成SPARQL查询,提高系统的有效性和效率。文中在抽象转换度量模型的基础上,以本体为基础构建查询语义图及实现语义消歧,构建SPARQL查询。实验结果表明,该方法具有更高的召回率、精度及更低的时间消耗。 相似文献
9.
10.
11.
基于权重标准化SimRank方法的查询扩展技术研究 总被引:1,自引:0,他引:1
查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。该文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank算法的计算复杂度,该文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC标准数据集上的实验表明,该文的方法可以有效地选择相关扩展词。MAP指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。 相似文献
12.
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能. 相似文献
13.
黄名选 《计算机工程与科学》2011,33(11):144
针对现有信息检索系统中存在的词不匹配问题,本文提出一种基于负关联规则挖掘与特征词抽取融合的局部反馈查询扩展算法。该算法首先从前列n篇初检局部文档中抽取特征词,建立特征词库;然后,对特征词库挖掘同时含有查询词和非查询词的频繁项集和非频繁项集,由此挖掘前件是查询项的负关联规则,提取负关联规则的后件作为负关联特征词,计算负关联特征词与原查询的相关性,根据相关性在特征词库中删除负关联特征词,将余下的特征词作为最终扩展词,和原查询组合成新查询实现查询扩展。实验结果表明,该算法能有效地提高和改善信息检索性能。 相似文献
14.
专家发现是实体检索领域的一个研究热点,针对经典专家发现模型存在索引术语独立性假设与检索性能低的缺陷,提出一种基于贝叶斯网络模型的专家发现方法。该方法模型采用四层网络结构,能够实现图形化的概率推理,同时运用词向量技术能够实现查询术语的语义扩展。实验结果显示该模型在多个评价指标上均优于经典专家发现模型,能够有效实现查询术语语义扩展,提高专家检索性能。 相似文献
15.
When performing queries in web search engines, users often face difficulties choosing appropriate query terms. Search engines therefore usually suggest a list of expanded versions of the user query to disambiguate it or to resolve potential term mismatches. However, it has been shown that users find it difficult to choose an expanded query from such a list. In this paper, we describe the adoption of set‐based text visualization techniques to visualize how query expansions enrich the result space of a given user query and how the result sets relate to each other. Our system uses a linguistic approach to expand queries and topic modeling to extract the most informative terms from the results of these queries. In a user study, we compare a common text list of query expansion suggestions to three set‐based text visualization techniques adopted for visualizing expanded query results – namely, Compact Euler Diagrams, Parallel Tag Clouds, and a List View – to resolve ambiguous queries using interactive query expansion. Our results show that text visualization techniques do not increase retrieval efficiency, precision, or recall. Overall, users rate Parallel Tag Clouds visualizing key terms of the expanded query space lowest. Based on the results, we derive recommendations for visualizations of query expansion results, text visualization techniques in general, and discuss alternative use cases of set‐based text visualization techniques in the context of web search. 相似文献
16.
一个可视知识查询语言CAOBS/VKQL 总被引:1,自引:0,他引:1
介绍的CAOBS/VKQL是一个可视知识查询语言,它以灵活,直观,方便的图形操纵方式提供给用户访问、查询知识库的强大能力。该语文的查询模型以RIKOM知识模型为基础,用户通过构造查询图来表达查询要求。 相似文献
17.
18.
Query refinement is essential for information retrieval. In this study, a fuzzy-related thesaurus based query refinement mechanism
is proposed. This thesaurus can be dynamically generated during the retrieval process for a document collection that is classified
by an unsupervised neural network, the self-organising map. In contrast with general relational thesaurus, the fuzzy-related
thesaurus is more effective and efficient. The relationships between the terms are based on the classification of a document
collection, and thus, the generated thesaurus naturally has more power to enhance retrieval quality. The recognition of the
relationships can be done automatically without human involvement, which significantly reduces the cost associated with the
construction of the thesaurus. An evaluation on the query refinement mechanism based on the fuzzy-related thesaurus has conducted
and the preliminary result is promising. A significant improvement on retrieval performance was observed when a fuzzy-related
thesaurus was used for query refinement for a software document collection. 相似文献
19.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。 相似文献
20.
一种新的隐马尔可夫模型及其在手绘图形识别中的应用 总被引:2,自引:0,他引:2
提出了一种新的隐马尔可夫模型——自适应隐马尔可夫模型(AHMM).与传统的开环HMM相区别,AHMM是一种用于识别的带反馈机制的闭环HMM.AHMM采用带有压缩率调整因子的特征压缩算法,首先对待识别的特征序列进行较高压缩率的压缩,然后将压缩得到的特征序列送入HMM识别器进行识别.根据对识别效果满意度的判决,确定是否需要调整压缩率因子以获得较长的特征序列,并重新送入HMM识别器进行识别.将该文提出的AHMM用于联机手绘图形的识别,实验表明,AHMM方法与传统的HMM方法相比,识别率和识别速度均有显著提高. 相似文献