首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
查询词扩展要解决两个方面的问题:一是扩展词的来源,二是如何在来源集合里挑选扩展词项。对此,首先利用检索结果聚类和排序模型获取了较高质量的相关文档集合,并以此作为扩展源;然后结合XML文档的特点,通过词项间的局部共现特征进行查询扩展。相关实验结果表明,一方面,所采用的检索结果聚类和排序模型的相关文档集扩展源具有较高的用户查询相关性,相比传统的伪反馈扩展源,具有更高的质量;另一方面,提出的结合了XML结构特点的词共现查询扩展方案能获得与用户查询意图相关的扩展信息,与初始查询和无结构的词项扩展方法相比,所提方法能够更有效地提高搜索引擎检索性能。  相似文献   

2.
机器学习的查询扩展在博客检索中的应用   总被引:1,自引:0,他引:1  
该文介绍一种新的查询扩展方法,该方法结合了查询扩展技术和机器学习理论。通过机器学习的方法挑选出查询扩展词,以此提高检索结果的性能。对于输入的查询项,首先通过伪反馈技术生成候选扩展词集合,然后使用支持向量机对输入的候选词评分,挑选得分较高的候选词和原始查询项组成一个新的查询项。由于训练这个支持向量机的训练数据较难获得,我们利用评测会议的检索结果和检索工具自动地生成训练数据。这套查询扩展方法的优点在于通过对训练语料的学习,能够对候选扩展词作出更合理的选择。在TREC评测会议组织的观点检索任务中,相对于不采用任何扩展技术的基准系统,该方法提高了MAP指标33.1%。  相似文献   

3.
闫蓉  高光来 《计算机应用》2016,36(8):2099-2102
针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。  相似文献   

4.
查询扩展作为查询优化的重要组成部分,对改善信息检索系统的性能起到了至关重要的作用.传统的伪相关反馈查询扩展方法虽然在一定程度上提高了检索性能,但选择的扩展词中会包含一部分与原查询不相关的词语,这对检索性能的提升产生了不利影响.提出了一种基于分类模型的查询扩展方法,该算法综合候选扩展词的统计信息和多种特征,采用朴素贝叶斯分类模型对初次得到的候选扩展词进行再次分类选择,进一步去除与查询词相关性小的扩展词.在TREC 2013数据集上的实验结果表明,提出的查询扩展方法能够有效提高用户查询的查准率和查全率.  相似文献   

5.
将Copulas理论引入文本特征词关联模式挖掘,提出融合Copulas理论和关联规则挖掘的查询扩展算法.从初检文档集中提取前列n篇文档构建伪相关反馈文档集或用户相关反馈文档集,利用基于Copulas理论的支持度和置信度对相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,从这些规则模式中提取扩展词,实现查询扩展.在NTCIR-5 CLIR中英文本语料上的实验表明,文中算法可有效遏制查询主题漂移和词不匹配问题,改善信息检索性能,提升扩展词质量,减少无效扩展词.  相似文献   

6.
《计算机科学与探索》2016,(12):1673-1682
伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。  相似文献   

7.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

8.
多查询相关的排序支持向量机融合算法   总被引:3,自引:1,他引:2  
排序学习是目前信息检索与机器学习领域研究的热点问题.现有排序学习算法在学习时把训练样本集中的所有查询及其相关文档等同对待,忽视了查询之间的差异,影响了排序模型的性能.对查询之间的差异进行描述,并在训练过程中考虑这种差异,提出一种基于有监督学习的融合多个与查询相关排序子模型的方法.该方法为每一个查询及其相关文档建立一个子排序模型,并将子排序模型的输出进行向量化表示,将多个查询相关的排序模型转化为体现查询差异的特征数据,实现多排序模型的集成.以排序支持向量机为例,在查询级和样本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权重,提出多查询相关的排序支持向量机融合算法.在文档检索和网页检索中的实验结果表明,使用多查询相关的排序支持向量机融合算法可以取得比传统排序学习模型更好的性能.  相似文献   

9.
基于相关文档池建模的查询扩展   总被引:7,自引:0,他引:7  
在信息检索领域,相关反馈是提高检索性能的有效方法之一。所谓相关反馈,指用户按照一定策略从查找到的相关文档中选择一些和主题相关的词进行查询扩展的技术。本文介绍了概率模型和向量空间模型下的常用查询扩展方法,并提出了一种基于语言模型的相关反馈方法,该方法同时考虑了扩展词应该具备的两个特征,即相关性和覆盖性。在TREC测试集上对这些算法进行了比较,结果表明这种新算法在平均准确率上比传统方法有所提高。  相似文献   

10.
结合概念语义空间的语义扩展技术研究   总被引:2,自引:0,他引:2  
王磊  黄广君 《计算机工程与应用》2012,48(35):106-109,193
查询扩展是在原查询词的基础上加入相关的词或者词组,以克服自然语言的"二义性"问题,改进查询意愿的描述。在概念语义空间中进行查询词扩展,可以充分挖掘出查询词之间的关联程度,在整体上把握查询意愿。利用WordNet语义词典中的上下文关系和相似度关系为各个原始查询词构建语义树,并将这些语义树向上溯源建立完整的概念语义空间,以共现信息为特征参数对扩展源中的词进行筛选,以避免过度扩展引起查询语义漂移。还引入动态观察窗口加权模型,以强化共现信息对单词之间关联度的表示。实验结果表明,该扩展算法比传统伪相关反馈算法的扩展质量有明显提高。  相似文献   

11.
Query expansion is an information retrieval technique in which new query terms are selected to improve search performance. Although useful terms can be extracted from documents whose relevance is already known, it is difficult to get enough of such feedback from a user in actual use. We propose a query expansion method that performs well even if a user makes practically minimum effort, that is, chooses only a single relevant document. To improve searches in these conditions, we made two refinements to a well-known query expansion method. One uses transductive learning to obtain pseudorelevant documents, thereby increasing the total number of source documents from which expansion terms can be extracted. The other is a modified parameter estimation method that aggregates the predictions of multiple learning trials to sort candidate terms for expansion by importance. Experimental results show that our method outperforms traditional methods and is comparable to a state-of-the-art method.  相似文献   

12.
基于用户日志的查询扩展统计模型   总被引:24,自引:0,他引:24       下载免费PDF全文
崔航  文继荣  李敏强 《软件学报》2003,14(9):1593-1599
信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度.  相似文献   

13.
Information retrieval (IR) is the science of identifying documents or sub-documents from a collection of information or database. The collection of information does not necessarily be available in only one language as information does not depend on languages. Monolingual IR is the process of retrieving information in query language whereas cross-lingual information retrieval (CLIR) is the process of retrieving information in a language that differs from query language. In current scenario, there is a strong demand of CLIR system because it allows the user to expand the international scope of searching a relevant document. As compared to monolingual IR, one of the biggest problems of CLIR is poor retrieval performance that occurs due to query mismatching, multiple representations of query terms and untranslated query terms. Query expansion (QE) is the process or technique of adding related terms to the original query for query reformulation. Purpose of QE is to improve the performance and quality of retrieved information in CLIR system. In this paper, QE has been explored for a Hindi–English CLIR in which Hindi queries are used to search English documents. We used Okapi BM25 for documents ranking, and then by using term selection value, translated queries have been expanded. All experiments have been performed using FIRE 2012 dataset. Our result shows that the relevancy of Hindi–English CLIR can be improved by adding the lowest frequency term.  相似文献   

14.
Source code examples are used by developers to implement unfamiliar tasks by learning from existing solutions. To better support developers in finding existing solutions, code search engines are designed to locate and rank code examples relevant to user’s queries. Essentially, a code search engine provides a ranking schema, which combines a set of ranking features to calculate the relevance between a query and candidate code examples. Consequently, the ranking schema places relevant code examples at the top of the result list. However, it is difficult to determine the configurations of the ranking schemas subjectively. In this paper, we propose a code example search approach that applies a machine learning technique to automatically train a ranking schema. We use the trained ranking schema to rank candidate code examples for new queries at run-time. We evaluate the ranking performance of our approach using a corpus of over 360,000 code snippets crawled from 586 open-source Android projects. The performance evaluation study shows that the learning-to-rank approach can effectively rank code examples, and outperform the existing ranking schemas by about 35.65 % and 48.42 % in terms of normalized discounted cumulative gain (NDCG) and expected reciprocal rank (ERR) measures respectively.  相似文献   

15.
为了提高网页排序的准确性,提出一种基于ε-贪婪学习和用户点击行为的网页排序算法。首先,根据用户查询,通过轮盘赌策略向用户推荐相关网页列表;然后,根据用户点击网页的行为进行ε-贪婪学习,计算得到排序系统中的强化信号,通过奖励和惩罚机制为每个网页计算相关性程度值;最后,根据相关性程度对网页进行重新排序。随着用户反馈的信息越来越多,相关网页会排列在列表的最高等级上。实验结果表明,提出的算法能够准确地推荐出相关网页,在P@n、NDCG和MAP性能指标上都获得了较优的性能。  相似文献   

16.
随着大规模知识图谱的出现以及企业高效管理领域知识图谱的需求,知识图谱中的自组织实体检索成为研究热点。给定知识图谱以及用户查询,实体检索的目标在于从给定的知识图谱中返回实体的排序列表。从匹配的角度来看,传统的实体检索模型大都将用户查询和实体统一映射到词的特征空间。这样做具有明显的缺点,例如,将同属于一个实体的两个词视为独立的。为此,该文提出将用户查询和实体同时映射到实体与词两个特征空间方法,称为双特征空间的排序学习。首先将实体抽象成若干个域。之后从词空间和实体空间两个维度分别抽取排序特征,最终应用于排序学习算法中。实验结果表明,在标准数据集上,双特征空间的实体排序学习模型性能显著优于当前先进的实体检索模型。  相似文献   

17.
An adaptive learning automata-based ranking function discovery algorithm   总被引:1,自引:0,他引:1  
Due to the massive amount of heterogeneous information on the web, insufficient and vague user queries, and use of the same query by different users for different aims, the information retrieval process deals with a huge amount of uncertainty and doubt. Under such circumstances, designing an efficient retrieval function and ranking algorithm by which the most relevant results are provided is of the greatest importance. In this paper, a learning automata-based ranking function discovery algorithm in which different sources of information are combined is proposed. In this method, the learning automaton is used to adjust the portion of the final ranking that is assigned to each source of evidence based on the user feedback. All sources of information are first given the same importance. The proportion of a given source increases, if the documents provided by this source are reviewed by the user and decreases otherwise. As the proposed algorithm proceeds, the probability of appearance of each source in the final ranking gets proportional to its relevance to the user queries. Several simulation experiments are conducted on well-known data collections and query types to show the performance of the proposed algorithm. The obtained results demonstrate that the proposed algorithm outperforms several existing methods in terms of precision at position n, mean average precision, and normalized discount cumulative gain.  相似文献   

18.
为了区分与原查询正负相关的扩展词,提高查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种基于关联规则q→ti和q→-tj挖掘的局部反馈查询扩展算法。该算法从初检的前列文档中挖掘只含查询词项的词间正负关联规则q→ti和q→-tj,构造正负规则库;从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,与原查询组合实现查询扩展。算法还给出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理。实验结果表明算法不仅能发现虚假扩展词,而且还能改善和提高信息检索性能。  相似文献   

19.
介绍了基于关联规则的局部反馈查询扩展基本思想,重点研究关联规则支持度、置信度和扩展词数量对查询扩展检索性能的影响。实验结果表明,这种查询扩展的检索性能对其支持度、置信度以及扩展词数量比较敏感;从关联规则获得的扩展词可以分为两类,即与原查询正相关的扩展词和与原查询负相关或者假相关的扩展词(即噪音),前者可以提高和改善查询扩展的检索性能,而后者只能降低其检索性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号