首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
针对信息检索中文档与查询之间的词不匹配问题,提出了一种基于共现分析和概念语义的查询扩展方法.该方法结合概念语义空间和局部共现分析来实现扩展,并改进了扩展词筛选函数.实验结果表明,该方法对于传统的查询扩展技术的信息查询效果有了很大提高,具有较好的查询性能.  相似文献   

2.
为提高智能检索系统的查准率和查全率,分析了目前查询扩展方法存在的不足,考虑计算有向边权重的因子对语义距离的影响,对基于语义相似度的计算方法进行优化,提出了一个计算用户查询与文档相关性之间关联度的表达式.利用构建的领域本体量化概念间的关联程度,通过计算合理的相似度与相关度的权重来进行查询扩展,并设计了一个基于概念关联度的语义检索模型,将检索结果按关联度排序显示.实验表明,该方法在确保查准率的前提下能有效提高查全率.  相似文献   

3.
李文  陈叶旺  彭鑫  赵文耘 《计算机科学》2010,37(10):138-142
词语一概念映射是基于本体的语义检索的重要一环,对语义检索的查准率及查全率有很大的影响。在传统的基于关键词匹配的方法中,通常从词语一概念的共现程度来计算它们的相关度,这种方法没有考虑概念的属性及属性值,即丢失了概念的语义信息。针对这一问题,提出了一种词语一概念映射方法,该方法基于本体三元组一文档标注结果,利用概念一文档与词语一文档两重关系,首先计算出词语一概念的相关度与置信度,再实现词语一概念的映射。实验结果表明,该方法有效地提高了检索的效果。  相似文献   

4.
基于语义的查询扩展研究   总被引:2,自引:0,他引:2  
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一.本文提出了一种基于本体的信息检索查询扩展方法,这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词.此外,本文还给出了组合向量空间模型,作为引入查询扩展后的查询结果相关度评价方法.  相似文献   

5.
基于关键词的搜索引擎无法满足用户需求,传统查询扩展方式又会带来许多语义理解错误,针对该问题,提出一种基于本体的垂直搜索引擎概念模型,建立基于关键词和基于概念的两层索引结构,利用行业领域本体对用户提交的关键词进行语义查询扩展,并对按照本体标注的文档进行排序优化,提高查询的查全率和查准率。  相似文献   

6.
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。  相似文献   

7.
本文提出一种基于词语—主题词相关关系的语言模型TSA-LM(Term-Subject Association Based Language Model ),它的基本思想是把一篇文档分成两个文档块,一部分是由领域主题词表中的主题词构成的主题词文档块,另一部分是由非主题词构成的非主题词文档块,分别计算两个文档块和查询的似然程度。对非主题词文档块,假设词语间独立无关,沿用经典的语言模型计算;对主题词文档块,把查询词语和主题词相关关系引入语言模型中来估计该文档块和查询的似然程度。词语—主题词相关关系采用词语—主题词相关度来衡量。词语—主题词相关度的计算除了来源于对文档中词语—主题词共现性的观察外,还来源于宏观上对词语—文档—主题词归属关系的观察。公开数据集上的检索实验结果表明,基于词语—主题词相关关系的语言模型可以有效提高检索效果。  相似文献   

8.
吕刚  郑诚 《计算机工程》2010,36(12):55-57
为提高信息检索的查全率和查准率,提出改进的本体语义相似度计算方法,利用本体中概念语义相似度对检索结果文档的分值进行重新计算,过滤掉与原始查询相关度较小的文档。给出定义查询扩展中的迭代参数,减少进行扩展的次数,提高查询效率。利用开源工具Jena, Lucene进行文本语义检索测试,验证该方法的可行性和有效性。  相似文献   

9.
基于概念检索的中文搜索引擎的设计与实现   总被引:4,自引:0,他引:4  
构建语义库和扩展查询是影响概念检索效率的主要因素。提出一种自动构建语义库和相关性查询扩展的方法,方法利用关联规则挖掘技术,自动从文档中导出概念/词语之间相关性及层次关系,构建关联库,再通过关联库,对查询请求进行相关性扩展,以实现概念检索。实验结果显示,方法是有效的,能提高信息检索的查全率和查准率。  相似文献   

10.
基于领域本体的智能检索模型   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统检索模型的基础上,结合本体概念,提出一种基于领域本体的检索模型。该模型利用本体中语义概念关系及语义扩展机制对查询关键词进行概念映射及扩展,通过计算文档相似度返回检索结果,提高检索的查准率和查全率。  相似文献   

11.
在计算广告学中,为用户查询返回相关的广告一直是研究的热点。然而用户的查询一般比较简短,广告的表示也局限在简短的创意和一些竞价词上,返回符合用户查询意图的广告十分困难。为了解决这个问题,该文提出利用多特征融合的方法进行广告查询扩展,先将查询输入到搜索引擎中,获得Top-k网页查询结果,将它们作为获取扩展词的外部资源,由于采用一般的特征选取方法获取扩展词采用的特征比较单一,缺乏语义信息,容易产生主题漂移现象,该文通过计算扩展词和查询词在网页查询结果中的共现度,并融合传统的TF特征和词性信息,获得与原始查询语义相关的扩展词。在真实的广告语料上的实验结果显示,基于多特征融合的选择广告扩展词的方法能有效地提高返回广告的相关性。  相似文献   

12.
语义查询扩展中,关键一步是扩展词的选择方法和扩展词权重的计算。提出一种改进的LCA(局部上下文分析法):OLCA(Optimize Local Context Analysis)。OLCA应用于分权重的多关键字查询中,结合WordNet概念树,从语义和实际查询语料两方面对初始查询词进行扩展,并根据初始查询词中多个关键词的位置,结合扩展候选集中词间关系计算修正各扩展词的权重。实验证明,与单独基于统计或基于语义的查询扩展方法相比,其查准率和查全率均有较大提高。  相似文献   

13.
基于权重标准化SimRank方法的查询扩展技术研究   总被引:1,自引:0,他引:1  
查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。该文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank算法的计算复杂度,该文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC标准数据集上的实验表明,该文的方法可以有效地选择相关扩展词。MAP指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。  相似文献   

14.
部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。  相似文献   

15.
In the practice of information retrieval, there are some problems such as the lack of accurate expression of user query requests, the mismatch between document and query and query optimization. Focusing on these problems, we propose the query expansion method based on conceptual semantic space with deep learning, this hybrid query expansion technique include deep learning and pseudocorrelation feedback, use the deep learning and semantic network WordNet to construct query concept tree in the level of concept semantic space, the pseudo-correlation feedback documents are processed by observation window, compute the co-occurrence weight of the words by using the average mutual information and get the final extended words set. The results of experiment show that the expansion algorithm based on conceptual semantic space with deep learning has better performance than the traditional pseudo-correlation feedback algorithm on query expansion.  相似文献   

16.
章旭  石进  谢立 《计算机科学》2008,35(9):201-202
传统的模糊集合模型基于词词关联矩阵来实现模糊检索,词词关联矩阵只考虑语词在文献内部的同时出现.本文提出了一个基于相似性叙词表的模糊集合模型,考虑语词与查询之间的相似性,并将查询扩展包含在此模型中,从而在一定程度上提高了检索性能.  相似文献   

17.
基于上下文的查询扩展   总被引:5,自引:0,他引:5  
针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率.  相似文献   

18.
结合概念语义空间的语义扩展技术研究   总被引:2,自引:0,他引:2  
王磊  黄广君 《计算机工程与应用》2012,48(35):106-109,193
查询扩展是在原查询词的基础上加入相关的词或者词组,以克服自然语言的"二义性"问题,改进查询意愿的描述。在概念语义空间中进行查询词扩展,可以充分挖掘出查询词之间的关联程度,在整体上把握查询意愿。利用WordNet语义词典中的上下文关系和相似度关系为各个原始查询词构建语义树,并将这些语义树向上溯源建立完整的概念语义空间,以共现信息为特征参数对扩展源中的词进行筛选,以避免过度扩展引起查询语义漂移。还引入动态观察窗口加权模型,以强化共现信息对单词之间关联度的表示。实验结果表明,该扩展算法比传统伪相关反馈算法的扩展质量有明显提高。  相似文献   

19.
Because of users’ growing utilization of unclear and imprecise keywords when characterizing their information need, it has become necessary to expand their original search queries with additional words that best capture their actual intent. The selection of the terms that are suitable for use as additional words is in general dependent on the degree of relatedness between each candidate expansion term and the query keywords. In this paper, we propose two criteria for evaluating the degree of relatedness between a candidate expansion word and the query keywords: (1) co-occurrence frequency, where more importance is attributed to terms occurring in the largest possible number of documents where the query keywords appear; (2) proximity, where more importance is assigned to terms having a short distance from the query terms within documents. We also employ the strength Pareto fitness assignment in order to satisfy both criteria simultaneously. The results of our numerical experiments on MEDLINE, the online medical information database, show that the proposed approach significantly enhances the retrieval performance as compared to the baseline.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号