首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对传统语义查询扩展方法存在返回结果多以及准确率不高的问题,以旅游领域为背景,提出一种语义加权查询扩展方法。利用本体推理能力与本体中的实体相关度进行查询扩展,结合TF-IDF算法的词频加权与语义相关度加权改善检索结果的排序。实验结果表明,相比其他2种方法,该方法能使更多符合要求的查询结果靠前排列,提高了旅游信息检索的正确率。  相似文献   

2.
P2P语义搜索研究进展   总被引:1,自引:0,他引:1  
P2P语义搜索方法多种多样。首先,制定了一套综述方案,从语义描述方法、覆盖网络结构、查询扩展技术、资源聚类方式以及本体数量等5个角度对现有方法进行综述。然后,选择10种典型语义搜索方法进行分析比较,总结P2P语义搜索的主要特征。最后,指出下一步研究应探索新的资源组织与搜索机制,并着重关注P2P语义搜索性能评价、查询扩展技术完善、搜索结果排序等方面。  相似文献   

3.
针对基于关键词匹配的传统检索方法存在的不足,通过将语义引入到检索过程中,可以构建一个建立在本体基础上的语义检索模型。为了提高检索结果的准确率和全面率,通过使用本体的语义推理是一种很有效的办法。  相似文献   

4.
基于关键词的搜索引擎无法满足用户需求,传统查询扩展方式又会带来许多语义理解错误,针对该问题,提出一种基于本体的垂直搜索引擎概念模型,建立基于关键词和基于概念的两层索引结构,利用行业领域本体对用户提交的关键词进行语义查询扩展,并对按照本体标注的文档进行排序优化,提高查询的查全率和查准率。  相似文献   

5.
针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型.以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型.在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩展算法和文档语义标注算法进行了研究,并且构建了语义索引,通过引入向量空间模型判定扩展检索词与语义文档的相似度.实验结果表明,该模型较传统模型较大提高了检索的查准率和查全率.  相似文献   

6.
传统信息检索模型仅考虑考虑关键词本身的匹配程度,在林业领域信息检索时得到的检索结果不全面或不准确.为了改善检索质量,提出了一种基于本体的林业领域语义查询扩展模型.该模型利用了本体的语义推理的能力和语义结构对关键词进行语义查询扩展,最终实现提高检索查全率和查准率的目的,是对传统基于关键词匹配的信息检索模型的语义补充.结果表明该模型在一定程度上改善了林业领域信息检索结果的查准率和查全率.  相似文献   

7.
随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。  相似文献   

8.
基于语义关系查询扩展的文档重构方法   总被引:36,自引:0,他引:36  
张敏  宋睿华  马少平 《计算机学报》2004,27(10):1395-1401
已知文档与用户查询之间相同概念不同表达形式造成的词不匹配问题是影响信息检索效果的重要原因之一.该文提出了根据词之间的语义关系进行扩展和替换的文档重构方法.它与传统的查询扩展不同,实现了同一概念信息的聚集,是更接近于人类进行信息查找的思维方法.进一步地,研究给出一种有效的实时文档重构检索策略,解决了文档重构方法在实际应用中的可行性.在标准测试数据集上的实验表明,基于查询扩展的文档重构方法不仅比不扩展的最佳性能始终有14%~23.4%的提高,而且比相对应的传统查询扩展方法也有约16%的提高.  相似文献   

9.
基于领域本体和Lucene的语义检索系统研究   总被引:1,自引:0,他引:1  
王欢  孙瑞志 《计算机应用》2010,30(6):1655-1657
语义相似度是影响语义检索系统查准率和查全率的重要因素。设计了一种改进的语义相似度模型,用于量化概念间的关联程度,通过对相似度阈值的控制来调整查询扩展时扩展概念集的范围。在Lucene的基础上设计了一个基于领域本体的语义检索系统,该系统对提交的关键词组进行查询扩展后,将扩展关键词组导入文本检索引擎Lucene中,并把语义相似度作为检索结果排序算法的关键因素。实验结果表明,该语义相似度模型得出的相似度值更加接近专家经验值,系统的查询准确率与未加入查询扩展的Lucene系统相比有较大的提高。  相似文献   

10.
基于互信息的问句语义扩展研究   总被引:1,自引:0,他引:1  
用户习惯用很少的关键字来检索所需的信息,这必然会导致出现用户所检索的信息与得到的信息有所偏差.针对这一现象,提出了基于互信息的问句语义扩展模型(QSE_BMI).它的好处在于可以根据用户自己制定的兴趣模型和输入的查询问句,检索出与用户兴趣相匹配的并且符合用户需要的相关信息.  相似文献   

11.
源代码检索是软件工程领域的一项重要研究问题,其主要任务是检索和复用软件项目API(application program interface,应用程序接口).随着软件项目的规模越来越大、越来越复杂,当前,源代码检索一方面需要提高基于自然语言API查询的准确性,另一方面需要定位和展示目标API及其相关代码之间的关联,以更好地辅助用户理解API的实现逻辑和使用场景.为此,提出一种基于图嵌入的软件项目源代码检索方法.该方法能够基于软件项目源代码自动构建其代码结构图,并通过图嵌入对源代码进行信息表示.在此基础上,用户可以输入自然语言问题、检索并返回相关的API及其关联信息构成的连通代码子图,从而提高API检索和复用的效率.在以开源项目Apache Lucene和POI为例的检索实验中,该方法检索结果的F1值比现有基于最短路径的方法提高了10%,同时显著缩短了平均响应时间.  相似文献   

12.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

13.
在垃圾短信检索中所使用的关键词与短信文本集中的词不匹配,从而影响检索效果。为此,提出一种基于上下文查询词扩展的检索方法,该方法根据关键词出现的上下文信息进行查询词扩展选择,同时考虑查询扩展词与整个查询语句及查询词的位置关系。选取3 000条短信文本进行实验,结果表明该方法能提高平均查准率。  相似文献   

14.
常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。  相似文献   

15.
微博话题随着移动互联网的发展变得火热起来,单个热门话题可能有数万条评论,微博话题的立场检测是针对某话题判断发言人对该话题的态度是支持的、反对的或中立的.本文一方面由Word2Vec训练语料库中每个词的词向量获取句子的语义信息,另一方面使用TextRank构建主题集作为话题的立场特征,同时结合情感词典获取句子的情感信息,最后将特征选择后的词向量使用支持向量机对其训练和预测完成最终的立场检测模型.实验表明基于主题词及情感词相结合的立场特征可以获得不错的立场检测效果.  相似文献   

16.
Qing Huang  Yang Yang  Ming Cheng 《Software》2019,49(11):1600-1617
The overexpansion problem negatively affects the quality of query expansion. To improve the quality of queries for searching code, this paper proposed a DBN-based algorithm for effective query expansion. The deep belief network (DBN) model is trained on the code sequences and their change sequences, which aims to capture the meaningful terms during the evolution of source code. In contrast to previous studies, the proposed model not only extracts relevant terms to expand a query but also excludes irrelevant terms from the query. It addresses two problems in query expansion, including the overexpansion of the original query and the negative influence of the changed terms in the target source code. Experiments on both artificial queries and real queries show that the proposed algorithm outperforms several query expansion algorithms for code search.  相似文献   

17.
Thesaurus‐based, code‐related, and software‐specific query expansion techniques are the main contributions in free‐form query search. However, these techniques still could not put the most relevant query result in the first position because they lack the ability to infer the expansion words that represent the user needs based on a given query. In this paper, we discover that code changes can imply what users want and propose a novel query expansion technique with code changes (QECC). It exploits (changes, contexts) pairs from changed methods. On the basis of statistical learning from pairs, it can infer code changes for a given query. In this way, it expands a query with code changes and recommends the query results that meet actual needs perfectly. In addition, we implement InstaRec to perform QECC and evaluate it with 195 039 change commits from GitHub and our code tracker. The results show that QECC can improve the precision of 3 code search algorithms (ie, IR, Portfolio, and VF) by up to 52% to 62% and outperform the state‐of‐the‐art query expansion techniques (ie, query expansion based on crowd knowledge and CodeHow) by 13% to 16% when the top 1 result is inspected.  相似文献   

18.
针对当前搜索引擎返回大量与用户请求无关结果的问题,提出一种新的生成相关搜索词的方法。该方法是基于开源搜索工具包Lucene的.通过对文档内容的切分和筛选找出概念词,再通过TF—IDF方法计算概念词的同现率,最后通过连续性Hopfield神经网络建立概念集,从而获得概念词的相关词推荐。  相似文献   

19.
针对当前搜索引擎返回大量与用户请求无关结果的问题,提出一种新的生成相关搜索词的方法。该方法是基于开源搜索工具包Lucene的,通过对文档内容的切分和筛选找出概念词,再通过TF-IDF方法计算概念词的同现率,最后通过连续性Hopfield神经网络建立概念集,从而获得概念词的相关词推荐。  相似文献   

20.
How to automatically understand and answer users' questions (eg, queries issued to a search engine) expressed with natural language has become an important yet difficult problem across the research fields of information retrieval and artificial intelligence. In a typical interactive Web search scenario, namely, session search, to obtain relevant information, the user usually interacts with the search engine for several rounds in the forms of, eg, query reformulations, clicks, and skips. These interactions are usually mixed and intertwined with each other in a complex way. For the ideal goal, an intelligent search engine can be seen as an artificial intelligence agent that is able to infer what information the user needs from these interactions. However, there still exists a big gap between the current state of the art and this goal. In this paper, in order to bridge the gap, we propose a Markov random field–based approach to capture dependence relations among interactions, queries, and clicked documents for automatic query expansion (as a way of inferring the information needs of the user). An extensive empirical evaluation is conducted on large‐scale web search data sets, and the results demonstrate the effectiveness of our proposed models.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号