首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
基于语义理解的智能搜索引擎研究   总被引:1,自引:0,他引:1  
本文提出了一种基于自然语言理解的搜索引擎模型.它的核心技术是基于自然语言理解的相关技术,包括从 关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容 的特征库,提出返回文档排序的算法,基于Lucene全文索引工具包建立了搜索引擎,对库中已收入的特征词进行了查询 测试,查准率为86.7%.实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果.  相似文献   

2.
基于本体的Web服务发现模型研究   总被引:5,自引:2,他引:5  
针对传统的Web服务发现机制查准率低的缺点,结合本体技术与OWL-S语义描述语言设计一个Web服务发现模型。该模型主要包括查询处理器、领域本体库和发现引擎三个模块,通过在领域内共同的语义理解基础上抽取服务查询信息中所需的功能信息以及对服务广告信息的语义描述,实现针对服务功能信息的语义匹配,从而提高服务的查准率。  相似文献   

3.
郭学俊  杜春  秦雪杰 《微机发展》2006,16(6):207-209
针对传统的Web服务发现机制查准率低的缺点,结合本体技术与OWL-S语义描述语言设计一个Web服务发现模型。该模型主要包括查询处理器、领域本体库和发现引擎三个模块,通过在领域内共同的语义理解基础上抽取服务查询信息中所需的功能信息以及对服务广告信息的语义描述,实现针对服务功能信息的语义匹配,从而提高服务的查准率。  相似文献   

4.
基于多标注源的Deep Web查询结果自动标注   总被引:2,自引:1,他引:1  
Deep Web查询结果的语义标注,是Deep Web数据集成的关键问题之一。提出基于多标注源的Deep Web查询结果自动标注框架,根据不同的特征设计多个标注器。基于搜索引擎的标注器,扩展AI领域常用的问答技术,构造验证查询并提交到搜索引擎,利用返回结果选择最合适的词汇用于标注,有效提高了标注的查准率和查全率。多个领域Web数据库的测试证明了该方法的有效性。  相似文献   

5.
Web信息检索技术已经在全世界广泛应用,然而,搜索引擎的查全率和查准率却不能够令用户满意,因此提出了一种基于通用本体WordNet的语义层次结构.通过计算和分析查询关键字与本体库的映射达到查询优化的目的.该方法通过建立一个简单的语法树并且索引WordNet,对查询关键字词法特性和本体实例之间语义关联强弱进行扩展和分析,提高了查询关键字到本体概念映射的完整性和准确率,进而帮助搜索引擎对用户的意图作出有效推测.实验表明,该方法可以有效地优化查询.  相似文献   

6.
语义Web环境下的信息检索机制研究   总被引:1,自引:0,他引:1  
人们借助搜索引擎在网络资源中查找所需信息,但搜索引擎本身并不理解要检索内容的真正含义,只是严格的按照关键词进行匹配.语义Web的目标是实现网络资源的机器理解,成为近年来一个新的研究热点.将Agent思想应用到语义Web中,提出了语义Web环境下的信息检索模型,介绍了模型中每个组成部分的功能.然后以图书信息检索为应用背景,将提出的信息检索模型进行了应用.结果表明,信息检索的查准率和查全率都有了较好的改善.  相似文献   

7.
元搜索引擎的调度策略研究如何选择贴近需求的成员搜索引擎组合,以较小的资源耗费,帮助用户获得较高的查询质量.提出了一种基于检索术语分类的评价方法,根据成员搜索引擎的查全率、查准率和平均响应时间,量化其查询性能,然后根据评分高低,为每个分类的查询请求分配合适的成员搜索引擎组合.为该调度策略设计了实验系统,并对实验结果进行了分析与对比,结果表明,该调度策略有效地提高了查准率.  相似文献   

8.
针对单个网站构建本体库垂直搜索引擎的过程中,叙词及其间逻辑关系等收集整理所耗人力成本高,导致该技术框架虽成熟,而大多网站搜索功能仍以字符匹配为主,缺乏分词、查询扩展及结果的相关度排序,很难准确命中相关查询内容等问题,设计并开发了一套基于网站简约本体库的垂直搜索系统。该系统以中国气象数据网(http://data.cma.cn)为例,利用protégé根据网站的导航目录,构建了中国气象数据网的本体库,基于Lucene引擎构建技术框架,对本体库中的对象及网页内容分别进行分词,并构建本体对象索引库及网页索引库;前端对查询内容分词后,先在本体对象索引库中进行扩展,利用TF-IDF相关度算法计算扩展结果的相关度并排序,该值作为各扩展本体对象的权值,并将各自的权值动态赋给利用Jena二次语义分析技术扩展的对象,最后将所有带有权值的关键词在网页索引库中查询检索,计算结果相关度并排序。实验结果表明,该系统构建简便,能为用户扩展、推荐相关查询内容,提高了针对网站检索的查准率及查全率。  相似文献   

9.
为提高校园网搜索引擎的查准率,提出一种新的校园网搜索引擎排序方法。该方法基于用户查询主题、用户浏览时间和页面点击等用户行为特征,计算新的页面相关度得分,改进搜索引擎的排序结果,为用户提供更准确的查询服务。实验结果表明,在不降低查全率的情况下,应用该排序方法的查准率有明显提高。  相似文献   

10.
刘奎  赵晓静 《微机发展》2008,18(2):112-114
Web服务的大量涌现对服务发现提出了挑战。目前基于关键字和基于框架的服务发现机制,将查询结果通过一定的排序法则呈现在用户面前。但是这些发现方法查准率极其低下,已经不能很好地满足用户需要。在研究本体与Web服务的基础上.提出了一种基于本体的Web服务发现框架.该框架首先对用户的请求合约进行语义预处理.然后根据抽取的语义在服务库中发现适合Web服务,从而提高查准率。  相似文献   

11.
When classifying search queries into a set of target categories, machine learning based conventional approaches usually make use of external sources of information to obtain additional features for search queries and training data for target categories. Unfortunately, these approaches rely on large amount of training data for high classification precision. Moreover, they are known to suffer from inability to adapt to different target categories which may be caused by the dynamic changes observed in both Web topic taxonomy and Web content. In this paper, we propose a feature-free classification approach using semantic distance. We analyze queries and categories themselves and utilizes the number of Web pages containing both a query and a category as a semantic distance to determine their similarity. The most attractive feature of our approach is that it only utilizes the Web page counts estimated by a search engine to provide the search query classification with respectable accuracy. In addition, it can be easily adaptive to the changes in the target categories, since machine learning based approaches require extensive updating process, e.g., re-labeling outdated training data, re-training classifiers, to name a few, which is time consuming and high-cost. We conduct experimental study on the effectiveness of our approach using a set of rank measures and show that our approach performs competitively to some popular state-of-the-art solutions which, however, frequently use external sources and are inherently insufficient in flexibility.  相似文献   

12.
搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种基于注意力机制和集成学习的网页黑名单判别方法,并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页上不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,从而实现EACNN的构建;最后,将EACNN的输出结果作为网页内容分析结果,从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息,并通过集成学习的方式引入网页结构特征。实验结果表明,与支持向量机(SVM)、K近邻(KNN)、CNN、长短期记忆(LSTM)网络、GRU、结合注意力机制的卷积神经网络(ACNN)等基线模型相比,所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率(0.97)、召回率(0.95)和F1分值(0.96),验证了EACNN在网页黑名单判别工作中的优势。  相似文献   

13.
The conventional approaches of finding related search engine queries rely on the common terms shared by two queries to measure their relatedness. However, search engine queries are usually short and the term overlap between two queries is very small. Using query terms as a feature space cannot accurately estimate relatedness. Alternative feature spaces are needed to enrich the term based search queries. In this paper, given a search query, first we extract the Web pages accessed by users from Japanese Web access logs which store the users individual and collective behavior. From these accessed Web pages we usually can get two kinds of feature spaces, i.e, content-sensitive (e.g., nouns) and content-ignorant (e.g., URLs), to enrich the expressions of search queries. Then, the relatedness between search queries can be estimated on their enriched expressions. Our experimental results show that the URL feature space produces much lower precision scores than the noun feature space which, however, is not applicable in non-text pages, dynamic pages and so on. It is crucial to improve the quality of the URL (content-ignorant) feature space since it is generally available in all types of Web pages. We propose a novel content-ignorant feature space, called Web community which is created from a Japanese Web page archive by exploiting link analysis. Experimental results show that the proposed Web community feature space generates much better results than the URL feature space.  相似文献   

14.
刘高军  方晓  段建勇 《计算机应用》2020,40(11):3192-3197
随着互联网时代的到来,搜索引擎开始被普遍使用。在针对冷门数据时,由于用户的搜索词范围过小,搜索引擎无法检索出需要的数据,此时查询扩展系统可以有效辅助搜索引擎来提供可靠服务。基于全局文档分析的查询扩展方法,提出结合神经网络模型与包含语义信息的语料的语义相关模型,来更深层地提取词语间的语义信息。这些深层语义信息可以为查询扩展系统提供更加全面有效的特征支持,从而分析词语间的可扩展关系。在近义词林、语言知识库“HowNet”义原标注信息等语义数据中抽取局部可扩展词分布,利用神经网络模型的深度挖掘能力将语料空间中每一个词语的局部可扩展词分布拟合成全局可扩展词分布。在与分别基于语言模型和近义词林的查询扩展方法对比实验中,使用基于语义相关模型的查询扩展方法拥有较高的查询扩展效率;尤其针对冷门搜索数据时,语义相关模型的查全率比对比方法分别提高了11.1个百分点与5.29个百分点。  相似文献   

15.
刘高军  方晓  段建勇 《计算机应用》2005,40(11):3192-3197
随着互联网时代的到来,搜索引擎开始被普遍使用。在针对冷门数据时,由于用户的搜索词范围过小,搜索引擎无法检索出需要的数据,此时查询扩展系统可以有效辅助搜索引擎来提供可靠服务。基于全局文档分析的查询扩展方法,提出结合神经网络模型与包含语义信息的语料的语义相关模型,来更深层地提取词语间的语义信息。这些深层语义信息可以为查询扩展系统提供更加全面有效的特征支持,从而分析词语间的可扩展关系。在近义词林、语言知识库“HowNet”义原标注信息等语义数据中抽取局部可扩展词分布,利用神经网络模型的深度挖掘能力将语料空间中每一个词语的局部可扩展词分布拟合成全局可扩展词分布。在与分别基于语言模型和近义词林的查询扩展方法对比实验中,使用基于语义相关模型的查询扩展方法拥有较高的查询扩展效率;尤其针对冷门搜索数据时,语义相关模型的查全率比对比方法分别提高了11.1个百分点与5.29个百分点。  相似文献   

16.
基于Ontology和EM方法的网页分类研究   总被引:1,自引:1,他引:1  
Works on abstracting semantic information from substantive pages of Web and their usage in search engine can lead to intelligent retrieval ,or other individual services. This paper mainly focuses on some research about analysis of Web page classification infor. Ontology as a base,using TFIDF word weights and Rocchio algorithm is combined with EM to improve accuracy of classifier. It's proved that this EM procedure works well on enhancing the veracity by the usage of unlabeled pages when the samples are limited.  相似文献   

17.
基于遗传算法的专业元搜索引擎   总被引:1,自引:0,他引:1  
赵大明  鱼滨 《计算机工程》2009,35(21):192-194
元搜索引擎返回的查询结果来自独立搜索引擎,要评价此类结果的专业相关性,必须挖掘其位置信息以外的其他信息。研究并实现面向培训领域的元搜索引擎,在充分挖掘网页文本信息的基础上,提取专业网页样本特征,结合遗传算法给出网页专业相关度算法。实验结果表明,该引擎具有较高的专业信息筛选和排序能力。  相似文献   

18.
Semantic similarity measures play important roles in many Web‐related tasks such as Web browsing and query suggestion. Because taxonomy‐based methods can not deal with continually emerging words, recently Web‐based methods have been proposed to solve this problem. Because of the noise and redundancy hidden in the Web data, robustness and accuracy are still challenges. In this paper, we propose a method integrating page counts and snippets returned by Web search engines. Then, the semantic snippets and the number of search results are used to remove noise and redundancy in the Web snippets (‘Web‐snippet’ includes the title, summary, and URL of a Web page returned by a search engine). After that, a method integrating page counts, semantics snippets, and the number of already displayed search results are proposed. The proposed method does not need any human annotated knowledge (e.g., ontologies), and can be applied Web‐related tasks (e.g., query suggestion) easily. A correlation coefficient of 0.851 against Rubenstein–Goodenough benchmark dataset shows that the proposed method outperforms the existing Web‐based methods by a wide margin. Moreover, the proposed semantic similarity measure significantly improves the quality of query suggestion against some page counts based methods. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

19.
针对传统Web教育主体难以获得高可用教育资源的问题,提出了一种面向语义主题相似度的Web教育资源查询方法。该方法建立了本体概念语义网络(Ontology Concept Semantic Network,OCSN),在此基础上,设计了基于语义主题相似度匹配的概念检索方法:在检索前主动将教育资源根据其语义和主题组织到本体概念语义网络中,然后建立一个基于语义特性的Web教育资源发现的垂直搜索引擎,并通过构造满足条件的相似度函数,将对应的语义距离映射为相似度,有效地提高了查询效率。实验结果表明此方法能够提高Web教育资源的查准率和查全率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号