首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
搜索引擎技术随着互联网的日益壮大而飞速发展。它成功的商业运作也造就了Google、百度等这样的商业奇迹。作为搜索引擎的重要组成部分,网络爬虫的爬行效率对搜索引擎至关重要。基于Websphinx对网络爬虫进行了相关介绍,概述了Websphinx的结构框架、搜索方式及提出了一些看法。  相似文献   

2.
网络爬虫是当今网络实时更新和搜索引擎技术的共同产物。文中深入探讨了如何应用网络爬虫技术实现实时更新数据和搜索引擎技术。在对网络爬虫技术进行深入分析的基础上,给出了一种用网络爬虫技术实现局域网内服务器和客户端之间网络通信的解决方案。  相似文献   

3.
网络信息资源的迅猛增长使得传统搜索引擎已经无法满足人们对有用信息获取的要求,作为搜索引擎的基础和重要组成部分,网络爬虫的作用显得尤为重要,该文介绍了网络爬虫的基本概念、爬行Web面临的困难及应对措施,其次从体系结构、爬行策略和典型应用等方面研究了通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫四种常见网络爬虫,最后指出了进一步工作的发展方向。  相似文献   

4.
随着互联网络的迅猛发展,更专业化更高准确率的垂直搜索引擎已成为人们获取所需的知识必不可少的工具。以何种策略有效地访问网络资源是搜索引擎中网络爬虫研究的主要问题。该文对垂直搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,使人们对网络爬虫的搜索算法有个大概了解。最后对搜索引擎未来网络爬虫研究趋势做了说明。  相似文献   

5.
搜索引擎中网络爬虫是一个重要组成部分,在行业搜索引擎中数据的查全查准得依靠网络爬虫对海量数据的抓取作用,网络爬虫如何在行业中发挥重要作用抓取出高效数据呢?将以烟草行业为例,针对网络爬虫的各个策略如深度优先策略、广度优先策略等策略分析其在行业搜索引擎中的应用。  相似文献   

6.
网络爬虫的主要作用是获取互联网上的信息。我们在浏览网页时候所希望获取的信息都可以使用网络爬虫来抓取实现;网络爬虫从互联网上源源不断的抓取海量信息,搜索引擎结果中的信息都是来源于此。本文对基于C#开发的网络爬虫搜索引擎进行了详细的阐述。  相似文献   

7.
深入解析Web主题爬虫的关键性原理   总被引:1,自引:0,他引:1  
王芳  陈海建 《微型电脑应用》2011,27(7):32-34,70
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。  相似文献   

8.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

9.
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。  相似文献   

10.
随着互联网的发展壮大,网络数据呈爆炸式增长,传统搜索引擎已经不能满足人们对所需求数据的获取的需求,作为搜索引擎的抓取数据的重要组成部分,网络爬虫的作用十分重要,本文首先介绍了在大数据环境下网络爬虫的重要性,接着介绍了网络爬虫的概念,工作原理,工作流程,网页爬行策略,python在编写爬虫领域的优势,最后设计了一个通用网络爬虫的框架,介绍了框架中模块的相互协作完成数据抓取的过程。  相似文献   

11.
基于Web的搜索引擎及其在化学信息资源导航中的应用   总被引:5,自引:3,他引:5  
网络信息检索工具是Internet信息资源快速定位的重要方法。文章中结合建立Internet化学信息资源导航系统ChIN网一文检索系统的要求,讨论了全文检索的产生、现状和发展趋势。在对信息搜索机制和主要全文检索软件的分析比较的基础上,采用全文检索软件Isearch开发了ChIN网页的全文检索系统。同时给出了ChIN网页全文检索系统的应用实例。  相似文献   

12.
校园网信息资源搜索引擎的研究与实现   总被引:3,自引:2,他引:1  
胡骏  李星 《计算机工程与设计》2006,27(24):4629-4631,4634
校园网已经成为高校信息资源共享和管理的重要平台。网络构建者和网络构建目的不同使得校园网与互联网之间存在着较大差异,这些差异导致校园网搜索引擎的实现需要引进新的技术和方法。通过统计分析,总结出校园网信息资源的特点,并基于这些特点提出了多维度量排序算法等技术,以提高搜索引擎查询准确度。实际构建的校因网搜索引擎系统表现出比传统搜索引擎更优的搜索性能。  相似文献   

13.
卢秉亮  朱健  张磊  郎勇 《微处理机》2007,28(1):75-77,81
Internet网络环境搜索引擎主要由三部分组成:搜索器、索引数据库和用户界面。检索器是搜索引擎中的核心和关键。通常的网络搜索引擎采用的是集合或模糊检索算法,其检索结果冗余大。主要介绍了搜索引擎索引数据库的结构;基于Spider的通用搜索器的实现;索引表的生成过程;精确检索原理、算法及实现。采用精确检索算法的搜索引擎,所搜索的信息冗余度小并且效率高。  相似文献   

14.
关于搜索引擎的研究综述   总被引:4,自引:0,他引:4  
由于目前搜索服务被越来越多的用户所认识和青睐,各样的搜索引擎也应运而生。文中阐述了搜索引擎的工作原理,并对搜索引擎按照不同的依据对其进行分类。介绍并比较目前较为有名气同时其发展历史也推进了搜索引擎的发展的几个搜索引擎,最后提出目前搜索引擎所存在的问题。  相似文献   

15.
个性化搜索引擎系统机制的研究   总被引:2,自引:0,他引:2  
随着网络信息资源的迅速增加,个性化信息服务越来越成为信息检索领域中研究的热点,针对传统搜索引擎系统的缺点,提出了一种新型个性化搜索引擎系统的体系结构,并在此基础上给出了系统中个性化机制的相关算法,同时使用基于关键词的搜索,利用Web挖掘技术,在实现为不同用户提供不同检索结果的同时提高了个性化查询的精确度和速度,保证了全查率.  相似文献   

16.
元搜索引擎中的成员选择和结果合并策略研究   总被引:2,自引:0,他引:2  
近年来,信息检索成为研究热点,搜索引擎成为用户经常使用的服务之一.但是独立搜索引擎的覆盖面狭窄,检索效率低,为了得到比较全面和准确的结果,需要反复调用多个搜索引擎.而元搜索引擎就是一种调用其它独立搜索引擎的引擎,它可以更好的满足用户查询的需求.简述了元搜索引擎的工作原理,分析比较了元搜索引擎的一些技术,并针对元搜索引擎的成员选择和结果合并方面提出了一些实现策略.  相似文献   

17.
在已有元搜索引擎设计基础上,提出了一种基于统计学习的智能化调度策略。采用网络营销策略和规律对信息类别的内容进行自然分类,作为选择成员搜索引擎的基本依据;通过对用户历史数据的整合,统计计算和调整优化得出成员搜索引擎的最优选择;通过实验得出的结果表明,能达到知名元搜索引擎的性能。  相似文献   

18.
网络爬虫采集互联网信息并提供搜索服务。该设计基于Lucene.NET平台开发网络爬虫,可以对特定的网页进行抓取和分析,提取网页中有用信息,并对抓取的数据进行索引,存储到服务器硬盘,同时过滤掉无用信息。系统界面友好,准确高效。  相似文献   

19.
This research investigates how an inferior search engine can impact its competition with a superior search engine by introducing a knowledge-sharing service. Specifically, we model the dynamic competition between an inferior search engine with a knowledge-sharing service and a pure superior search engine. We show that the degree to which the knowledge-sharing service helps the inferior search engine to enlarge its market share increases as the amount of online content decreases and the complexity of searchers' questions increases. We also find that the inferior search engine is generally advised to close its database of answers for more market share.  相似文献   

20.
丁兆贵  金敏 《微机发展》2011,(2):105-108
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果。根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎。通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现。文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号