首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术.通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度.多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息.  相似文献   

2.
主题网络蜘蛛的搜索策略是主题搜索引擎的核心部分,是近年来主题搜索引擎研究中的热点问题之一。深入研究了主题网络蜘蛛的关键技术,阐述了多线程网络蜘蛛的实现过程,并对传统的VSM算法和PageRank算法进行了改进,提高了主题网络蜘蛛采集信息的有效性和准确性。  相似文献   

3.
基于Boltzmann行动选择策略的网络蜘蛛搜索算法   总被引:4,自引:0,他引:4  
在分析传统网络蜘蛛搜索机制特点的基础上,将Boltzmann行动选择策略引入网络蜘蛛的链接选择机制,提出了一种基于Boltzmann行动选择策略的启发式网络蜘蛛搜索算法.针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新的算法可以有效提高搜索效率.  相似文献   

4.
基于广度优先搜索的网络蜘蛛设计   总被引:1,自引:0,他引:1  
郑泳 《软件导刊》2010,(7):122-123
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求是目前所面临的重要问题。重点阐述了搜索引擎的Web Spider(网络蜘蛛)的搜索策略和搜索优化措施,提出了一种简单的基于广度优先算法的网络蜘蛛设计方案,并分析了设计过程中的优化措施。  相似文献   

5.
主题搜索引擎中网络爬虫的搜索策略研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。  相似文献   

6.
传统的基于单一价值评价的网络蜘蛛搜索策略存在主题漂移,不能有效利用链接结构信息,容易迷失方向,过于依赖关键词集等不足。提出一种基于动力粒子群算法的启发式网络蜘蛛搜索算法,新算法充分考虑W eb站点信息资源分布的特点,给合了两类评价标准的优势,根据实际的搜索情况,在线调整两种价值的权重,具有自适应性。实验表明,新算法具有较高的查全率和查准率,能较好地解决现存问题。  相似文献   

7.
网络蜘蛛搜索策略比较研究   总被引:8,自引:0,他引:8  
以何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的主要问题之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。对未来的研究方向进行了展望。  相似文献   

8.
网络蜘蛛搜索基本策略研究   总被引:1,自引:0,他引:1  
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一。按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。  相似文献   

9.
在分析传统的网络蜘蛛搜索特点的基础上,充分利用Web资源分布的特点,提出了基于在线增量自适应算法的搜索策略.该算法一方面避免了过早陷入Web搜索最优子空间的陷阱;另一方面不断对爬虫数据库更新,以提高其对链接主题的判断能力.通过对四所著名大学计算机网站做的搜索实验,表明新的算法可以有效地提高网络蜘蛛的搜索性能.  相似文献   

10.
网络蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
陈瑜芳  何克右 《现代计算机》2009,(11):141-144,148
从网络蜘蛛的介绍出发,阐述网络蜘蛛的搜索策略以及相关算法,并介绍网络蜘蛛MySipder的具体设计与实现.包括网页解析、重复链接分析、DNS解析、网络通信等内容。该系统经实际运行,效果良好,给出有待进一步改进的地方。  相似文献   

11.
搜索引擎中网络蜘蛛搜索策略比较研究   总被引:9,自引:0,他引:9  
何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的焦点之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。对未来的研究方向进行了展望。  相似文献   

12.
网络蜘蛛搜索策略进展研究   总被引:5,自引:0,他引:5  
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析,比较了各类搜索策略的特点和优缺点,对未来的研究方向进行了展望,给出了若干值得研究的问题。  相似文献   

13.
遗传算法在主题Web信息采集中的应用研究   总被引:3,自引:0,他引:3  
传统的基于本地搜索算法的信息采集系统存在诸如主题漂移和采集结果局部最优等问题。在深入研究Web拓扑结构基础上,利用网络蜘蛛的在线状态,提出了基于全局信息的、动态综合了链接的立即回报价值和未来回报价值的遗传算法。通过此算法,利用元搜索技术可进一步提高网络蜘蛛的性能,具有更高的查全率和查准率,能够较好地解决现存问题。  相似文献   

14.
自适应最优搜索算法的网络蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
魏文国  谢桂园 《计算机应用》2007,27(11):2857-2859
主题搜索引擎NonHogSearch改进了采用最优搜索算法的网络蜘蛛的搜索过程,控制了搜索的贪婪程度;并引入网页信噪比概念,从而判断网页是否属于所要搜索的主题页面;进一步,NonHogSearch在爬行过程中自动更新链接的权重,当得到主题相关页面时产生回报,将回报沿链接链路逆向反馈,更新链路上所有链接的Q值,这样避免了网络蜘蛛过早陷入Web搜索空间中局部最优子空间的陷阱,并通过并行方式实现多条链路的同时搜索,改进了搜索引擎的性能。实验证实了该算法在查全率与查准率两方面都有一定的优越性。  相似文献   

15.
在高职院校网络教学资源平台建设活动中,学校应该开展网络教学平台门户、精品课程平台门户和共享性资源平台门户的相关建设活动.在数字化教学资源平台建设活动,教师应该开展平台介绍、院系中心、资源中心的共享共生性建设活动.在网络教学平台门户建设中,教师应该立足于课程中心,开展课程搜索方式优化和最新课程的推广工作,从而显著提高网络教学平台的建设效率.本文从高职院校网络教学资源平台建设的有效性出发,提出几点有利于网络教学资源平台类型优化的可行性措施.  相似文献   

16.
随着企业信息化的推进,企业网络安全问题开始受到重视。近日,EDS、Sun Microsystems和Vignette三家公司推出一个新的联合门户解决方案。该方案基于Sun开放网络环境,为终端用户提供了单一网络入口,以获得信息,并可得到高度安全保障。这一新的安全企业信息门户(Secure Enter  相似文献   

17.
网络蜘蛛程序是搜索引擎工作的基础和关键,实现了抓取网络资源的网络蜘蛛程序,通过入口网址下载网络资源,并对其分析,获得包含的其他链接,利用这些链接向整个网络扩散,下载其他资源。测试了蜘蛛程序抓取网页的能力,并对多线程实现的利弊进行讨论,总结了常用的算法搜索策略,提出了后续的研究方向。  相似文献   

18.
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。  相似文献   

19.
《计算机与网络》2012,(12):38-39
网络爬虫概述网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取  相似文献   

20.
“谁第一个登上月球?”“张飞的母亲姓什么?”……当搜索成为一种习惯,我们所有疑问的答案都化为了无数的0与1,飘荡在网络中,我们也无可救药地搜索再搜索。网络与搜索的结合,迸发出了无尽的力量,搜索市场也在这种力量展示与众星捧月中迅速发展,百度作为国内搜索门户的主导势力代言人,成为2004年网络十大流行语言之一,也恰恰为这股风潮作出了侧面的诠释。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号