首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
《计算机与网络》2013,(21):35-35
笔者曾以为网站百度快照的更新时间,也就是搜索引擎蜘蛛抓取页面的时间,抓取的越频繁,说明蜘蛛对该网站的爬行频率越高,促进了权重的提升。反之,如果网站权重高的话,百度搜索引擎蜘蛛也会越喜欢抓取该网站页面,它们之间的关系是相辅相成的,彼此互为依托。  相似文献   

2.
根据企业门户中信息更新的特点,结合企业门户信息检索的要求,在蜘蛛程序搜索策略中提出基于重要Web页面的增量获取思想,并利用多线程技术,设计应用于企业门户信息搜集的网络蜘蛛,使网络蜘蛛的搜索效率得到了提高。  相似文献   

3.
文章从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地住,提出了网络蜘蛛的功能和设计要求.在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了线程调度、页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析.  相似文献   

4.
虽然动态网页很棒,但“蜘蛛程序”对静态页面的抓取能力总咒强于动态页面的.如果站点中页面内容被搜索引擎大量收录,则被用户用不同的关键词找到的机率就越大,因此将动态网页转化成静态网页对提高访问计数量是有较大的帮助的。  相似文献   

5.
虽然动态网页很棒,但“蜘蛛程序”对静态页面的抓取能力总是强于动态页面的,如果站点中页面内容被搜索引擎大量收录,则被用户用不同的关键词找到的机率就越大,因此将动态网页转化成静态网页对提高访问计数量是有较大的帮助的。  相似文献   

6.
主题搜索引擎中网络爬虫的搜索策略研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。  相似文献   

7.
随着Web信息的快速增长,如何对Web信息进行检索,获取有价值的信息,已经成为Web信息检索的重点研究内容.本文设计一种可扩展的蜘蛛程序Spider,运用负栽均衡策略调度分布Spider的协同工作,实现Web站点页面的分布式下载,在获取页面信息的同时,获取站点的拓扑结构.  相似文献   

8.
介绍了基于文档矢量模型进行文档相关度计算的面向职业教育的主题蜘蛛,并结合页面链接上下文信息对URL进行预过滤,可采用多机并行下载提高收集效率。在一个面向Internet的职业教育检索的搜索引擎中得到了具体实现,整个系统在低性能的台式机上就能运行,并可获得较高的职业教育页面的收集精度和收集效率。  相似文献   

9.
自适应最优搜索算法的网络蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
魏文国  谢桂园 《计算机应用》2007,27(11):2857-2859
主题搜索引擎NonHogSearch改进了采用最优搜索算法的网络蜘蛛的搜索过程,控制了搜索的贪婪程度;并引入网页信噪比概念,从而判断网页是否属于所要搜索的主题页面;进一步,NonHogSearch在爬行过程中自动更新链接的权重,当得到主题相关页面时产生回报,将回报沿链接链路逆向反馈,更新链路上所有链接的Q值,这样避免了网络蜘蛛过早陷入Web搜索空间中局部最优子空间的陷阱,并通过并行方式实现多条链路的同时搜索,改进了搜索引擎的性能。实验证实了该算法在查全率与查准率两方面都有一定的优越性。  相似文献   

10.
段青玲  华松青 《程序员》2001,(3):99-100
一.引言 当大家在因特网上漫游时,经常会发现某一个网站上包含了自己非常需要的大量信息,为了尽快地保存这些信息,需要用到机器人程序,那么,什么是机器人程序呢?机器人程序又称为蜘蛛、蠕虫或Web爬虫等等。它实际上是一个自动化程序,用于自动连接到Web页面,然后循着Web页面中的超级链接继续前进,从而在Web页面中漫游。同时,它将收集有用的信息,并保存下来。机器人程序有很多现成的客户端软件,你可以到有关的站点去下载。本文中,重点介绍如何用CGI编写服务器端的机器人程序。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号