首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
主题搜索引擎中网络爬虫的搜索策略研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。  相似文献   

2.
网络蜘蛛搜索策略比较研究   总被引:8,自引:0,他引:8  
以何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的主要问题之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。对未来的研究方向进行了展望。  相似文献   

3.
根据企业门户中信息更新的特点,结合企业门户信息检索的要求,在蜘蛛程序搜索策略中提出基于重要Web页面的增量获取思想,并利用多线程技术,设计应用于企业门户信息搜集的网络蜘蛛,使网络蜘蛛的搜索效率得到了提高。  相似文献   

4.
搜索引擎中网络蜘蛛搜索策略比较研究   总被引:9,自引:0,他引:9  
何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的焦点之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。对未来的研究方向进行了展望。  相似文献   

5.
基于广度优先搜索的网络蜘蛛设计   总被引:1,自引:0,他引:1  
郑泳 《软件导刊》2010,(7):122-123
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求是目前所面临的重要问题。重点阐述了搜索引擎的Web Spider(网络蜘蛛)的搜索策略和搜索优化措施,提出了一种简单的基于广度优先算法的网络蜘蛛设计方案,并分析了设计过程中的优化措施。  相似文献   

6.
基于Boltzmann行动选择策略的网络蜘蛛搜索算法   总被引:4,自引:0,他引:4  
在分析传统网络蜘蛛搜索机制特点的基础上,将Boltzmann行动选择策略引入网络蜘蛛的链接选择机制,提出了一种基于Boltzmann行动选择策略的启发式网络蜘蛛搜索算法.针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新的算法可以有效提高搜索效率.  相似文献   

7.
主题网络蜘蛛的搜索策略是主题搜索引擎的核心部分,是近年来主题搜索引擎研究中的热点问题之一。深入研究了主题网络蜘蛛的关键技术,阐述了多线程网络蜘蛛的实现过程,并对传统的VSM算法和PageRank算法进行了改进,提高了主题网络蜘蛛采集信息的有效性和准确性。  相似文献   

8.
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。  相似文献   

9.
自适应最优搜索算法的网络蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
魏文国  谢桂园 《计算机应用》2007,27(11):2857-2859
主题搜索引擎NonHogSearch改进了采用最优搜索算法的网络蜘蛛的搜索过程,控制了搜索的贪婪程度;并引入网页信噪比概念,从而判断网页是否属于所要搜索的主题页面;进一步,NonHogSearch在爬行过程中自动更新链接的权重,当得到主题相关页面时产生回报,将回报沿链接链路逆向反馈,更新链路上所有链接的Q值,这样避免了网络蜘蛛过早陷入Web搜索空间中局部最优子空间的陷阱,并通过并行方式实现多条链路的同时搜索,改进了搜索引擎的性能。实验证实了该算法在查全率与查准率两方面都有一定的优越性。  相似文献   

10.
网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术.通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度.多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号