基于Heritrix的增量式爬虫设计与实现 |
| |
引用本文: | 孟庆浩,王晶,沈奇威.基于Heritrix的增量式爬虫设计与实现[J].电信技术,2014(9). |
| |
作者姓名: | 孟庆浩 王晶 沈奇威 |
| |
作者单位: | 北京邮电大学网络与交换技术国家重点实验室;东信北邮信息技术有限公司 |
| |
基金项目: | 国家973计划项目,国家自然科学基金资助项目,长江学者和创新团队发展计划资助,教育部科学技术研究重点(重大)项目资助,北京高等学校青年英才计划项目 |
| |
摘 要: | Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。
|
关 键 词: | Heritrix 网络爬虫 增量抓取 Index型网页 |
本文献已被 CNKI 万方数据 等数据库收录! |
|