排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
基于Heritrix的商品信息搜索的网络爬虫系统的设计 总被引:1,自引:0,他引:1
袁小洁 《电脑编程技巧与维护》2012,(22):74+81-74,81
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。 相似文献
2.
1