基于Hadoop的分布式并行增量爬虫技术研究 |
| |
作者姓名: | 刘芳云 张志勇 李玉祥 |
| |
作者单位: | 河南科技大学信息工程学院,河南洛阳,河南科技大学信息工程学院,河南洛阳,河南科技大学信息工程学院,河南洛阳 |
| |
基金项目: | 国家自然科学基金(No.61772174,61370220),河南省科技创新杰出人才计划项目(No.174200510011),河南省高校科技创新团队支持计划项目(No.15IRTSTHN010) |
| |
摘 要: | 面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率。但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略。实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。
|
关 键 词: | Hadoop集群 分布式爬虫 并行爬虫 增量爬虫 刷新策略 |
收稿时间: | 2018-04-08 |
修稿时间: | 2018-04-25 |
|
| 点击此处可从《计算机测量与控制》浏览原始摘要信息 |
|
点击此处可从《计算机测量与控制》下载免费的PDF全文 |
|