首页 | 本学科首页   官方微博 | 高级检索  
     

基于Hadoop的分布式并行增量爬虫技术研究
作者姓名:刘芳云  张志勇  李玉祥
作者单位:河南科技大学信息工程学院,河南洛阳,河南科技大学信息工程学院,河南洛阳,河南科技大学信息工程学院,河南洛阳
基金项目:国家自然科学基金(No.61772174,61370220),河南省科技创新杰出人才计划项目(No.174200510011),河南省高校科技创新团队支持计划项目(No.15IRTSTHN010)
摘    要:面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率。但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略。实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。

关 键 词:Hadoop集群  分布式爬虫  并行爬虫  增量爬虫  刷新策略
收稿时间:2018-04-08
修稿时间:2018-04-25
点击此处可从《计算机测量与控制》浏览原始摘要信息
点击此处可从《计算机测量与控制》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号