首页 | 本学科首页   官方微博 | 高级检索  
     

针对微博的免登录分布式网络爬虫的研究
引用本文:王林,刘星辰.针对微博的免登录分布式网络爬虫的研究[J].计算机测量与控制,2019,27(7):128-131.
作者姓名:王林  刘星辰
作者单位:西安理工大学自动化与信息工程学院,西安,710000;西安理工大学自动化与信息工程学院,西安,710000
基金项目:陕西省科技计划重点项目(2017ZDCXL-GY-05-03)
摘    要:微博作为优质的数据源,其中的数据非常适合做舆情分析等。新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率。针对这些问题,设计了一个免登录的微博网络爬虫。通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集。随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据。通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。

关 键 词:免登录网络爬虫  分布式网络爬虫  Hadoop  MapReduce
收稿时间:2018/12/24 0:00:00
修稿时间:2018/12/24 0:00:00

Research on Distributed Web Crawler without login for Microblog
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机测量与控制》浏览原始摘要信息
点击此处可从《计算机测量与控制》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号