首页 | 本学科首页   官方微博 | 高级检索  
     

基于MapReduce的微博文本采集平台
引用本文:于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(Z3).
作者姓名:于留宝  胡长军  苏林晗
作者单位:北京科技大学计算机与通信工程学院 北京100083
基金项目:国家十二五科技支撑计划课题
摘    要:微博不仅数据量大,而且实时性高,采用传统的Web文本爬取方式,很难在短时间内获取足量的微博.为了解决研究微博数据面临的数据采集问题,提出了基于MapReduce的微博数据采集平台,将整个微博抓取系统部署在hadoop平台上,充分利用hadoop分布式框架的特点,实现多节点同时抓取微博,很大程度上提高了抓取速率;并就微博采集过程中因输入数据过小导致hadoop不能有效均衡负载的问题,提出了采用多个小文件的输入方式,有效地解决了负载不均衡的问题.最后以Sina微博为例进行结,结果表明,该系统成本低、扩展性好、效率高,可广泛应用于基于微博数据的舆情分析以及传播学和虚拟社会学等方面的研究,并作为其基础数据采集平台.

关 键 词:Hadoop  MapReduce  微博  数据采集  Sina

Micro-blogs Data Collection Based on MapReduce
YU Liu-bao , HU Chang-jun , SU Lin-han.Micro-blogs Data Collection Based on MapReduce[J].Computer Science,2012,39(Z3).
Authors:YU Liu-bao  HU Chang-jun  SU Lin-han
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号