首页 | 本学科首页   官方微博 | 高级检索  
     

基于众包的社交网络数据采集模型设计与实现
引用本文:高梦超,胡庆宝,程耀东,周旭,李海波,杜然. 基于众包的社交网络数据采集模型设计与实现[J]. 计算机工程, 2015, 0(4)
作者姓名:高梦超  胡庆宝  程耀东  周旭  李海波  杜然
作者单位:1. 四川大学计算机学院,成都610065; 中国科学院高能物理研究所计算中心,北京100049
2. 中国科学院高能物理研究所计算中心,北京,100049
3. 中国科学院声学研究所,北京,100190
基金项目:国家“863”计划基金资助项目“基于媒体大数据的大众信息消费服务平台及应用示范”(SS2014AA012305)。
摘    要:社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。

关 键 词:社交网络  众包模式  分布式计算  信息采集  Web爬虫  Hadoop分布式文件系统

Design and Implementation of Crowdsourcing-based Social Network Data Collection Model
GAO Mengchao,HU Qingbao,CHENG Yaodong,ZHOU Xu,LI Haibo,DU Ran. Design and Implementation of Crowdsourcing-based Social Network Data Collection Model[J]. Computer Engineering, 2015, 0(4)
Authors:GAO Mengchao  HU Qingbao  CHENG Yaodong  ZHOU Xu  LI Haibo  DU Ran
Abstract:
Keywords:social network  crowdsourcing mode  distributed computing  information collection  Web crawler  Hadoop Distributed File System( HDFS)
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号