首页 | 本学科首页   官方微博 | 高级检索  
     

基于Linux的python多线程爬虫程序设计
引用本文:李俊丽. 基于Linux的python多线程爬虫程序设计[J]. 计算机与数字工程, 2015, 43(5)
作者姓名:李俊丽
作者单位:晋中学院信息技术与工程学院 晋中030619
摘    要:微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源.如何获取这些非结构化的数据,是进行微博数据挖掘的基础.根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息.通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能.

关 键 词:微博网页  网络爬虫  模拟登录

Python Multithreading Web Crawler Program Based on Linux
LI Junli. Python Multithreading Web Crawler Program Based on Linux[J]. Computer and Digital Engineering, 2015, 43(5)
Authors:LI Junli
Abstract:
Keywords:microblog page  web crawler  simulating login
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号