基于Linux的python多线程爬虫程序设计 Python Multithreading Web Crawler Program Based on Linux期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Linux的python多线程爬虫程序设计

引用本文：	李俊丽. 基于Linux的python多线程爬虫程序设计[J]. 计算机与数字工程, 2015, 43(5)

作者姓名：	李俊丽

作者单位：	晋中学院信息技术与工程学院晋中030619

摘要：	微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源.如何获取这些非结构化的数据,是进行微博数据挖掘的基础.根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息.通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能.
关键词：	微博网页网络爬虫模拟登录
Python Multithreading Web Crawler Program Based on Linux

LI Junli. Python Multithreading Web Crawler Program Based on Linux[J]. Computer and Digital Engineering, 2015, 43(5)

Authors:	LI Junli

Abstract:

Keywords:	microblog page web crawler simulating login
本文献已被万方数据等数据库收录！