首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
微博作为优质的数据源,其中的数据非常适合做舆情分析等。新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率。针对这些问题,设计了一个免登录的微博网络爬虫。通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集。随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据。通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。  相似文献   

2.
随着Web 2.0时代的到来,舆情信息在微博上能够更快速的产生和传播。为了有效地分析微博舆情信息,微博数据的获取显得尤为重要。文中以新浪微博为研究对象,提出了基于模拟登录的网络爬虫采集方案。此方案解决了调用微博API接口对开发者的次数限制,解决了传统的网络爬虫需要身份验证的问题,加快了微博数据的采集速度,可以在短时间内获得海量的微博数据。实验表明,用该方案开发的系统具有快速的微博信息采集速度,更加灵活,可以很好地为舆情系统分析提供大量准确的数据支持。  相似文献   

3.
微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源.如何获取这些非结构化的数据,是进行微博数据挖掘的基础.根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息.通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能.  相似文献   

4.
随着社交网络的快速发展,对其研究也逐步深入。显然,社交网络基础数据的获取对研究具有非常重要的意义。针对目前已有的数据采集方案,根据新浪授权标准以及最新的微博加密方式,研究了两种采集方案:1)经OAuth2.0认证后,通过微博API接口获取数据;2)在RSA2加密方式下模拟登录微博,再通过网络爬虫抓取数据。同时,还研究了通过网页采集器针对微博编写适当的采集规则进而实现对数据的获取。3种数据采集方案都能有效地对数据进行采集且各具特点,针对数据的采集需求,提出融合不同的采集方案的策略。经实验研究,方案的融合策略可快速、高效地实现大数据量的采集。  相似文献   

5.
首先通过研究网络爬虫以及新浪微博的开放平台,设计实现新浪微博专用爬虫,获取研究数据。其次,通过实验得到重要用户节点指标,提出贝叶斯-PageRank算法筛选重要用户节点,并实验验证重要用户节点的有效性。最后通过对重要用户节点的监测实现网络舆情发现并给出相关舆情引导策略。  相似文献   

6.
介绍了从互连网站上,通过微博网站提供的API接口方式和通过网络爬虫下载新浪微博数据的两种方法,并都予以实现.改进了Webcollector爬虫下载微博数据的方法,把下载数据保存到MySQL数据库中的表里,实现了通过多个代理服务器轮流交换来下载微博数据的方法,同时实现了多个帐号轮流交替的下载方法.  相似文献   

7.
微博已成为网络信息的重要来源,该文分析了微博信息采集的相关方法与技术,提出了基于API的信息采集方法,然后设计了一个信息采集系统,能够对新浪微博的相关信息进行采集。实验测试表明,该信息采集系统能够快速有效地采集新浪微博信息。  相似文献   

8.
《软件》2019,(4):182-185
在大数据时代下,新浪微博的出现为人们获取和参与信息数据及其传播提供了全新的途径。而面对新浪微博不断增加的信息数据,人们对于提高微博获取的精确性和时效性也提出了更高的要求。在这一背景下,本文将重点围绕基于Python的新浪微博爬虫进行简要分析研究,在对Python与网络爬虫的基本概念进行明确的基础上,尝试设计一种Python的新浪微博爬虫程序,为相关研究人员提供相应理论参考。  相似文献   

9.
大数据时代,新浪微博已成为国内最大的信息平台之一,笔者提出了一种基于新浪微博数据采集的设计与实现方法。通过对比选择爬虫网站,采用Cookie登录、单对象、爬取进度可视化等方法依次剖析每个阶段遇到的问题及解决办法,旨在实现高效、稳定、快速的数据采集。最后将获取的结果存入MongoDB数据库可供后续进行大数据分析研究,得到对私对公有意义的分析结果。  相似文献   

10.
何波 《软件》2022,(2):52-54
新浪微博是当下社会使用较广泛的社交平台,为了提高平台的稳定运行能力,给予用户更加良好的社交体验,提出基于Python的新浪微博中爬虫程序维护方法。按照标准的统计方法与机器学习模式,在爬虫程序中建立空间场景,当识别到的爬虫程序信息与网站域名信息具备一定适配性时,爬虫程序维护信息。同时,抓取爬虫程序中敏感数据,按照网站浏览顺序进行匹配,以此获取的节点数据作为程序维护的依据;并采用建立目标函数的方式,对敏感数据有效性的校验,从维护合理性角度出发,参照域名地址,定位敏感数据发生位置,以此完成对程序的维护。实验结果表明:提出的爬虫程序维护方法,可提高对爬虫程序获取敏感数据定位的准确率,实现对网站爬虫程序的维护。  相似文献   

11.
校园舆情监测主要正对的是微博数据,而微博数据处理属于大数据范畴,其前提是获取大量的微博数据,文章尝试应用网络多媒体内容采集、数据分析等技术,完成针对校园网络舆情信息的有效提取与分析研究。分析了网络爬虫技术发现系统应解决的基本问题及涉及的元数据管理等关键技术,提出了相关的解决方案,同时设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例,将挖掘方案获取微博上的数据,应用于微博情感分析中。  相似文献   

12.
随着大数据时代的到来,越来越多的信息涌入互联网.以人工的形式在互联网中获取所需信息费时费力,而以网络爬虫的形式获取所需资源节省则大量人力物力财力.在通过网络爬虫获取所需资源的过程中爬虫需要模拟人工登录从而获取某些资源,网络爬虫的模拟登录是实现网络爬虫的一个重要环节,以Python语言作为开发语言,解决使用网络爬虫过程中所遇到的需要通过模拟OAuth2.0授权登录的问题.剖析了模拟登录整体流程,并且给出了爬虫通过OAuth2.0登录的具体的应用实例.  相似文献   

13.
本文借用新浪微博平台,通过python爬虫获取新浪微博的内容,对网络意见人士的身份信息、微博转发量和评论内容等进行文本统计分析,对网络意见人士的身份特征、群体行为特征及群体政治认同特征进行分析和总结.  相似文献   

14.
为了充分利用突发自然灾害发生时微博平台产生的大量灾情相关信息,建立一个微博灾情信息抽取系统具有重要意义。本文设计并实现了一个多线程爬虫系统。该系统基于Flask框架、Echarts可视化类库和百度地图API,并利用MySQL作为数据库管理系统。实际应用结果显示,该系统能够快速的采集微博数据,实现了微博文本灾情信息抽取与可视化分析。  相似文献   

15.
首先,打开看点官方首页(地址:http://kandian.com),并在页面中使用新浪微博账号进行登录(没有微博账号的“童鞋”请自觉面壁)。  相似文献   

16.
目前常用的网络爬虫和基于微博API抓取数据的算法很难满足舆情系统对微博数据的需求。为此,提出一种模拟浏览器登录微博抓取网页数据的算法,以方便地获取任意微博用户网页上的所有数据。通过微博用户之间的关系构建用户网络,并通过该网络发现新用户。为获取微博上有质量的数据,建立一个完整的数学模型,根据用户的发帖数、发帖频率、粉丝数、转发数、评论数等因素来计算用户影响力,以影响力为主要因子构建优先队列,使得影响力越大的用户数据采集频率越高,同时计算时间间隔以兼顾非活跃用户的数据获取。实验结果表明,该算法具有通用性强、完全无需人工干预、获取信息的质量高、速度快等优点。  相似文献   

17.
周中华  张惠然  谢江 《计算机应用》2014,34(11):3131-3134
目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。  相似文献   

18.
当国务院32个单位已开政务博客之时,当微博走入教育之门的时候,当从网络营销、微博营销、微信营销走到移动营销的大背景下;当你想从新浪微博提取一些感兴趣的数据又不想申请新浪微博开放平台开发者帐号;当你好不容易从微信公众平台成功申请一个微信公众号成为一个开发者,而后又拿不到开发者帐号的时候,又想获取微信用户号和保存消息列表,也许模拟登录就成为你唯一的选择了。  相似文献   

19.
本文针对社交媒体的信息安全的重要性,对已经发生的安全威胁事件及时做出反应,帮助目标用户更好的控制风险、消除安全隐患.本文以新浪微博API、网络爬虫技术、使用mmseg算法实现的jcseg分词器、JAVA正则表达式中文匹配、数据统计分析软件为基础,针对新浪微博的具有企业认证的用户的数据,进行关联相关用户、抓取数据、建立分类词库,并统计分析随时间变化的分类词库的词类、词频,对下一个时段的网络安全态势做出评估.  相似文献   

20.
首先对国内微博平台的信息进行了综合分析,主要介绍了微博信息的定义,在错综复杂的微博信息中哪些信息比较重要,以及这些微博信息包含哪些详细的内容,是如何组织的。然后选取新浪微博平台作为研究对象,利用新浪微博API设计了爬虫程序,抽取用户信息;以用户的关注人数、粉丝数和发布的微博数为标准对用户信息进行了定量分析。最后根据分析结果,针对不同特征的用户群体提出了相应的标签推荐方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号