首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
微博作为优质的数据源,其中的数据非常适合做舆情分析等。新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率。针对这些问题,设计了一个免登录的微博网络爬虫。通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集。随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据。通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。  相似文献   

2.
随着Web 2.0时代的到来,舆情信息在微博上能够更快速的产生和传播。为了有效地分析微博舆情信息,微博数据的获取显得尤为重要。文中以新浪微博为研究对象,提出了基于模拟登录的网络爬虫采集方案。此方案解决了调用微博API接口对开发者的次数限制,解决了传统的网络爬虫需要身份验证的问题,加快了微博数据的采集速度,可以在短时间内获得海量的微博数据。实验表明,用该方案开发的系统具有快速的微博信息采集速度,更加灵活,可以很好地为舆情系统分析提供大量准确的数据支持。  相似文献   

3.
在舆情分析、微博营销和个性化推荐等方面,微博社区发现的研究都具有重要的应用价值。为了准确而有效地发现微博社交网络中的社区,提出一种基于信任关联度的微博社区发现算法(TRKM算法)。该算法通过微博用户的评论、转发、原创微博等属性来构造节点间信任关联度,再利用微博社区的模块度对网络社区划分效果进行评价。在新浪微博明星和普通用户数据集上进行实验,并将TRKM算法与传统K-means算法作比较。实验表明,该算法能够更有效地发现微博用户关系网络中的社区结构。  相似文献   

4.
传统的敏感舆情模型中,不论是基于文本或是数据挖掘的分析方法都是直接处理网络舆情,未结合网络传播特性分析.针对上述问题,研究并采用基于微博交互关系算法:通过量化微博的敏感程度,分析用户的交互关系来构建微博敏感舆论传播模型.实验基于新浪微博,搜索到一定数量的敏感用户,对用户的交互行为进行分析,得到未来有发表敏感舆论倾向的用户并进行监控.实验结果证明,与传统的舆情模型相比,该方法可行且有效,开拓了舆情分析思路,适用于当前网络舆情研究.  相似文献   

5.
介绍了从互连网站上,通过微博网站提供的API接口方式和通过网络爬虫下载新浪微博数据的两种方法,并都予以实现.改进了Webcollector爬虫下载微博数据的方法,把下载数据保存到MySQL数据库中的表里,实现了通过多个代理服务器轮流交换来下载微博数据的方法,同时实现了多个帐号轮流交替的下载方法.  相似文献   

6.
目前常用的网络爬虫和基于微博API抓取数据的算法很难满足舆情系统对微博数据的需求。为此,提出一种模拟浏览器登录微博抓取网页数据的算法,以方便地获取任意微博用户网页上的所有数据。通过微博用户之间的关系构建用户网络,并通过该网络发现新用户。为获取微博上有质量的数据,建立一个完整的数学模型,根据用户的发帖数、发帖频率、粉丝数、转发数、评论数等因素来计算用户影响力,以影响力为主要因子构建优先队列,使得影响力越大的用户数据采集频率越高,同时计算时间间隔以兼顾非活跃用户的数据获取。实验结果表明,该算法具有通用性强、完全无需人工干预、获取信息的质量高、速度快等优点。  相似文献   

7.
《软件》2019,(4):182-185
在大数据时代下,新浪微博的出现为人们获取和参与信息数据及其传播提供了全新的途径。而面对新浪微博不断增加的信息数据,人们对于提高微博获取的精确性和时效性也提出了更高的要求。在这一背景下,本文将重点围绕基于Python的新浪微博爬虫进行简要分析研究,在对Python与网络爬虫的基本概念进行明确的基础上,尝试设计一种Python的新浪微博爬虫程序,为相关研究人员提供相应理论参考。  相似文献   

8.
文中以新浪微博为研究对象,以分析新浪微博的信息转发与传播特征为研究目的,并对传播行为进行预测.在获取大量新浪微博在线数据的基础上,对各种可能影响用户转发行为的因素进行统计、分析,挖掘各种影响因素特征并进行建模.提出基于用户属性、社交关系和微博内容三类综合特征,使用机器学习的分类方法,对给定微博的用户转发行为进行预测.基于微博网关注关系拓扑,利用概率级联模型对给定微博的转发路径进行预测,为预测微博的影响范围提供依据.文中通过实验分析了新浪微博符合复杂网络特征、社交类特征对转发行为有重要影响,并验证了传播预测的有效性.  相似文献   

9.
在微博大数据环境下,文章以舆情数据采集、用户行为分析为应用背景,提出了一种爬虫数据采集系统的设计与实现方案。该方案主要采用的是聚焦爬虫和增量式爬虫相结合,同时基于内容评价的爬行策略,对用户给定的关键词进行搜索,并在其发生变化时对相关内容进行更新,从而实现数据采集的及时性和有效性。通过实际数据采集效果来看,本方案单机日数据采集量约为88万条,实际应用中用户可根据需求自定义爬取数据的速度,也可通过增加分布式爬虫数量提升爬取数据量与速度。  相似文献   

10.
微博网络测量研究   总被引:9,自引:0,他引:9  
随着移动通信和Web技术的不断突破,以微博为代表的在线社会网络在中国广泛发展起来,越来越多的人开始使用微博进行信息分发和舆论传播.为了了解中国微博网络中的拓扑结构特征和用户行为特征等内在信息,对国内最大的微博系统——新浪微博——开展了主动测量,并结合已有的在线社会网络测量结果,对新浪微博的网络拓扑和用户行为特征进行了分析和比较.主要发现包括:1)新浪微博网络具有小世界特性;2)新浪微博网络的入度分布属于幂次分布,而出度分布表现为某种分段幂率函数;3)与类似社会网络相比,新浪微博网络的出入度不具有相关性;4)新浪微博网络属于同配网络;5)新浪微博用户发博时间具有明显的日分布和周分布模式;6)新浪微博用户博文数目分布表现为威布尔分布;7)新浪微博用户博文的转发和评价行为具有很强的相关性,且博文转发概率要高于评价概率.这些测量研究和发现不仅有助于设计出符合中国微博网络结构特征的数学模型和计算模型,也是实现对微博舆论的监测、引导、控制等方面的重要依据和基础.  相似文献   

11.
社交网络中重要节点的发现研究具有较大的实际意义与价值。考虑社交网络中用户作为节点所包含一些特有的属性,通过将用户的社交行为划分强/弱关系的方式对社交网络拓扑结构的关系边进行补充,提出一种基于SALSA算法的加权算法WSALSA来发现社交网络中的重要节点。采用部分新浪微博真实数据进行实验及验证,对比PageRank、HITS和SALSA算法得到的节点影响力排序结果在SIR模型中的传播能力,结果表明WSALSA算法与SIR排序结果的斯皮尔曼相关系数值更高,对社交网络中节点重要性的评估更加准确。  相似文献   

12.
何波 《软件》2022,(2):52-54
新浪微博是当下社会使用较广泛的社交平台,为了提高平台的稳定运行能力,给予用户更加良好的社交体验,提出基于Python的新浪微博中爬虫程序维护方法。按照标准的统计方法与机器学习模式,在爬虫程序中建立空间场景,当识别到的爬虫程序信息与网站域名信息具备一定适配性时,爬虫程序维护信息。同时,抓取爬虫程序中敏感数据,按照网站浏览顺序进行匹配,以此获取的节点数据作为程序维护的依据;并采用建立目标函数的方式,对敏感数据有效性的校验,从维护合理性角度出发,参照域名地址,定位敏感数据发生位置,以此完成对程序的维护。实验结果表明:提出的爬虫程序维护方法,可提高对爬虫程序获取敏感数据定位的准确率,实现对网站爬虫程序的维护。  相似文献   

13.
信息传播的高速性加剧了谣言等网络污染在微博网络中的扩散。微博网络的用户量和信息量极为庞大。因此,对微博污染传播机制和污染检测手段的研究显得尤为重要。根据基于用户影响力建立的微博谣言传播模型,利用蚁群算法逆推污染传播路径,搜索受染用户,并分别以Twitter和新浪微博为实验平台,通过对比分析验证了模型的可行性。实验结果表明:模型通过对受染个体的搜索,缩小了污染的检测范围,提高了微博污染的治理效率和准确性。  相似文献   

14.
校园舆情监测主要正对的是微博数据,而微博数据处理属于大数据范畴,其前提是获取大量的微博数据,文章尝试应用网络多媒体内容采集、数据分析等技术,完成针对校园网络舆情信息的有效提取与分析研究。分析了网络爬虫技术发现系统应解决的基本问题及涉及的元数据管理等关键技术,提出了相关的解决方案,同时设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例,将挖掘方案获取微博上的数据,应用于微博情感分析中。  相似文献   

15.
从宏观角度研究基于关键词的网络舆情热度有助于相关机构把握目标群体的整体舆情动态,从而实现精准施策,提升舆论引导水平.本文以新浪微博数据为例,采用因子分析方法 (Factor Analysis, FA),挖掘舆情热度内在影响因素,并通过改进Elman网络结构,利用遗传算法(Genetic Algorithm, GA)优化初始参数来构建模型对网络舆情关键词热度进行分析预测.实验结果表明,所提出的方法相较于采用原始数据集和标准Elman网络的预测结果,具有更高的预测精度,可为相关研究提供决策支持.  相似文献   

16.
社交网络用户言论及关联性问题一直是舆情监控的一个重要工作和难点问题,针对用户不当言论及同一言论下不同用户之间的关联关系,文中通过爬虫和深度学习方法,以及大数据分析平台实现了针对用户不当评论信息来进行关联挖掘,通过爬取微博社交平台数据验证了论文提出的系统架构和方法,并取得了不错的效果.  相似文献   

17.
借鉴了国外Twitter的采集方法,目前,国内微博信息的采集方法主要为网络爬虫采集和基于新浪微博开放平台API文档采集。但普通网络爬虫不具备登录功能,而新浪微博开放平台API有一定的限制,无法完全采集。本系统使用Java在Myeclipse平台上进行开发,使用MySQL数据库存储数据。在模拟新浪微博登录后,从数据库中获取待采集新浪微博用户的微博地址,根据获取到的地址采集网页,解析后放入数据库,供分析系统使用。  相似文献   

18.
随着社交网络的快速发展,对其研究也逐步深入。显然,社交网络基础数据的获取对研究具有非常重要的意义。针对目前已有的数据采集方案,根据新浪授权标准以及最新的微博加密方式,研究了两种采集方案:1)经OAuth2.0认证后,通过微博API接口获取数据;2)在RSA2加密方式下模拟登录微博,再通过网络爬虫抓取数据。同时,还研究了通过网页采集器针对微博编写适当的采集规则进而实现对数据的获取。3种数据采集方案都能有效地对数据进行采集且各具特点,针对数据的采集需求,提出融合不同的采集方案的策略。经实验研究,方案的融合策略可快速、高效地实现大数据量的采集。  相似文献   

19.
微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源.如何获取这些非结构化的数据,是进行微博数据挖掘的基础.根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息.通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能.  相似文献   

20.
随着互联网技术的发展和普及,社交网络在为人们之间的沟通交流拉近距离的同时,也给不法分子提供了可乘之机,他们利用社交网络散播谣言、招募团队成员等,进行各种违法犯罪活动。快速排查犯罪嫌疑人的社交关系,查找犯罪嫌疑人在各种社交平台上的关系网,对社交网络进行分析和取证,将有助于公安机关尽早查清犯罪成员之间千丝万缕的联系,将犯罪团伙彻底清除。该文以新浪微博为例,提出一种四层的网络取证模型,利用网络爬虫程序获取微博用户的信息,绘制用户的微博关系图,并将其以有向图的形式进行直观展示。通过分析微博关系图,可以直观地显示相关微博用户的关联关系,有助于提高公安机关寻找线索和排查犯罪嫌疑人社会关系的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号