共查询到20条相似文献,搜索用时 15 毫秒
1.
一种改进的T-Spider分布式爬虫 总被引:2,自引:0,他引:2
为了提高互联网网页的抓取速度,提出了一个改进的T-Spider分布式爬虫模型.该爬虫在解析URL阶段将页面进行切割以并行解析,在页面调度阶段使用改进的链接优先权计算方法,提高爬虫的抓取速度和稳定性.通过实验结果分析,验证了该方法的有效性. 相似文献
2.
3.
社区互联网是以用户创造内容为主的新型互联网,具有很高的统计价值,由于权限和数据更新频繁等限制,传统的网络爬虫很难获取这一部分数据,设计并实现了一种可以自动登录并可以根据更新频率快慢智能抓取数据的爬虫,不同于以往爬虫以页面为粒度,该爬虫以人为最小粒度,并以人与人之间的关系为抓取依据,在获取这类数据上有很好的性能。 相似文献
4.
5.
随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取的速度比较快,但是稳定性和数据完整性欠佳;基于网路爬虫方式抓取的速度比较慢,但是稳定性和数据完整性较好。最后提出通过采用两种方式相结合的方式,能够进一步提高抓取效率。 相似文献
6.
《世界电信》2013,(10)
网络爬虫排除标准,即Robots协议,也称为爬虫协议、机器人协议等。Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的,所有内容都包含在一个文本文件(robots.txt)中,是搜索引擎访问一个网站时要查看的第一个文件。搜索引擎的原理是通过一种爬虫(spider)程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许,从而为搜素引擎指路,方便爬虫更好地抓取网站内容,同时也保护了中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。 相似文献
7.
8.
本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2C网站作为爬取信息来源,运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页搜索引擎模型的探索与研究。 相似文献
9.
10.
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。 相似文献
11.
《电子技术与软件工程》2016,(6)
作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。 相似文献
12.
爬虫软件是现今互联网环境下,高效准确地获取数据的重要方式之一.针对传统的初级爬虫技术易于被目标网站拦截访问的问题,简述爬虫的工作原理和方式,讨论爬虫、反爬虫与反反爬虫之间的相互关系.分析应对目标网站的反反爬虫机制,包括伪装用户代理,设置IP地址代理、使用自动化测试工具调用浏览器等技术要点,并分析了基于Python语言中Requests库,构建了对网页的多种请求方式和数据获取方法的解决方案.结合反反爬虫机制与数据分析技术,以哔哩哔哩视频网为案例,分析其网页基本结构与调用的应用程序接口,使用Python与Requests库抓取网站所有视频的相关数据.数据清洗后分析播放量最高视频的相关信息,并将结论以数据可视化的方式呈现,实现对数据的获取、挖掘与分析. 相似文献
13.
新浪微博作为国内最大的社交网站,蕴含着丰富的信息。本文实现了一个微博数据分析网站,该网站的后端利用爬虫实时抓取数据并存储到redis数据库中,前端利用ajax轮询技术和数据可视化技术将统计分析后的数据展示到网页。相对于直接调用新浪微博的API,网络爬虫获取数据的方式有更大的灵活性,可以获取到的数据也相对较多,但是也存在一些限制,其中最大的阻碍就是新浪微博的反爬虫技术,本文也将对如何突破反爬虫限制进行探讨。 相似文献
14.
描述了一个网络舆情监控系统的设计与实现方法。系统由舆情信息采集及预处理、舆情分析和舆情服务组成,通过网络爬虫对网页内容进行提取,运用DOM树获得文本信息,并进行网页的去重,运用ICTCLAS进行分词,提取特征词并构建VSM向量空间模型,通过k-means聚类算法获得热点话题,并利用HowNet进行文本情感倾向性分析。提高了网络舆情监控与分析的准确性、即时性,为正确地引导舆论提供了分析依据。 相似文献
15.
16.
为了推进互联网技术在旅游业中的应用,加强对旅游市场需求变化的监测,构建了一个能够基于网络文本准确识别在线用户旅游意图的模型。模型在BiGRU的基础上,引入了门控注意力机制以加强对重要特征的关注,并通过堆叠网络加深对文本语义信息的理解。为验证模型性能,使用爬虫工具抓取相关网络文本构建数据集,并在该数据集上对本文模型进行对比实验。实验结果表明,模型在旅游意图识别任务中体现出了较好的分析处理性能,相较于对比模型,准确率与F1值均有显著提升。 相似文献
17.
随着就业压力的增加,公司对技术性人才的需求越来越高。随着科技的发展和社会的进步,各个行业快速发展,尤其是计算机和互联网领域的发展极其迅速。很明显,高校毕业生只获得毕业证和学位证是不能满足公司要求的。为了帮助更多同学参加各类比赛,文章依靠Python网络爬虫技术、J2EE技术架构和B/S模式来开发一个系统,将抓取的各种比赛信息统一存放在MySQL数据库中,方便用户查询,抓取的比赛信息比较全面。 相似文献
18.
19.
20.
视听类移动应用软件已经成为网民收听收看网络视听节目的重要渠道之一.本文针对部分软件违规传播淫秽色情、血腥暴力等节目,违反国家相关管理政策,提出基于网络爬虫搜索数据和人工研判内容的思路,设计和实现具有视听类移动应用软件自动抓取、安装文件下载、节目内容研判、传播情况机器核查等功能的监看系统. 相似文献