首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
主要介绍中内蒙古联通对内蒙古地区49所高校网站门户信息进行整合以及在高校无法为掌上校讯开通接口的情况下,吸取当前网页海量数据抓取及数据映射的优点,重建一套适合掌上校讯使用的网页数据精准抓取技术。  相似文献   

2.
齐鹏  李隐峰  宋玉伟 《电子科技》2012,25(11):118-120
针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以分为:HTTP交互和数据解析两个模块。  相似文献   

3.
随着互联网的日益壮大,网页抓取技术飞速发展。网页抓取已成为人们在浩瀚的网络世界中获取信息必不可少的工具,如何有效进行网页抓取成为专业搜索引擎中网络爬虫研究的主要问题。文章介绍了爬虫控制器和工作原理,并讨论了爬虫控制器的URL队列管理、页面抓取线程、索引队列管理等的抓取策略,并对其未来发展趋势进行了展望。  相似文献   

4.
数据的抓取是数据分析工作的基础,没有了数据一些研究分析工作也就无法进行。网络爬虫可以快速抓取互联网各类信息,本文以抓取二手房信息为例,实现基于Python的网络爬虫信息系统,完成了目标数据的高效获取。实验结果表明:本程序提供了一种快速获取网页数据的方法,为后续的数据挖掘研究提供支持。  相似文献   

5.
<正>大数据时代,信息抓取是重要的信息获取方式,但是也让个人信息陷入"裸奔"的尴尬境地。由于我国缺少个人隐私保护的法律传统,对信息抓取技术的法律规制应当在隐私权保护基础法律框架下进行,具体来说应当进一步扩大隐私权客体的范围,明确信息抓取的范围和边界,赋予用户对个人信息的主导权,并注重通过行业自律的方式加强网络环境下用户的隐私权保护。所谓信息抓取是将非结构化的信息抓取出来保  相似文献   

6.
面向主题的网络蜘蛛技术研究及系统实现   总被引:3,自引:0,他引:3  
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度.  相似文献   

7.
网页结构化信息抽取技术方法研究   总被引:2,自引:0,他引:2  
分析了两种当前主流的网页结构化信息抽取技术方法:基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法,并在此基础上实现了一种新的网页结构化信息抽取算法,一定程度上提高了抽取效率和精度。  相似文献   

8.
随着互联网的快速发展,互联网信息呈指数增长,对信息的收集变得越来越困难,如何从大量的数据中快速高效提取用户感兴趣的信息,是迫切需要解决的问题。网络爬虫技术能够自动收集信息并对网页数据进行抓取,提升了搜索引擎的能力。文章通过对网络爬虫技术的原理、Python钒钛词库爬虫进行设计与分析,实现信息的高效处理。  相似文献   

9.
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。  相似文献   

10.
为了更好地对web网页的页面信息进行抓取,实现业务逻辑和页面显示的分离,采用了一种基于HtmlParser的技术。同时结合网站元数据结构性质及模板技术对前端页面动态、交互性强的网站进行了内容提取,对web网站内容管理起到良好的效果。  相似文献   

11.
作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。  相似文献   

12.
新浪微博作为国内最大的社交网站,蕴含着丰富的信息。本文实现了一个微博数据分析网站,该网站的后端利用爬虫实时抓取数据并存储到redis数据库中,前端利用ajax轮询技术和数据可视化技术将统计分析后的数据展示到网页。相对于直接调用新浪微博的API,网络爬虫获取数据的方式有更大的灵活性,可以获取到的数据也相对较多,但是也存在一些限制,其中最大的阻碍就是新浪微博的反爬虫技术,本文也将对如何突破反爬虫限制进行探讨。  相似文献   

13.
爬虫软件是现今互联网环境下,高效准确地获取数据的重要方式之一.针对传统的初级爬虫技术易于被目标网站拦截访问的问题,简述爬虫的工作原理和方式,讨论爬虫、反爬虫与反反爬虫之间的相互关系.分析应对目标网站的反反爬虫机制,包括伪装用户代理,设置IP地址代理、使用自动化测试工具调用浏览器等技术要点,并分析了基于Python语言中Requests库,构建了对网页的多种请求方式和数据获取方法的解决方案.结合反反爬虫机制与数据分析技术,以哔哩哔哩视频网为案例,分析其网页基本结构与调用的应用程序接口,使用Python与Requests库抓取网站所有视频的相关数据.数据清洗后分析播放量最高视频的相关信息,并将结论以数据可视化的方式呈现,实现对数据的获取、挖掘与分析.  相似文献   

14.
在网络信息监控系统中,利用正则表达式和HTMLparser对网页HTML代码进行递规匹配,实现了对网站的整体解析.实际应用表明,新信息从发布到抓取的时间小于5分钟,没有出现信息漏抓、不抓和重复抓取的现象.系统利用Java语言实现,准确率和遗漏率分别达到99%和0.  相似文献   

15.
赵凯  王敏 《电子世界》2013,(22):10-11
分散的计算机上存储有大量的信息,企业级用户急需一种工具对这些零散的信息进行统一的查找,最好还可通过配置对特定的网站进行检索,这就是企业级搜索引擎,本文使用开源项目Solr设计了一款面向企业的搜索引擎。整体设计基于SSH设计框架实现;服务器端采用Heritrix抓取网页,加入IKAnalyzer增加中文分词功能;客户端采用Ajax技术实现异步通信,优化用户体验。  相似文献   

16.
网际网(Internet)目前是一个巨大的、分布广泛的和全球性的信息服务中心,人们越来越多地使用它来查找数据和知识。同时也出现了大量各种基于网页的搜索算法。根据网页数据半结构化的特点,文章基于数据挖掘领域的半结构化数据模型,由此模型提出了一种新的网际网上的知识搜索算法。  相似文献   

17.
面向互联网视频的话题分析技术研究   总被引:1,自引:0,他引:1  
本文提出了一种互联网视频话题分析方法,在利用自动网页抓取技术获取的视频信息数据集合基础上,首先利用中文分词技术对视频文本信息进行自动分词,并采用基于不同时间周期的关键词词频过滤算法进行关键词选择,然后采用基于频繁项挖掘的话题聚类方法对热点视频话题进行检测,最后采用贝叶斯分类方法对视频话题进行分类。  相似文献   

18.
小微企业在推动技术创新、增加财政税收、提高居民收入、扩大就业需求等方面都发挥了积极的作用。大数据是继云计算、物联网、移动互联网之后信息技术融合应用的新技术,小微企业具有规模小、数量多、分布广的特点,且信息较分散、缺乏系统性和完整性,决定了小微企业数据采集的难度很大。本文将大数据与小微企业融合起来研究,阐述了大数据时代背景下小微企业数据信息的采集和处理方面所面临的机遇和挑战,进行了适应性分析,在此基础上利用网络爬虫技术、Java和数据库技术设计了基于大数据的小微企业信息自动采集系统,实现了网页信息抓取、处理、集成、存储和查询等。  相似文献   

19.
本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2C网站作为爬取信息来源,运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页搜索引擎模型的探索与研究。  相似文献   

20.
随着微博用户的迅猛增长,越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式.针对如何对微博数据进行有效合理的采集,提出了基于微博API的分布式抓取技术,通过模拟微博登录自动授权,合理控制API的调用频次,结合任务分配控制器高效地获取微博数据.该分布式抓取技术还结合时间触发和内存数据库技术实现重复控制,避免了数据的重复爬取和重复存储,提高了系统的性能.本分布式抓取技术具有可扩展性高、任务分配明确、效率高、多种爬取策略适应不同的爬取需求等特点.新浪微博数据爬取实例验证了该技术的可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号