共查询到20条相似文献,搜索用时 46 毫秒
1.
主要介绍中内蒙古联通对内蒙古地区49所高校网站门户信息进行整合以及在高校无法为掌上校讯开通接口的情况下,吸取当前网页海量数据抓取及数据映射的优点,重建一套适合掌上校讯使用的网页数据精准抓取技术。 相似文献
2.
3.
4.
5.
李睿 《信息安全与通信保密》2014,(10):36-39
<正>大数据时代,信息抓取是重要的信息获取方式,但是也让个人信息陷入"裸奔"的尴尬境地。由于我国缺少个人隐私保护的法律传统,对信息抓取技术的法律规制应当在隐私权保护基础法律框架下进行,具体来说应当进一步扩大隐私权客体的范围,明确信息抓取的范围和边界,赋予用户对个人信息的主导权,并注重通过行业自律的方式加强网络环境下用户的隐私权保护。所谓信息抓取是将非结构化的信息抓取出来保 相似文献
6.
面向主题的网络蜘蛛技术研究及系统实现 总被引:3,自引:0,他引:3
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度. 相似文献
7.
网页结构化信息抽取技术方法研究 总被引:2,自引:0,他引:2
分析了两种当前主流的网页结构化信息抽取技术方法:基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法,并在此基础上实现了一种新的网页结构化信息抽取算法,一定程度上提高了抽取效率和精度。 相似文献
8.
9.
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。 相似文献
10.
为了更好地对web网页的页面信息进行抓取,实现业务逻辑和页面显示的分离,采用了一种基于HtmlParser的技术。同时结合网站元数据结构性质及模板技术对前端页面动态、交互性强的网站进行了内容提取,对web网站内容管理起到良好的效果。 相似文献
11.
《电子技术与软件工程》2016,(6)
作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。 相似文献
12.
新浪微博作为国内最大的社交网站,蕴含着丰富的信息。本文实现了一个微博数据分析网站,该网站的后端利用爬虫实时抓取数据并存储到redis数据库中,前端利用ajax轮询技术和数据可视化技术将统计分析后的数据展示到网页。相对于直接调用新浪微博的API,网络爬虫获取数据的方式有更大的灵活性,可以获取到的数据也相对较多,但是也存在一些限制,其中最大的阻碍就是新浪微博的反爬虫技术,本文也将对如何突破反爬虫限制进行探讨。 相似文献
13.
爬虫软件是现今互联网环境下,高效准确地获取数据的重要方式之一.针对传统的初级爬虫技术易于被目标网站拦截访问的问题,简述爬虫的工作原理和方式,讨论爬虫、反爬虫与反反爬虫之间的相互关系.分析应对目标网站的反反爬虫机制,包括伪装用户代理,设置IP地址代理、使用自动化测试工具调用浏览器等技术要点,并分析了基于Python语言中Requests库,构建了对网页的多种请求方式和数据获取方法的解决方案.结合反反爬虫机制与数据分析技术,以哔哩哔哩视频网为案例,分析其网页基本结构与调用的应用程序接口,使用Python与Requests库抓取网站所有视频的相关数据.数据清洗后分析播放量最高视频的相关信息,并将结论以数据可视化的方式呈现,实现对数据的获取、挖掘与分析. 相似文献
14.
15.
分散的计算机上存储有大量的信息,企业级用户急需一种工具对这些零散的信息进行统一的查找,最好还可通过配置对特定的网站进行检索,这就是企业级搜索引擎,本文使用开源项目Solr设计了一款面向企业的搜索引擎。整体设计基于SSH设计框架实现;服务器端采用Heritrix抓取网页,加入IKAnalyzer增加中文分词功能;客户端采用Ajax技术实现异步通信,优化用户体验。 相似文献
16.
王华伟 《微电子学与计算机》2002,19(7):41-43,61
网际网(Internet)目前是一个巨大的、分布广泛的和全球性的信息服务中心,人们越来越多地使用它来查找数据和知识。同时也出现了大量各种基于网页的搜索算法。根据网页数据半结构化的特点,文章基于数据挖掘领域的半结构化数据模型,由此模型提出了一种新的网际网上的知识搜索算法。 相似文献
17.
18.
19.
本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2C网站作为爬取信息来源,运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页搜索引擎模型的探索与研究。 相似文献
20.
随着微博用户的迅猛增长,越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式.针对如何对微博数据进行有效合理的采集,提出了基于微博API的分布式抓取技术,通过模拟微博登录自动授权,合理控制API的调用频次,结合任务分配控制器高效地获取微博数据.该分布式抓取技术还结合时间触发和内存数据库技术实现重复控制,避免了数据的重复爬取和重复存储,提高了系统的性能.本分布式抓取技术具有可扩展性高、任务分配明确、效率高、多种爬取策略适应不同的爬取需求等特点.新浪微博数据爬取实例验证了该技术的可行性. 相似文献