首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
随着互联网不断更新换代,信息呈现出井喷式发展。网络信息的获取方式就显得至关重要,采用网络爬虫的方式是一种获取信息的有效手段。本文利用Python对招聘网站的li信息进行网络爬虫,通过使用PyQt库设计图形界面,输出的csv文件以pandas库的格式进行读取和保存,最后对读取到的数据利用matpob库的图像功能进行分析,根据用户需求生成散点图或柱状图便于清晰的展示给用户;通过测试该系统运行稳定,功能实用,网络爬虫获取信息的方式可以有效的帮助求职者了解市场需求,快速定位相符职位,该系统有一定实用价值。  相似文献   

2.
传统的搜索引擎不能代替用户实行实时监控,为了解决这个问题,提出了定向搜索监控技术,用户可以根据自己的需求定制任务,包括指定搜索范围和搜索主题,系统按用户定义周期监控,并将结果及时主动地反馈给用户。以Google云平台Google App Engine作为开发平台,利用其提供的多项云服务,有效地解决了计划任务管理、多任务触发以及高并发等问题。重写了通用网络爬虫,通过算法改进提出了定向网络爬虫模型,定向网络爬虫与云端强大的服务器相结合,极大地缩短了爬行时间,提高了搜索监控效率。云平台和搜索监控技术的结合是平台即服务思想的一次成功实验。  相似文献   

3.
网站黄页系统是一个自动生成网站黄页目录并以此为基础为用户提供一系列服务的系统。它通过快速收集网络上的教育资源,并自动化地对其进行高质量的分类和信息抽取,形成教育网站黄页,为用户提供浏览、检索等服务。未经过二次开发的黄页系统检索的准确性普遍较低,不适合校园网络的使用.针对普通搜索引擎的固有缺陷,提出了一种应用于新闻检索的搜索引擎,该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。  相似文献   

4.
网络爬虫效率瓶颈的分析与解决方案   总被引:3,自引:0,他引:3  
尹江  尹治本  黄洪 《计算机应用》2008,28(5):1114-1116
网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫自身的结构,消除效率瓶颈。通过对网络爬虫结构、应用环境以及用户要求的分析,提出一个通用网络爬虫的改进设计方案,并通过实验得到较好的测试结果。  相似文献   

5.
李强 《软件》2023,(1):168-170
本文分析了基于Python的新闻聚合系统网络爬虫,指的是根据Python的网络爬虫构建新闻聚合系统,利用爬虫获取新闻聚合系统的新闻数据,不同网站的页面布局是不同的,因此需要创建开源爬虫,可以在不同页面布局中获取数据。在网络爬虫开发过程中需要利用Python语言,而网络爬虫Web提取工具为BeautifulSoup,Web应用程序框架为Laravel,选用的后端语言为PHP。网络爬虫可以根据用户配置文件提取不同页面布局的数据,并且可以向数据库系统中导入提取的数据。  相似文献   

6.
介绍了网站恶意性评估系统的设计及实现技术。该系统以评估一个给定网站是否具有恶意性为目标,以网络爬虫作为评估工具,以基于行为的恶意代码检测技术为评估手段,是一个可以有效消除安全产品的被动性和滞后性、同时可以有效避开现行主流恶意代码检测技术的缺陷并能有效提高评估精度的系统。  相似文献   

7.
基于改进网络爬虫技术的SQL注入漏洞检测*   总被引:5,自引:1,他引:4  
网络爬虫在搜索引擎领域广泛使用,SQL注入漏洞检测属于Web服务和数据库安全的范畴。为了提高网站的安全性,及时、有效地发现网站存在的SQL注入漏洞,改进了现有的网络爬虫技术,应用到对网站SQL注入漏洞的检测中,丰富了检测的手段,降低了检测的漏报率。最后通过实验证明了该技术的可行性。  相似文献   

8.
本文提出了一种维护WAP网站的网络爬虫系统,该系统可以自动遍历WAP网站,并对网页进行分析,检查语法和语义的错误。  相似文献   

9.
郝正鸿  陈兴蜀  王海舟  胡鑫 《计算机应用》2011,31(11):3068-3071
采用被动测量技术分析了PPStream点播系统的节点发现和分发协议,研究了视频缓冲图(Buffer-Map)的结构特点和主要功能,在此基础上设计并实现了一款用于获取PPStream点播节目用户Buffer-Map信息的分布式主动测量爬虫系统,使用该爬虫对PPStream点播系统的用户观看行为进行了分类统计,首次提出了用户观看粘度的概念并做量化统计分析,发现用户观看粘度与平均观看长度成正比,与累计概率曲线斜率成反比。  相似文献   

10.
基于主动探测技术的P2P网络监控   总被引:3,自引:0,他引:3  
P2P网络无中心节点的特点使得P2P网络中的有害信息传播难以监管,针对目前广为流行的P2P软件BitTorrent和eMule,在协议分析的基础上提出了一种基于主动探测技术的P2P网络监控方法,并开发了P2P网络信息监控系统。该系统实现了在因特网范围内利用BT和eMule网络进行有害信息传播的探测功能,有效解决了P2P网络中的信息传输不易发现和不易定位问题。  相似文献   

11.
针对传统高校网站信息分散不便于智能终端访问的问题,提出将网络爬虫技术和微信公众号开发技术相结合开发高校信息服务平台,利用网络爬虫技术对分散的网站信息进行自动采集清洗归整,并使用微信公众平台向高校师生即时推送。实验表明,该平台与传统的信息获取方式相比,运行效率更高,用户的服务体验更好。  相似文献   

12.
网页去重方法研究   总被引:2,自引:0,他引:2  
随着互联网技术的高速发展,网络中网站的数量成倍增长,这些网站提供了大量的信息,但不同的网站中存在着大量的重复信息,这些信息被搜索引擎反复的索引,因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。采用信息抽取技术提取网页正文内容,利用加密技术对文本字符串进行转换并形成唯一的数字串,通过对数字串对比,标记出具有相同内容的网页,以此来提高搜索引擎的效率和质量。  相似文献   

13.
如何发现主题信息源是主题Web信息整合的前提。提出了一种主题信息源发现方法,将主题信息源发现转化为网站主题分类问题,并利用站外链接发现新的信息源。从网站中提取出能反映网站主题的内容特征词和结构特征词,建立描述网站主题的改进的向量空间模型。以该模型为基础,通过类中心向量法与SVM相结合对网站主题进行分类。提出一种能尽量少爬取网页的网络搜索策略,在发现站外链接的同时爬取最能代表网站主题的页面。将该主题信息源发现方法应用于林业商务信息源,通过实验验证了该方法的有效性。  相似文献   

14.
面向深层网数据的爬虫技术与反爬虫技术之间的对抗随着网站技术、大数据、异步传输等技术的发展而呈现此消彼长的趋势。综合对比当前主流的爬虫和反爬虫技术,针对高效开发、快速爬取的需求,MUCrawler(多源统一爬虫框架)被设计成一种可以面向多个网站数据源,以统一的接口形式提供爬虫开发的Python框架。测试结果显示,该框架不但能够突破不同的反爬虫技术获取网站数据,在开发效率、鲁棒性和爬取效率等方面也体现出较好的运行效果。  相似文献   

15.
为防范终端从网络中获取不良信息,分析了常见的网络访问控制和信息过滤方法,建立了基于终端信息过滤的网络访问控制模型。该模型通过综合分析URL地址/关键字I、P地址和协议等信息来识别不良网站,通过分析网页文本关键词识别不良网页。基于Windows网络过滤驱动技术,开发了一款Windows终端网络信息过滤和访问控制软件。该软件拦截Win-dows终端的网络访问数据流,应用建立的网络访问控制模型,实现了对不良网站和网页的访问控制。  相似文献   

16.
及时获取新增内容,是采集器的重要衡量指标。基于版块页-内容页架构设计的网络采集器通过定期重采入口的版块页,能够有效地快速识别新产生内容页面并进行扩展。然而获取内容的实时性与对网站访问的友好性存在一定的折中。传统的重采策略关注时效性,而忽略了对网站访问的友好性。该文提出了一种基于时间序列预测的改进重采策略兼顾时效性和友好性。实验表明,该方法可以在保证数据采集实时性的情况下,有效降低访问量,提升对网站访问的友好性。  相似文献   

17.
为了提高目前爬虫算法抓取结果的有效性, 提出了一种旨在获取有效信息的改进网络爬虫算法, 主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中, 网络资源定位符被分层存储, 在保留信息全部拓扑关系的基础上, 将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下, 实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据, 结果表明, 改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此, 分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。  相似文献   

18.
用户网购偏好发现是用户挖掘、电商营销以及用户个性化推荐的关键, 该文基于校园网流量, 提出了一种基于MapReduce的校园网用户网购偏好分析方法, 结合深度包检测(Deep Packet Inspection, DPI)与网络爬虫等技术, 对校园网用户网购行为进行了特征提取和识别. 以淘宝、天猫、京东三家电商网站为例, 对电商网站用户转化率进行了统计分析, 并分别对三个节假日校园网用户网购偏好进行了细致的分析.  相似文献   

19.
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web 信息的爬虫框架.针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术.实验结果表明了该框架采用的技术是可行的.  相似文献   

20.
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号