首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
张雁涔 《信息与电脑》2023,(12):154-156
为便于企业进行信息筛选和采集,文章采用网络爬虫技术设计企业大数据采集系统,使企业大数据采集系统更符合时代发展的需求,即要确保采集数据信息的精准性、有效性、及时性,拟在解决数据精准匹配问题的基础上,优化系统的处理和运行效率。  相似文献   

2.
汤飞弘 《软件》2023,(1):176-179
本文利用Python网络爬虫技术对猎聘网上公司的招聘信息进行爬虫分析,整合处理爬虫得到的数据。通过数据可视化技术,展现招聘城市分布状况,分析研究各类招聘岗位与薪资、学历要求的关系,直观地展示了互联网行业招聘现状,为求职者提供相关就业信息。  相似文献   

3.
聚焦爬虫搜集与特定主题相关的页面,为搜索引擎构建页面集。传统的聚焦爬虫采用向量空间模型和局部搜索算法,精确率和召回率都比较低。文章分析了聚焦爬虫存在的问题及其相应的解决方法。最后对未来的研究方向进行了展望。  相似文献   

4.
基于遗传算法的聚焦爬虫搜索策略   总被引:1,自引:0,他引:1       下载免费PDF全文
曾广朴  范会联 《计算机工程》2010,36(11):167-169
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。  相似文献   

5.
本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适应度,引入新的URL实现交叉、变异操作,将具有相同URL前缀的链接按小生境处理。实践证明,该爬虫具有较好的性能。  相似文献   

6.
随着互联网不断更新换代,信息呈现出井喷式发展。网络信息的获取方式就显得至关重要,采用网络爬虫的方式是一种获取信息的有效手段。本文利用Python对招聘网站的li信息进行网络爬虫,通过使用PyQt库设计图形界面,输出的csv文件以pandas库的格式进行读取和保存,最后对读取到的数据利用matpob库的图像功能进行分析,根据用户需求生成散点图或柱状图便于清晰的展示给用户;通过测试该系统运行稳定,功能实用,网络爬虫获取信息的方式可以有效的帮助求职者了解市场需求,快速定位相符职位,该系统有一定实用价值。  相似文献   

7.
8.
在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫.该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器.基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类.在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度.系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序.把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能.  相似文献   

9.
10.
随着互联网技术的发展,数据资源逐渐成为人们关注的焦点,通过网络爬虫获取数据的技术受到广泛的研究。同时,由于人们获取数据的需求日益增长,爬虫的使用者往往会使用反爬虫的对抗技术来获取自己所需的数据。围绕爬虫技术与爬虫的对抗技术进行研究,结合实践,讨论如何采取相应的措施对抗爬虫,实现对网站数据资源的保护。  相似文献   

11.
传统的手工构建本体是一项费时费力的工作.对比和借鉴了国内外本体自动获取的方法和思路,提出了基于WordNet和聚焦爬虫的半自动领域本体构建方法,以WordNet为中心,聚焦爬虫为辅助,通过计算概念之间相似度,构建本体,实验结果表明,该方法可以有效地快速构建领域本体,还可用于扩展本体.  相似文献   

12.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2       下载免费PDF全文
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

13.
传统的高校人才招聘工作效率低,过程中产生的数据不能在今后的工作中重复使用,更不能与其它系统实现有效的数据共享,从而造成决策的盲目及滞后。又由于工作流程的随意性及信息的不透明性造成招聘工作的"暗箱"操作。通过建立基于.NET的高校人才招聘系统可以有效地解决以上问题。本文按软件工程的方法,对系统设计进行了需求分析、系统的用例模型的建立、系统间的数据流程分析、数据库的设计等并列举了部分模块的实现。  相似文献   

14.
聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和URL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。  相似文献   

15.
聚焦爬虫技术研究综述   总被引:50,自引:1,他引:50  
周立柱  林玲 《计算机应用》2005,25(9):1965-1969
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。  相似文献   

16.
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。  相似文献   

17.
王景中  邱铜相 《计算机应用》2015,35(10):2901-2904
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。  相似文献   

18.
介绍一种利用ASP开发动态网站的实例,讲述了网上人才招聘系统的总体分析和设计、数据库和程序设计.  相似文献   

19.
网络爬虫和网络反爬虫在博弈中不断成长,网络爬虫的存在已经成为网络信息时代一种常态。随着大数据和人工智能技术的出现,网络爬虫也越来越规模化和智能化,对网络爬虫的研究也要越来越明晰且与时俱进。本文对目前网络爬虫的特征、分类、所使用的工作流程和爬行策略进行梳理和比较,为网络爬虫提供较全面的总结,为进一步研究网络爬虫和网络反爬虫提供重要参考。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号