首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
网络爬虫是目前比较流行的一种网页检索工具,其设计和实现也需要不断优化和改进。通过描述网络爬虫设计与实现中所碰到的问题,提供解决这些问题的方法,并给出实现这些目标的网络爬虫设计方法,提供该设计的Java语言版实现。  相似文献   

2.
通过对主题网络爬虫的研究,设计一个对网络中的矿山设备资源进行收集的主题网络爬虫。设计内容主要包括主题网络爬虫的各个功能模块以及各功能模块实现的方法。例如判定网页主题相关度及URL价值评价等。使用的主要技术为向量空间模型和PageRank算法。矿山设备领域主题网络爬虫的研究与设计为矿山设备领域主题爬虫的实现奠定了基础。  相似文献   

3.
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。  相似文献   

4.
详细阐述了主题网络爬虫实现的关键技术, 将传统的空间向量模型进行改进形成自适应的空间向量模型, 结合网页内容和链接两个方面进行网页相关度计算, 设计并实现了一个面向主题的网络爬虫系统. 针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略. 最后给出实验结果, 证明该系统的可行性及优越性.  相似文献   

5.
针对互联网信息急剧增多,为了改善网络爬虫的爬行性能和提高爬虫程序的通用性,分析了网络爬虫的原理与架构,设计实现了一种高速多线程网络爬虫程序。该爬虫程序采用多个线程并行处理网页,采用宽度优先和深度优先结合的方式来控制网页爬取深度。实验证明该爬虫程序减少了网页下载过程中的平均等待时间,具有较好的性能。  相似文献   

6.
从网络爬虫技术的定义出发,介绍了爬虫架构以及与爬虫架构相关模块的功能和实现方法,并给出了以案例的形式实现了简单网络爬虫算法过程.  相似文献   

7.
胡晟 《软件》2012,(7):145-147
本文首先分析了Web挖掘的实际必要性,介绍了数据挖掘体系结构中的关键技术和运行原理。并且介绍了一般爬虫所实现的功能,在此之上给出了一种网络爬虫设计,重点论述了此爬虫的原理、实现、性能以及该爬虫的优点。最后,经实验证明,设计的爬虫能够高效地获取互联网上的各种信息资源。  相似文献   

8.
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块...  相似文献   

9.
互联网中包含大量有价值的数据,网络爬虫通过既定规则可以自动地抓取互联网的网页数据并下载至本地存储.研究了网络爬虫的工作原理和Scrapy框架模块,提出了基于Scrapy框架构建工程化网络爬虫爬取定向网页数据的4步流程法,基于此方法步骤构建网络爬虫实现2018年高校自主招生简章数据的爬取和存储.实验结果证明,基于Scrapy框架可有效快捷地构建工程化网络爬虫.  相似文献   

10.
网络爬虫在Web信息搜索与数据挖掘中应用   总被引:1,自引:1,他引:1  
分析了万维网不良网络信息对网络文化安全带来的挑战,提出了Web信息搜索与数据挖掘体系结构,并介绍了该体系结构中的关键技术和运行原理.分析了普通爬虫所实现的功能和不足之后,重点论述了该爬虫的工作原理、实现方式和性能分析以及该爬虫不同于其它爬虫的功能和在Web信息搜索与数据挖掘体系中应用.通过试验测试表明,该爬虫能够很好地获取万维网上的各种信息资源,有助于网络文化内容监测与管理.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号