首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
主题爬虫的设计与实现   总被引:11,自引:2,他引:11  
汪涛  樊孝忠 《计算机应用》2004,24(Z1):270-272
文章以主题相关度为核心研究了设计主题爬虫的相关技术,通过实验给出了具体实现.实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和主题信息采集奠定了良好的基础.  相似文献   

2.
今年是辛亥革命100周年,该文在普通爬虫的技术基础上以主题相关性为核心构建辛亥革命史主题爬虫,从而保证该主题爬虫所搜集网页与辛亥革命主题相关,返回用户所需,做构建辛亥革命主题搜索引擎的前期工作。  相似文献   

3.
化学主题网络爬虫的设计和实现   总被引:1,自引:0,他引:1  
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。  相似文献   

4.
分布式多主题网络爬虫系统的研究与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
白鹤  汤迪斌  王劲林 《计算机工程》2009,35(19):13-16,1
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。  相似文献   

5.
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。  相似文献   

6.
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。  相似文献   

7.
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。  相似文献   

8.
通过比较普通爬虫与主题爬虫,以主题相关性为核心设计搜集数码产品信息的主题爬虫。提出相似度和PageRank相结合的排序算法,从而保证所搜集网页的主题相关性,切返用户之需,为主题搜索引擎的实现奠定了良好的基础。  相似文献   

9.
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。  相似文献   

10.
主题网络爬虫研究综述   总被引:3,自引:0,他引:3       下载免费PDF全文
网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。关键词:  相似文献   

11.
分布式网络爬虫的设计与实现   总被引:1,自引:0,他引:1  
提出一种可部署于单一网域及多网域间的分布式爬虫DSpider。DSpider能够通过调整节点规模和连接超时阈值,有效部署于LAN和WAN两种网络环境中。首先简要介绍了DSpider的系统结构,然后详细分析了DSpider的任务调度策略,并且在实验中将DSpider爬虫部署在LAN和WAN两种环境中的不同性能作了详细的分析。  相似文献   

12.
文章首先分析和比较现有网管系统的一些不足之处,进而提出了一种跨平台的、基于组件的分布式网络管理系统的模型,并对其中的图形界面、MIB处理、SNMP支持、网络拓扑搜索、数据采集和事件处理等六个组成部分的具体实现作了说明。  相似文献   

13.
MAS中分布并行计算的研究与实现   总被引:3,自引:0,他引:3  
Agent理论的日益成熟及多Agent系统MAS(Multi-Agent System)的出现,为开放式分布系统的开发和应用,提供了新的模奎。本文以美国Purdue大学的Bond2 MAS为框架,将其与分布式计算应用相结合,给出了一个用MAS进行分布并行计算的具体实现。  相似文献   

14.
地震资料分布数据管理平台研究与实现   总被引:1,自引:0,他引:1  
利用数据网格技术实现海量地震资料并行处理需要解决动态、自治、异构的高性能计算系统之间的分布数据管理问题。根据石油领域资源现状,将该领域高性能资源划分为不同的虚拟社区,并建立分布数据管理体系结构,详细描述元数据模型与副本定位算法等关键技术。实现并部署了基于Web portal的地震资料数据管理平台,系统运行稳定、可操作性强、可扩展性好。  相似文献   

15.
为了整合复旦图书馆数字化论文资源,来为教授提供个性化推荐服务,使用sniffer监听网络信息,模拟IE的浏览行为,实现了针对Vip、ISI和Metalib三个数据源的Deep Web Crawler,并研究了通用Deep Web Crawler的系统框架和功能模块.  相似文献   

16.
Ajax技术给传统的爬虫带来了巨大的挑战,为了能够提取出在Ajax程序中隐藏的WEB资源,需要解决两大关键问题:JavaScript脚本解析和每一次脚本事件触发后的页面状态信息的保存。提出一种适合Ajax的爬虫模型,在模型中设计了一个嵌入的脚本解析引擎和使用了有向状态图,有效地解决了上述的两个关键问题。实验结果显示该爬虫模型能够有效地提取出Ajax程序中的隐藏资源。  相似文献   

17.
一个基于SOA的大型分布式计算机辅助教学系统   总被引:13,自引:0,他引:13  
传统的面向对象的软件开发方法所开发的应用系统通常与开发工具、宿主平台、操作系统紧密耦合,容易导致和形成所谓的“信息孤岛”。面向服务的体系结构(SOA)被认为是解决分布式环境中软件重用、互操作、提高软件开发效率的有效途径。本文以一个具体的计算机辅助教学管理系统—NWU-CMI为实例,研究了利用Web服务实现基于SOA的大型分布式软件系统的有效方法,同时,深入分析了采用SOA体系结构开发NWU-CMI系统的代码重用、系统结构、服务组装等关键实现技术。  相似文献   

18.
民航主题Hidden-Web爬虫的设计与实现   总被引:1,自引:0,他引:1  
分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫.此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对Form库中的Form进行填写并搜集含有匹配结果的页面集.实验证明此爬虫的性能令人满意且对其它Hidden-Web的应用研究具有借鉴意义.  相似文献   

19.
针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬虫方法。对每次迭代爬取的主题相关文档集建立LDA模型,提取模型热点词,更新主题关键词集及其权重。引入基于Word2vec的主题相似度计算模型,结合文档内容以及锚文本内容词项的语义相似度和TF-IDF值计算链接优先级,引导爬虫抓取主题相关的网页。与基于语义检索的聚焦爬虫和基于向量空间的聚焦爬虫相比,主题自适应聚焦爬虫在主题覆盖率和爬取准确度方面性能更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号