首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
主要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,并通过扩展Heritrix实现了对网易手机频道信息的多线程抓取,为建立面向手机信息的垂直搜索引擎提供了信息源。  相似文献   

2.
主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。  相似文献   

3.
在移动学习项目的开发过程中,结合我国教育资源利用率低的问题,通过扩展Heritrix和Lucene,整合教育资源,设计并实现了面向教育视频资源的垂直搜索引擎。针对Heritrix与Lucene串行组合方案难以实现信息抓取、分析过程与索引过程同时进行的问题,提出一种紧耦合的流程优化组合方案,使网页抓取、网页内容分析筛选和建立索引同时进行,降低了系统IO开销和磁盘空间的占用率。实验测试表明,在Heritrix运行过程中嵌入索引建立操作,对系统的运行效率影响较小,满足实际应用的需要。  相似文献   

4.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。  相似文献   

5.
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。  相似文献   

6.
针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式。该方式通过集中处理网络蜘蛛抓取的HTML网页,将其翻译成WML形式的网页快照,满足用户的移动搜索需求。在实际应用中,使用该方式成功地建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。  相似文献   

7.
张君  李保秀 《福建电脑》2008,24(4):141-142
介绍了垂直搜索引擎的原理及设计,重点描述了网页抓取模块(网络蜘蛛)的功能,及其最新研究成果,具有较高的实用性。  相似文献   

8.
随着中医药行业的快速发展,中医药相关数字化资源急剧增加,传统的全文搜索引擎因专业性不够强、内容繁多等问题导致用户无法快速方便地找到所需信息.为此,设计并实现了一款面向中医药领域的垂直搜索引擎具有重要的意义和价值.采用Heritrix与Lucene等技术构建中医药垂直搜索引擎——杏林搜索,重点介绍了杏林搜索的设计与实现,包括网络爬虫模块、网页解析模块、索引库和Web端等.实际应用效果表明,杏林搜索可以为用户提供更加快速、专业的中医药资源检索服务.  相似文献   

9.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

10.
搜索引擎中网络蜘蛛的研究与实现   总被引:1,自引:0,他引:1  
网络蜘蛛程序是搜索引擎工作的基础和关键,实现了抓取网络资源的网络蜘蛛程序,通过入口网址下载网络资源,并对其分析,获得包含的其他链接,利用这些链接向整个网络扩散,下载其他资源。测试了蜘蛛程序抓取网页的能力,并对多线程实现的利弊进行讨论,总结了常用的算法搜索策略,提出了后续的研究方向。  相似文献   

11.
网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术.通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度.多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息.  相似文献   

12.
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品.作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引.介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,...  相似文献   

13.
Web信息采集研究进展   总被引:14,自引:1,他引:14  
1.简介随着Internet/Intranet的迅速发展,网络正深刻地改变着我们的生活。而在网上发展最为迅猛的WWW(World Wide Web)技术,以其直观、方便的使用方式和丰富的表达能力,已逐渐成为Internet上最重要的信息发布和传输方式。然而,Web信息的急速膨胀,在给人们提供丰富的资源的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。为此,人们发展了以Web搜索引擎为主的检索服务,并且随着  相似文献   

14.
网络爬虫是为了实现网络资源下栽功能的程序,是搜索引擎最重要的构件。考虑到网络上信息的种类繁多,研究一种基于网络爬虫的网页信息提取技术,并给出相关的设计方案,对设计方案进行验证,结果表明设计的可行性。  相似文献   

15.
RL_Spider:一种自主垂直搜索引擎网络爬虫   总被引:1,自引:0,他引:1  
在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制经验信息,根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大。将得到的网页存储、索引,用户通过搜索引擎的搜索接口,就可以得到最佳的搜索结果。对多个网站进行主题爬虫搜索,实验结果表明,该方法对于网络的查全率和查准率都具有较大的提高。  相似文献   

16.
在分析Web社区搜索资源分散特点的基础上,运用Web抓取器、向量空间模型和相关性排序等技术设计了Web社区搜索引擎的体系结构,实现了一个Web社区搜索引擎系统--ChinalabSearch.根据对系统的性能评估,系统满足Web社区的搜索要求,提高了在社区内查找信息的效率,为组织间的合作提供了方便.  相似文献   

17.
随着网络信息的迅速增长以及深层网络结构的广泛应用,人们对于覆盖率广、检索效率高的搜索引擎提出了愈来愈高的要求.据此,论文提出了一种两阶段的搜索引擎设计方案.在第一阶段利用网络爬虫爬取相关的网络信息,并构成词条语料库,在第二阶段基于TF-IDF算法搜索词条语料库,得到与待查询语句最相近的词条.该引擎利用Flask框架构建...  相似文献   

18.
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加入了前端分类器作为爬行策略的执行机构,并对该分类器做定期的增量更新;然后使用主题爬行技术指导deep Web发掘,并且借助开源组件Lucene将主题爬行器所搜索的信息进行合理的安排,以便为检索接口提供查询服务.当用户向搜索引擎提交查询词后,Lucene缺省按照自己的相关度算法对结果进行排序.通过爬虫、索引器和查询接口的设计,实现了一个面向deep Web的垂直搜索引擎原型系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号