首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
随着网络技术的快速发展,通用搜索引擎已经不能满足用户的一些需求,特别是当用户需要搜索某一领域内的信息时,垂直搜索引擎就正好符合这种需求。以手机资源为背景,通过运用扩展Heritrix和Lucene,构建了一个检索结果比较精准的垂直搜索引擎。研究了通过定制和扩展Heritrix从互联网上爬取相关的信息资源,利用HtmlParser工具对爬取的信息进行分析和抽取,运用Lucene建立全文索引和提供检索服务,并设计了MVC的查询接口。通过响应时间、查全率和查准率的测试实验表明,系统达到了设计目标。  相似文献   

2.
垂直搜索引擎作为一种新型的搜索引擎服务模式,它的出现彻底解决了通用搜索引擎中一直存在的信息量大、查询不准确、深度不够等一系列问题。该文通过对Heritrix体系结构的深入分析,详细阐述了Heritrix在垂直搜索引擎中实现数据搜集的整个过程。  相似文献   

3.
主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。  相似文献   

4.
基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现   总被引:1,自引:0,他引:1  
垂直搜索引擎是针对某一领域的搜索引擎,它可以帮助用户在海量数据面前进行快速、专业、精准的检索。文章研究了垂直搜索引擎的特点,对Lucene与Heritrix的架构与主要模块功能进行了分析,设计并开发了图书垂直搜索引擎系统,为用户提供快捷、专业的图书信息检索服务。  相似文献   

5.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。  相似文献   

6.
目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂.为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项目Heritrix和开源规则引擎项目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成了松耦合,降低了用户配置难度.  相似文献   

7.
垂直搜索引擎构建是搜索领域的热点问题之一,应用领域广泛.现有的方法一般都只是对垂直搜索引擎构建中的某一个或几个阶段进行优化,且针对不同网站信息的获取往往需要人工配置操作,较为繁琐.本文在深入研究构建垂直搜索引擎技术的基础上,运用Heritrix、Solr等JAVA开源工具,结合网页正文抽取和完整性词抽取算法,提出了一套自动化构建垂直搜索引擎的方法,对该方法实现各阶段的关键问题展开了研究,并给出相应的优化方案.实践表明,提出的方法与优化方案具有较强的实用性.  相似文献   

8.
基于Lucene2.0和Heritrix的搜索引擎是以广东技术师范学院天河学院为对象构建的,着重开发一个简单的网络垂直搜索引擎,实现一个简单的搜索引擎所具备的基本功能,为今后搭建一个标准的、实用的、商业化的搜索引擎打下坚实的基础。  相似文献   

9.
为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎.首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据采集和正文信息抽取,并将抽取的数据保存到本地;然后基于Lucene的全文检索工具包,对本地数据进行分词、倒排索引、索引检索和改进的相关度排序等处理,最终设计实现了一个通用可扩展的DCI垂直搜索引擎.实验结果表明,该搜索引擎在很大程度上提高了网页信息抽取的准确度和数据的检索效率.  相似文献   

10.
在移动学习项目的开发过程中,结合我国教育资源利用率低的问题,通过扩展Heritrix和Lucene,整合教育资源,设计并实现了面向教育视频资源的垂直搜索引擎。针对Heritrix与Lucene串行组合方案难以实现信息抓取、分析过程与索引过程同时进行的问题,提出一种紧耦合的流程优化组合方案,使网页抓取、网页内容分析筛选和建立索引同时进行,降低了系统IO开销和磁盘空间的占用率。实验测试表明,在Heritrix运行过程中嵌入索引建立操作,对系统的运行效率影响较小,满足实际应用的需要。  相似文献   

11.
文章结合影响股票价格的技术指标、股票理论、预测股价变量等因素,运用Lucene、Heritrix技术实现股票搜索引擎,重点讨论了Flex数据交互、Spring与Flex整合、Lucene索引建立、网络爬虫抓取信息遵守的规则,给出了对信息源不能直接抓取的解决办法。  相似文献   

12.
分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。  相似文献   

13.
基于Heritrix的商品信息搜索的网络爬虫系统的设计   总被引:1,自引:0,他引:1  
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。  相似文献   

14.
基于Lucene/Heritrix的垂直搜索引擎的研究与应用   总被引:2,自引:0,他引:2  
Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用.Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源.探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用.  相似文献   

15.
针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式。该方式通过集中处理网络蜘蛛抓取的HTML网页,将其翻译成WML形式的网页快照,满足用户的移动搜索需求。在实际应用中,使用该方式成功地建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。  相似文献   

16.
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。  相似文献   

17.
网络信息资源的爆炸式增长使得人们获得有用信息日益困难,随着垂直网站的出现和发展,专业化的垂直搜索引擎成为今后搜索引擎发展的主流。该文简要介绍了垂直搜索引擎,并重点对其抓取系统所应用的网络蜘蛛技术做了详细分析,最后讨论了垂直搜索引擎的发展方向。  相似文献   

18.
网络信息资源的爆炸式增长使得人们获得有用信息日益困难,随着垂直网站的出现和发展.专业化的垂直搜索引擎成为今后搜索引擎发展的主流。该文简要介绍了垂直搜索引擎,并重点对其抓取系统所应用的网络蜘蛛技术做了详细分析,最后讨论了垂直搜索引擎的发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号