首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
文章结合影响股票价格的技术指标、股票理论、预测股价变量等因素,运用Lucene、Heritrix技术实现股票搜索引擎,重点讨论了Flex数据交互、Spring与Flex整合、Lucene索引建立、网络爬虫抓取信息遵守的规则,给出了对信息源不能直接抓取的解决办法。  相似文献   

2.
基于Lucene/Heritrix的垂直搜索引擎的研究与应用   总被引:2,自引:0,他引:2  
Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用.Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源.探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用.  相似文献   

3.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能。该文分析了Lucene的索引机制,探讨了Heritrix的结构框架,最后结合实际实例对基于Lucene的全文检索的应用进行深入研究。  相似文献   

4.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。  相似文献   

5.
研究了Lucene搜索引擎框架在烟草行业的信息获取和搜索方面的系统应用。如何在异构的海量数据中获取与烟草行业相关的数据是实现烟草行业信息化管理技术的一个重要分支。通过对不同文件格式的数据处理、烟草行业相关站点的数据抓取、搜索引擎创建和数据检索四个模块框架来实现系统。Web页面基于Heritrix烟草信息数据抓取,其中的非结构化数据或者半结构化数据和不同的文件格式通过Tika工具统一转为为文本,通过Lucene对结构化和非结构化数据创建索引以实现数据检索,由此实现烟草信息搜索引擎系统的实现。  相似文献   

6.
在研究垂直搜索引擎原理和开源工具Lucene等技术基础上,实现了对网络数据的抓取、分析、建立索引和检索。阐述了基于Lucene技术的索引和检索的实现方法。实验结果表明,该系统具有较高的检索效率和准确率。  相似文献   

7.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

8.
网络爬虫采集互联网信息并提供搜索服务。该设计基于Lucene.NET平台开发网络爬虫,可以对特定的网页进行抓取和分析,提取网页中有用信息,并对抓取的数据进行索引,存储到服务器硬盘,同时过滤掉无用信息。系统界面友好,准确高效。  相似文献   

9.
分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。  相似文献   

10.
Lucene搜索引擎   总被引:2,自引:0,他引:2       下载免费PDF全文
周登朋  谢康林 《计算机工程》2007,33(18):95-96,1
Lucene是一个高性能、易扩展的基于Java技术的全文信息检索工具包,它能非常方便地为各种应用程序加入全文索引和搜索功能。该文探讨了Lucene中使用的向量空间模型,分析了Lucene索引文件的结构以及搜索排序算法,讨论了Lucene的压缩算法并且通过实验验证了Lucene的建立索引的过程。  相似文献   

11.
主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。  相似文献   

12.
赵珂  逯鹏  李永强 《计算机工程》2011,37(16):39-41
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。  相似文献   

13.
Lucene2.0是一个高性能的、可扩展的、开源的全文检索工具库,它可以方便地融入到各种应用系统中实现全文索引和搜索功能:在搜索引擎中,Lucene是充当索引的建立工具和索引的查找工具的角色.文章详细分析了Lucene分析器、索引包、搜索包以及Lucene中评分排序、中文分词、索引优化等关键技术点,然后将其引入具体应用,给出了一个基于Lucene2.0的电子文献全文检索系统的实现、  相似文献   

14.
针对在站群系统中目录检索所面临的不能全文检索以及关键词检索效率不高等问题,文章利用开源框架Lucene设计实现了一款站群全文检索系统。主要实现了站群内网页抓取、网页信息处理与索引、数据检索和用户交互界面等模块。该站群全文检索系统目前系统已上线,运行表明检索效率高,达到了较为精确的全文检索要求。  相似文献   

15.
主要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,并通过扩展Heritrix实现了对网易手机频道信息的多线程抓取,为建立面向手机信息的垂直搜索引擎提供了信息源。  相似文献   

16.
张俊  李鲁群  周熔 《微机发展》2013,(6):230-232
互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。Lucene是基于Java开发的源代码开放的全文检索工具包,具有高性能、可扩展等特性,是实现搜索引擎的核心组件。通过对Lucene的API进行分析,并在此基础上,构建了索引和搜索的模块,并对网上新闻内容进行实时地搜索。通过与普通搜索引擎对比,该新闻搜索引擎提高了搜索的精确性。  相似文献   

17.
周凤丽  林晓丽 《微机发展》2012,(1):140-142,160
互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站点的网页爬取以及爬取过程中URL链接的存储、处理等,并通过多线程技术管理多个抓取线程,实现了并发抓取网页,提高了系统的运行效率。最后采用JSP技术设计了一个简易的新闻搜索引擎客户端,系统可以稳定运行,基本符合搜索引擎原理的探索,具有一定的现实意义。  相似文献   

18.
提出一种基于Lucene搜索引擎库的本体映射方法,该方法利用了Lucene的特点,为源本体建立一个Lucene文档形式的索引,在索引中收集了关于URlrefs的语言信息;然后利用目标本体的URIrefs来作为搜索条件,针时源本体建立的索引进行搜索,从而得到映射.性能分析结果表明,该方法与其他方法相比,在查准率和查全率上有绝对的优势.  相似文献   

19.
基于Heritrix的商品信息搜索的网络爬虫系统的设计   总被引:1,自引:0,他引:1  
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。  相似文献   

20.
Lucene2.0是一个高性能的、可扩展的、开源的全文检索工具库,它可以方便地融入到各种应用系统中实现全文索引和搜索功能:在搜索引擎中,Lucene是充当索引的建立工具和索引的查找工具的角色,文章详细分析了Lucene分析器、索引包、搜索包以及Lucene中评分排序、中文分词、索引优化等关键技术点,然后将其引入具体应用,给出了一个基于Lucene2.0的电子文献全文检索系统的实现  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号