首页 | 本学科首页   官方微博 | 高级检索  
     

基于Lucene和Heritrix的全文搜索引擎的设计与实现
引用本文:张宣,刘晓飞.基于Lucene和Heritrix的全文搜索引擎的设计与实现[J].电脑与微电子技术,2013(22):74-77,80.
作者姓名:张宣  刘晓飞
作者单位:民航数据通信有限责任公司,北京100191
摘    要:分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。

关 键 词:全文搜索引擎  Lucene  Heritrix  HTMLParser  网络爬虫

Design and Implementation of Full-Text Searching System Based on Lucene and Heritrix
Authors:ZHANG Xuan;LIU Xiao-fei
Affiliation:ZHANG Xuan;LIU Xiao-fei;Aviation Data Communication Corporation;
Abstract:Analyzes the basic structure and principle of full-text search engine. And uses the open source tool Heritrix as a search engine crawler to download Web page, uses HTMLParser extract the content of Web page, Lucene provides indexing and search services, uses B/S model, achieves a full text search engine.
Keywords:Full Text Search Engine  Lucene  Heritrix  HTMLParser  Web Crawler
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号