基于Lucene和Heritrix的全文搜索引擎的设计与实现 |
| |
引用本文: | 张宣,刘晓飞.基于Lucene和Heritrix的全文搜索引擎的设计与实现[J].电脑与微电子技术,2013(22):74-77,80. |
| |
作者姓名: | 张宣 刘晓飞 |
| |
作者单位: | 民航数据通信有限责任公司,北京100191 |
| |
摘 要: | 分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。
|
关 键 词: | 全文搜索引擎 Lucene Heritrix HTMLParser 网络爬虫 |
Design and Implementation of Full-Text Searching System Based on Lucene and Heritrix |
| |
Authors: | ZHANG Xuan;LIU Xiao-fei |
| |
Affiliation: | ZHANG Xuan;LIU Xiao-fei;Aviation Data Communication Corporation; |
| |
Abstract: | Analyzes the basic structure and principle of full-text search engine. And uses the open source tool Heritrix as a search engine crawler to download Web page, uses HTMLParser extract the content of Web page, Lucene provides indexing and search services, uses B/S model, achieves a full text search engine. |
| |
Keywords: | Full Text Search Engine Lucene Heritrix HTMLParser Web Crawler |
本文献已被 维普 等数据库收录! |