共查询到20条相似文献,搜索用时 21 毫秒
1.
倒排索引技术是现代搜索引擎的核心技术之一,索引技术的好坏直接影响搜索引擎的性能。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构,可以方便的嵌入到各种应用程序中。在深入分析和研究Lucene索引机制的基础上,通过实验发现,与传统的字符串匹配查找的性能相比,使用倒排索引的Lucene更快捷、更准确的实现全文检索。 相似文献
2.
3.
针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过Lucene.Net的索引与检索技术建立系统的检索算法,实现了一个面向特定主题的垂直搜索引擎应用系统.实验测试结果表明,该系统具有较高的提取效率,其检索的准确率、召回率均大大高于通用搜索引擎,具有较好的实用价值和商业应用前景. 相似文献
4.
《电子技术与软件工程》2016,(3)
为了满足电力领域用户对电力新闻实时性和个性化需求,在基于Lucene和改进的Heritrix爬虫框架下,设计实现了电力新闻垂直搜索引擎,为电力领域用户提供准确、及时、高效的电力新闻检索服务。 相似文献
5.
6.
7.
8.
在理论研究的基础上,本文还利用Java技术对搜索引擎的三个核心部分即网络蜘蛛、网页索引、搜索进行了实现。索引和搜索部分借助Lucene全文搜索引擎库中的Java类进行实现。实现搜索引擎的个性化,使搜索引擎具有自我学习的功能,能自动地适应用户的查询需求,并能对用户进行智能分类从而为搜索引擎的个性化提供依据。 相似文献
9.
10.
针对Lucene默认只能分析并索引HTML和TXT文档的缺点。通过引入PDFBox和POI等开源工具实现对DOC、XLS、PPT和PDF等文档的文本抽取,然后利用Lucene索引这些提取出来的文本,将文本和文档其它信息添加到Lucene的Document对象。从而使Lucene可以分析并索引DOC、XLS、PPT和PDF等格式的文档,实验结果表明通过改进Lucene文本分析器可以极大提高Lucene检索的通用性。 相似文献
11.
12.
13.
14.
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分析其结构特征与工作原理并引入了多线程处理的改进办法,设计出一个主题爬虫,在单机环境下进行该爬虫性能的测试。实验结果表明该主题爬虫的查全率达到较高水准,为进一步研究开发搜索效率高的垂直搜索引擎打下坚实的基础。 相似文献
15.
本文初探舆情监控系统的设计与实现,从开源框架Heritrix技术着手,对互联网新闻、论坛、微博、网站等数据源进行数据抓取;研究了正则表达式技术,基于DOM规范的网页树实现对网页数据的噪音过滤,抓取有价值的结构化数据;随着爬取数据的不断递增,研究当前大数据环境下的Lucene全文搜索引擎技术,实现海量非结构化数据的高速检索. 相似文献
16.
17.
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力.整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能.在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异.对于如何构建一个高效的中文检索系统,提出了一种实现方案. 相似文献
18.
19.
主题搜索引擎中专业网页索引集构造算法的研究 总被引:2,自引:2,他引:0
针对特定主题的搜索引擎构建问题,给出了一种主题搜索引擎的体系结构,并在此基础上,提出了面向主题的专业网页索引集构造算法.模拟实验表明,以该算法为基础的主题搜索引擎能使用户搜索到该主题的权威页和中心页,可以有效地提高搜索引擎的查准率. 相似文献
20.
通过分析中国邮政集团公司的企业特点,得出了建立全文检索系统的必要性。分析了Lucene全文检索的基本原理,Lucene创建索引及全文检索的流程,详细描述了Lucene在中邮网院中的具体应用的设计思路和具体流程,对核心代码给出了详细的解释和部分系统实现界面。最后介绍了系统上线后的运行状况。 相似文献