首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 21 毫秒
1.
倒排索引技术是现代搜索引擎的核心技术之一,索引技术的好坏直接影响搜索引擎的性能。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构,可以方便的嵌入到各种应用程序中。在深入分析和研究Lucene索引机制的基础上,通过实验发现,与传统的字符串匹配查找的性能相比,使用倒排索引的Lucene更快捷、更准确的实现全文检索。  相似文献   

2.
大数据时代网上信息量快速增长,智能搜索系统可以帮助用户快速定位查询的资源。文章主要探讨了搜索引擎的原理,阐述了使用Lucene与Ajax实现智能搜索的方法。对Lucene的搜索引擎模型、数据库设计、模块设计进行了详细分析,对Lucene.net构建搜索引擎原理的关键问题进行了研究。  相似文献   

3.
针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过Lucene.Net的索引与检索技术建立系统的检索算法,实现了一个面向特定主题的垂直搜索引擎应用系统.实验测试结果表明,该系统具有较高的提取效率,其检索的准确率、召回率均大大高于通用搜索引擎,具有较好的实用价值和商业应用前景.  相似文献   

4.
为了满足电力领域用户对电力新闻实时性和个性化需求,在基于Lucene和改进的Heritrix爬虫框架下,设计实现了电力新闻垂直搜索引擎,为电力领域用户提供准确、及时、高效的电力新闻检索服务。  相似文献   

5.
基于Lucene的Oracle数据库全文检索   总被引:1,自引:0,他引:1  
全文检索是信息时代必不可少的技术,应用越来越广泛.文中对开源的搜索引擎工具包Lucene进行研究,并将其应用到全文检索系统中,详细介绍了如何使用Lucene来创建索引和检索数据,然后给出了一个针对Oracle数据库全文检索的实现方法.  相似文献   

6.
在简要分析搜索引擎基本原理及相关技术的基础上,结合小型搜索引擎的个性化需求,利用Lucene开源引擎工具包的系统结构及检索原理设计并实现了一个可扩展、可复用的小型搜索引擎系统。  相似文献   

7.
Lucene是一个用Java写的全文检索引擎工具包,面向对象多层封装,提供了一个低耦合、与平台无关的、可进行二次开发的全文检索引擎架构,是这几年最受欢迎的信息检索程序库;基于流式Socket的网络编程是设计网络通信程序的一种有效方法.本文基于Lucene,采用中文分词技术,设计并实现了中文搜索引擎,同时应用Java和PHP的Socket网络编程技术,实现了外网通过PHP网页使用Lucene服务的功能.  相似文献   

8.
在理论研究的基础上,本文还利用Java技术对搜索引擎的三个核心部分即网络蜘蛛、网页索引、搜索进行了实现。索引和搜索部分借助Lucene全文搜索引擎库中的Java类进行实现。实现搜索引擎的个性化,使搜索引擎具有自我学习的功能,能自动地适应用户的查询需求,并能对用户进行智能分类从而为搜索引擎的个性化提供依据。  相似文献   

9.
信息资源检索已经成为最重要的网络应用之一。针对信息资源专业化和专门化的局域网FTP文件检索应用,利用开源Lucene项目研究了FTP文件检索系统的实现机制。在详细分析Lucene实现技术的基础上,给出了一个用Java语言实现局域网FTP资源检索的搜索引擎实现,讨论了系统实现的关键技术。最后给出了一个实例应用系统运行的功能,展示了系统较高的运行效率。  相似文献   

10.
吴代文 《信息技术》2011,(10):62-64
针对Lucene默认只能分析并索引HTML和TXT文档的缺点。通过引入PDFBox和POI等开源工具实现对DOC、XLS、PPT和PDF等文档的文本抽取,然后利用Lucene索引这些提取出来的文本,将文本和文档其它信息添加到Lucene的Document对象。从而使Lucene可以分析并索引DOC、XLS、PPT和PDF等格式的文档,实验结果表明通过改进Lucene文本分析器可以极大提高Lucene检索的通用性。  相似文献   

11.
文章设计和开发的代码搜索引擎首先通过扩展Heritrix,构建本地代码库,利用ANTLR工具对本地代码库的Java源文件进行解析;其次,基于程序抽象语法树(AST)从方法级别和类级别检测克隆代码,对源代码中的方法(method)或者类(class)进行分类;再次,利用ASTParser对本地代码库扫描,抽取程序代码的语法信息,并利用Lucene对含有语法信息的文件建立索引和搜索模块。实验比较结果表明,实现的代码搜索引擎可优化已有的代码搜索引擎的搜索结果,并且对于搜索时间没有显著的影响,从而可更有效地帮助程序员查找与复用已有代码。  相似文献   

12.
Lucene是Java实现全文搜索引擎的工具包,短小精悍,功能强大,近来被广泛使用。文章对其核心"索引-检索"进行了研究,搭建该平台并引入了中文分词,可完成对中文的搜索,以及实现"与"和"非"功能。在排序部分,分别用向量空间模型和BM25实现。在系统实现时,主要介绍了3种评测方法,对VSM和BM25模型排序算法进行了评测,并进行对比分析。  相似文献   

13.
Web垂直搜索引擎是一个复杂的信息系统,目前大多数研究都集中在解决搜索引擎中出现的某一个方面的问题,仍缺乏对Web垂直搜索引擎完整实现过程的相关研究。针对这个问题,提出一种三层架构的Web垂直搜索引擎的实现过程,整个过程包含数据准备、查询处理和界面交互。使用Java语言和相关的开源工具,对实现过程描述的具体任务进行实际操作,实现了一个查询手机信息的Web垂直搜索引擎。该三层架构和实现过程有效地为构建面向主题的完整Web垂直搜索引擎提供了理论依据和实践指导。  相似文献   

14.
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分析其结构特征与工作原理并引入了多线程处理的改进办法,设计出一个主题爬虫,在单机环境下进行该爬虫性能的测试。实验结果表明该主题爬虫的查全率达到较高水准,为进一步研究开发搜索效率高的垂直搜索引擎打下坚实的基础。  相似文献   

15.
本文初探舆情监控系统的设计与实现,从开源框架Heritrix技术着手,对互联网新闻、论坛、微博、网站等数据源进行数据抓取;研究了正则表达式技术,基于DOM规范的网页树实现对网页数据的噪音过滤,抓取有价值的结构化数据;随着爬取数据的不断递增,研究当前大数据环境下的Lucene全文搜索引擎技术,实现海量非结构化数据的高速检索.  相似文献   

16.
使用通用搜索引擎从大量互联网站点中检索违规视频网站或节目,其检索的结果与搜索需求不甚相关,获知的信息缺乏针对性,无法获取满意的查全率和查准率。本文采用了元搜索分布式搜索架构,结合用户反馈经验,对互联网视频节目的相关信息进行采集和索引检索,实现了面向互联网在线视频主题管理的搜索引擎系统。实验数据显示与通用搜索引擎相比,该搜索引擎能更好地实现视频资源的主题聚集,极大地提升了对相关资源的搜索效率。  相似文献   

17.
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力.整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能.在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异.对于如何构建一个高效的中文检索系统,提出了一种实现方案.  相似文献   

18.
网页排序算法对根据用户查询词搜索到的大量页面进行排序,从而返回给用户,因此排序算法对搜索引擎的好坏起着关键作用。Nutch搜索引擎只实现了基本的综合排序模型,针对Nutch默认排序算法的不足,在Page Rank算法中加入时间因子、链接权重因子,并结合How Net来计算网页的语义相似度,将改进后的Page Rank算法和基于语义的主题相关度算法应用在Nutch排序算法中。实验结果表明:改进的排序算法使得Nutch的搜索结果排序准确率和首页命中率都有了明显提升。  相似文献   

19.
主题搜索引擎中专业网页索引集构造算法的研究   总被引:2,自引:2,他引:0  
针对特定主题的搜索引擎构建问题,给出了一种主题搜索引擎的体系结构,并在此基础上,提出了面向主题的专业网页索引集构造算法.模拟实验表明,以该算法为基础的主题搜索引擎能使用户搜索到该主题的权威页和中心页,可以有效地提高搜索引擎的查准率.  相似文献   

20.
苏健  刘洋 《信息技术》2013,(7):154-156
通过分析中国邮政集团公司的企业特点,得出了建立全文检索系统的必要性。分析了Lucene全文检索的基本原理,Lucene创建索引及全文检索的流程,详细描述了Lucene在中邮网院中的具体应用的设计思路和具体流程,对核心代码给出了详细的解释和部分系统实现界面。最后介绍了系统上线后的运行状况。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号