首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 125 毫秒
1.
介绍了Lucene全文索引及检索技术,包括它的组成结构和检索机制,提出了一个基于Lucene进行全文检索的方案.最后用一个实例进行了说明.  相似文献   

2.
基于Lucene全文检索引擎的应用与改进   总被引:2,自引:0,他引:2  
Lucene全文检索技术以其开放源代码的良好特性、优异的索引结构、有效的系统架构获得了广泛的应用.分析了Lucene的系统组织结构与核心类,同时指出其检索算法中的不足.给出了一个基于Lucence全文检索技术的信息导航系统中的设计.最后特别针对检索算法中的不足,设计和实现了利用PageRank算法的检索器.  相似文献   

3.
Lucene是一个用Java语言写的优秀的全文索引引擎工具包。分析了Lucene的系统结构及检索原理,并且用一个实例来说明如何实现全文检索,为应用开发提供了一种增加全文搜索的方法。最后提出了采用接口的方式来统一处理html、pdf、word和Excel等多种常用文档的思路。  相似文献   

4.
Lucene是一个用Java语言写的优秀的全文索引引擎工具包。分析了Lucene的系统结构及检索原理,并且用一个实例来说明如何实现全文检索,为应用开发提供了一种增加全文搜索的方法。最后提出了采用接口的方式来统一处理html、pdf、word和Excel等多种常用文档的思路。  相似文献   

5.
基于全文检索工具包Lucene的排序技术   总被引:2,自引:0,他引:2  
为了深入理解Lucene使用的排序技术和实际应用,需要研究矢量信息检索模型和td-idf加权策略.根据影响排序的因素,提出了Lucene的文档得分算法,分析了各因素对排序结果的影响.结合实例对基于Lucene排序的相关API进行应用,以提升Lucene排序的性能.  相似文献   

6.
全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原理及其开发应用方法。然后介绍中文分词和基本算法及Lucene的相关技术。  相似文献   

7.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能.分析了Lucene的索引文件结构和搜索排序算法,探讨了Lucene中计算文档与查询项相关度的向量空间模型(VSM).最后,通过实验验证了索引过程的建立以及如何提高索引性能.  相似文献   

8.
将Lucene检索技术、IKAnalyzer分词器以及Tika文本提取技术相结合进行智能文件检索及分类。然后根据用户的检索结果对文件关键字进行权值设置,用户关注度越高,则关键字权值越大。使用协同过滤算法根据用户查找的内容对用户关注度高的文件进行推送。  相似文献   

9.
随着文献资料应用的日益广泛,全文检索系统已成为文献资料管理系统的重要部分。针对文献资料管理的需要,提出了基于Lucene的文献全文检索系统的设计与实现方案。首先对全文检索、Lucene和J2EE等技术进行研究,然后进行了系统的功能设计和结构分析,最后进行了系统的编程实现和对比测试。系统采用J2EE架构开发,实现了文献资料的管理、存储、索引和检索功能,满足了文献资料的管理和检索要求。对比测试结果表明:相对数据库查询方式,本系统具有明显的时间和资源优势。  相似文献   

10.
基于关键词匹配的检索方法存在不足,使用分布式大数据处理技术,基于本体对用户输入的查询关键词进行查询扩展,利用Lucene针对扩展后的关键词进行检索,按照语义相似度将检索结果排序后返回给用户。实验表明,基于本体的语义检索系统在查全率和查准率两个方面均优于传统检索方法。  相似文献   

11.
利用Lucene开源全文本搜索技术框架建立全文检索系统,在Lucene原有的快速索引访问,多用户访问支持,跨平台使用等优点的基础上,对其中的中文分词及结果排序算法等关键技术加以改进.改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息.  相似文献   

12.
用户在使用关键词搜索时,对于一些不熟悉的领域,无法给出准确的关键词.为了解决这个问题,该文在开源全文检索工具包Lucene的基础上,设计并实现了搜索关键词辅助系统,对用户的当前查询结果进行分词处理,利用TF-IDF算法计算关键词的权重,将权重较大的关键词返回给用户,然后用户从中选择期望的关键词,再次提交给搜索引擎进行搜索.  相似文献   

13.
分析了建立数字化公文数据库的必要性,阐述了Lucene技术在建立数字化公文数据库全文检索系统中具备的优势,介绍了应用Lucene技术实现数字化公文全文检索的整个流程及关键技术.  相似文献   

14.
能够快速有效地检索网络上或站内大量的各种信息资源,是提供高质量检索服务的基础.CLucene是Lucene的C++版本的实现,它是一个优秀的开源全文本搜索技术框架.分析了CLucene的系统结构,详解了CLucene中的索引和检索机制,在CLucene的基础上,解决了对WORD文档的文本抽取问题,增加了CLucene的...  相似文献   

15.
基于Lucene实现了一个海量数据库全文检索的原型。把关系数据库引入了本系统,可针对不同类型的源数据库灵活配置,比采用配置文件更加灵活;采用多线程,通过动态机制来实现不同类型源数据库中记录的抽取、转换、建立索引;提供定时自动更新索引的功能;提供多种检索方式。  相似文献   

16.
针对通用搜索引擎在专业检索方面查准率低的问题,设计了基于Lucene和Nutch组件的服装专业搜索引擎.该系统结合专业词库对抓取的网页进行分词和专业相关度计算并进行网页过滤,依据改进的网页排序算法对结果进行排序.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号