首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
基于Lucene的中文全文检索系统的研究与设计   总被引:4,自引:0,他引:4  
提出了一种基于Lucene的中文全文检索系统模型.通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度.在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率.实验数据表明,该系统在检索中文网页时,在效率,精度和结果处理等方面性能明显提高.  相似文献   

2.
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

3.
基于Lucene的中文倒排索引技术的研究   总被引:2,自引:0,他引:2  
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

4.
强永妍  杨庚 《计算机应用》2007,27(9):2334-2336
为了提高中文垃圾邮件预处理阶段的性能,加快查找分词的速度,基于哈希函数的算法思想创造性的构造了索引词典,设计了一种针对中文垃圾邮件的中文索引分词方法。通过实验,表明该方法提高了传统机械分词法的效率和准确率,改善了邮件预处理阶段的性能,并且可以广泛地应用于中文分词领域。  相似文献   

5.
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1秒,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。  相似文献   

6.
基于Lucene.Net的知识检索系统的设计与实现   总被引:1,自引:0,他引:1  
在Lucene.Net的基础上,设计并实现了一种知识检索系统--基于奥运知识库的检索系统,该系统对Lucene.Net的中文分词功能进行了改进,即采用双字哈希机制的中文分词器,提高了对中文分词的支持度,并增加了新增生词的功能,能提高检索的准确度.  相似文献   

7.
基于Lucene的中文分析器分词性能比较研究   总被引:1,自引:0,他引:1       下载免费PDF全文
义天鹏  陈启安 《计算机工程》2012,38(22):279-282
针对Lucene自带的中文分析器分词性能不理想并且难以选择第三方分析器的问题,研究多种基于Lucene的中文分析器,对语句分词、分词速度、建立索引的空间与时间、检索结果以及检索速度等方面进行比较。分析结果表明,在Lucene框架下,基于词典分词的Paoding分析器总体性能最优,Lucene自带的一元分析器分词速度最快,imdict与ICTCLAS4J分析器在算法效率上存在一定改进空间。  相似文献   

8.
针对工建设领域信息公开系统信息检索的需求,在Lucene的基础上,设计并实现了近实时的全文检索系统,核心模块包括语言处理模块、索引管理模块和检索模块。通过研究Lucene的内部原理,对中文分词IKAnalyser扩展同义词。  相似文献   

9.
随着信息化水平不断提高,如何从海量信息中快速查找到所需内容成为当前研究的热点。在分析了全文检索基本原理及Lucene系统结构的基础上,提出了MVC模式的全文检索模型,并实现了一套基于SSH框架技术和Lucene搜索引擎的全文检索系统。该系统扩展了检索文档支持的类型,不仅可以对TXT、MS Office各类文档进行检索,还能对PDF、HTML、RTF等文档进行检索;改进了中文分词器,提高了中文分词效率与精确度;改善了人机交互方式,实现了类似百度、谷歌搜索显示功能,对搜索关键字进行高亮显示。系统应用情况表明,该系统创建索引效率高,具有较快的检索速度以及较全的检索结果。  相似文献   

10.
分析了企业级搜索引擎应具有的功能和总体架构,研究了Lucene的系统结构及检索原理,提出了统一处理html、pdf、word等多种常用文档的思路。针对中文特点设计搜索引擎的构建技术,包括从源数据采集、文档解析与分词、索引器、信息检索、结果排序的全过程,基于Lucene软件包实现了一个原型系统,取得了较好的搜索效果。  相似文献   

11.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

12.
Lucene2.0是一个高性能的、可扩展的、开源的全文检索工具库,它可以方便地融入到各种应用系统中实现全文索引和搜索功能:在搜索引擎中,Lucene是充当索引的建立工具和索引的查找工具的角色.文章详细分析了Lucene分析器、索引包、搜索包以及Lucene中评分排序、中文分词、索引优化等关键技术点,然后将其引入具体应用,给出了一个基于Lucene2.0的电子文献全文检索系统的实现、  相似文献   

13.
Lucene2.0是一个高性能的、可扩展的、开源的全文检索工具库,它可以方便地融入到各种应用系统中实现全文索引和搜索功能:在搜索引擎中,Lucene是充当索引的建立工具和索引的查找工具的角色,文章详细分析了Lucene分析器、索引包、搜索包以及Lucene中评分排序、中文分词、索引优化等关键技术点,然后将其引入具体应用,给出了一个基于Lucene2.0的电子文献全文检索系统的实现  相似文献   

14.
基于Lucene的英汉跨语言信息检索   总被引:8,自引:0,他引:8  
描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。  相似文献   

15.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

16.
基于Lucene的文档管理系统的设计与实现   总被引:1,自引:0,他引:1  
目前各种类型的文档被广泛地使用,但是如何快速地从众多的文档中查找到我们所需要的信息成为当前研究的热点.基于现有的开源搜索框架Lucene而设计并实现的一款文档管理系统,不仅可以实现对Word、Excel、PowerPoint等文档的检索,而且还能够实现对PDF、HTML、RTF、TXT等文档进行检索.从而能够方便的查找各类文档,进而更好地实现对各类文档的管理.  相似文献   

17.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

18.
简要分析了当前自动答疑系统的缺陷及其重要性,设计了一个基于Lucene的自动答疑系统。该系统充分利用了Lucene强大的检索机制,设计了针对于本答疑系统的专业词典,采用了当前最流行的二级哈希词典存储结构,同时提出了一种优化的最大匹配中文分词算法并应用到Lucene当中,弥补了Lucene自带分词器的不足。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号