首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 111 毫秒
1.
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。  相似文献   

2.
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。  相似文献   

3.
基于Lucene的中文分词技术研究   总被引:1,自引:0,他引:1  
分析了现有的几种中文分词的算法,提出了在逆向最大匹配算法的基础上结合语义理解的分词方法,利用最大概率分词的方法解决多种分词结果的问题,以此来改进Lucene[1]的中文分词的算法,提高了分词的速度和准确性。  相似文献   

4.
简要阐述了在信息检索系统中基于Lucene软件包设计实现的一个中文分词算法.通过人民日报语料库建立三叉Trie词典结构树,采用二元动态规划算法,把句子的词语划分通过计算概率的办法解决,通过分词测试得到比较理想结果.  相似文献   

5.
当今搜索引擎已经成为人们在网上搜索信息的重要工具.通用的搜索引擎虽然功能强大,但对具有很多子网站的企业门户网站进行搜索时响应速度慢,索引范围不全.Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎.文中描述了利用基于Java的全文检索工具包Lucene开发定制的中文搜索引擎方法,并且将该定制的搜索引擎与Google的站内搜索进行试验比较,发现在对具有很多子网站的企业门户网站进行搜索时有优于Google的性能.  相似文献   

6.
基于Lucene的搜索引擎设计与实现   总被引:14,自引:0,他引:14  
当今搜索引擎已经成为人们在网上搜索信息的重要工具。通用的搜索引擎虽然功能强大,但对具有很多子网站的企业门户网站进行搜索时响应速度慢,索引范围不全。Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎。文中描述了利用基于Java的全文检索工具包Lucene开发定制的中文搜索引擎方法,并且将该定制的搜索引擎与Google的站内搜索进行试验比较,发现在对具有很多子网站的企业门户网站进行搜索时有优于Google的性能。  相似文献   

7.
针对工建设领域信息公开系统信息检索的需求,在Lucene的基础上,设计并实现了近实时的全文检索系统,核心模块包括语言处理模块、索引管理模块和检索模块。通过研究Lucene的内部原理,对中文分词IKAnalyser扩展同义词。  相似文献   

8.
许昊  王跃胜 《福建电脑》2012,28(7):133-135
本文基于开源的全文索引工具Lucene,构建了FTP搜索引擎,取得了良好的实验效果。  相似文献   

9.
基于Lucene的站内搜索设计与实现   总被引:2,自引:0,他引:2  
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势.该模型引入更好的中文分词技术,可自定义最终结果的排序.能够保证检索的前100条记录最符合检索者的需要.  相似文献   

10.
为提高整词二分词典机制的分词效率,分析现有分词词典机制,提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组,并进行全词Hash,对Hash值相同的词条进行二分查找,从而减少词条匹配的次数。理论分析和实验结果表明,该机制的分词效率较高。  相似文献   

11.
基于Lucene的语义检索系统的设计和实现   总被引:2,自引:0,他引:2  
研究了语义检索,以Lucene为主要索引引擎,组合其它索引引擎,结合同义词查询扩展的概念,设计了一个语义检索系统,详细地描述了系统的实现过程.分析了语义检索的特点,从同义词扩展的角度,丰富和扩展了查询语义,查询扩展模块被很好的整合到以Lucene为基础的检索系统中,该系统在实验中表现了良好的效果.  相似文献   

12.
基于Lucene全文检索引擎的应用研究与实现   总被引:20,自引:0,他引:20  
Lucene全文检索技术是信息检索领域广泛使用的基本技术.它是一个优秀的开源全文本搜索技术框架.按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中.首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的校园网Web搜索引擎的设计与实现.  相似文献   

13.
开发基于Lucene的多媒体搜索工具,作为桌面搜索系统,包括建立本地索引、建立网络索引和搜索关键字等功能。开发工具使用Eclipse SDK集成开发环境,在开发过程中按软件工程的流程进行。该系统实现了对本地多种数据源文件的索引,搜索关键字,对索引进行查询并对结果进行处理的功能。  相似文献   

14.
基于Lucene的中文倒排索引技术的研究   总被引:2,自引:0,他引:2  
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

15.
为实现博客资源的实时和有效搜索,提出以高性能和可扩展的Lucene作为搜索引擎的框架的博客搜索引擎.它充分利用RSS技术和网络蜘蛛技术实现博客资源的快速采集,能够为博客资源的搜索提供良好的支持,并在采集、索引生成及检索三方面的效率和成本上达到一个较为理想的水平.  相似文献   

16.
详细描述了利用Lucene全文索引工具包设计与实现的一个Web全文信息检索系统,给出了系统的设计框架和各个组成模块的实现技术,介绍了系统实现中的检索策略和算法。为了提高系统的检索性能。本文提出并实现了利用链入锚文本和链接分析对检索结果进行重新排序,有效提高了检索的准确率。  相似文献   

17.
为解决数据高效组织和系统管理以及跨域合作数据共享体系不完善的问题,本文设计一个基于Lucene搜索引擎的Web服务影像数据服务器。该服务器核心引入Lucene的全文检索技术进行二次开发,实现一个全文垂直检索引擎,并引入Xml作为数据描述,最后用Web技术作为与用户的交互手段。该平台有易使用,扩展性能强的优点,能够将数据的多条件查询与选择传输功能有机地结合起来,为用户提供一个具有良好体验的数据共享平台。  相似文献   

18.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

19.
基于Lucene.Net的知识检索系统的设计与实现   总被引:1,自引:0,他引:1  
在Lucene.Net的基础上,设计并实现了一种知识检索系统--基于奥运知识库的检索系统,该系统对Lucene.Net的中文分词功能进行了改进,即采用双字哈希机制的中文分词器,提高了对中文分词的支持度,并增加了新增生词的功能,能提高检索的准确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号