首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。  相似文献   

2.
一种基于Lucene的影片搜索引擎的研究和应用   总被引:1,自引:0,他引:1  
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。  相似文献   

3.
针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该分词器词典文件维护方便,可以根据不同应用的要求进行定制,从而提高了检索效率。  相似文献   

4.
基于Lucene.Net的知识检索系统的设计与实现   总被引:1,自引:0,他引:1  
在Lucene.Net的基础上,设计并实现了一种知识检索系统--基于奥运知识库的检索系统,该系统对Lucene.Net的中文分词功能进行了改进,即采用双字哈希机制的中文分词器,提高了对中文分词的支持度,并增加了新增生词的功能,能提高检索的准确度.  相似文献   

5.
简要分析了当前自动答疑系统的缺陷及其重要性,设计了一个基于Lucene的自动答疑系统。该系统充分利用了Lucene强大的检索机制,设计了针对于本答疑系统的专业词典,采用了当前最流行的二级哈希词典存储结构,同时提出了一种优化的最大匹配中文分词算法并应用到Lucene当中,弥补了Lucene自带分词器的不足。  相似文献   

6.
主题搜索引擎的研究   总被引:1,自引:0,他引:1  
介绍了将开源的全文检索工具包Lucene嵌入到自己的搜索引擎中来满足开发主题搜索引擎的需求.并基于Lucene中文分词的不足设计了一个比较完善的中文分词器,然后将其引入具体应用中,并且与传统搜索引擎在性能上进行了比较.  相似文献   

7.
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1秒,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。  相似文献   

8.
随着信息化水平不断提高,如何从海量信息中快速查找到所需内容成为当前研究的热点。在分析了全文检索基本原理及Lucene系统结构的基础上,提出了MVC模式的全文检索模型,并实现了一套基于SSH框架技术和Lucene搜索引擎的全文检索系统。该系统扩展了检索文档支持的类型,不仅可以对TXT、MS Office各类文档进行检索,还能对PDF、HTML、RTF等文档进行检索;改进了中文分词器,提高了中文分词效率与精确度;改善了人机交互方式,实现了类似百度、谷歌搜索显示功能,对搜索关键字进行高亮显示。系统应用情况表明,该系统创建索引效率高,具有较快的检索速度以及较全的检索结果。  相似文献   

9.
基于Lucene的站内搜索设计与实现   总被引:2,自引:0,他引:2  
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势.该模型引入更好的中文分词技术,可自定义最终结果的排序.能够保证检索的前100条记录最符合检索者的需要.  相似文献   

10.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

11.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

12.
针对中文检索的Lucene改进策略   总被引:4,自引:0,他引:4  
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。  相似文献   

13.
丁兆贵  金敏 《微机发展》2011,(2):105-108
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果。根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎。通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现。文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率。  相似文献   

14.
《微型机与应用》2019,(11):23-28
互联网中存在大量涉恐信息,加强对这些信息的组织与利用,在防恐、反恐中起着重要的作用。针对网络涉恐信息零散情况,通过网络爬虫技术收集互联网上的涉恐信息,构建涉恐信息数据库;在此基础上,引入中文分词器进行合理粒度分词,使用Lucene构建全文搜索引擎以提升检索效率。同时,在建立索引时根据文档包含涉恐信息特征词汇的数量改变权重,查询时包含多特征词汇的涉恐信息排序更靠前。系统采用Python进行信息采集和数据结构化,使用MySQL构建涉恐信息数据库,通过Lucene构建全文检索引擎,测试表明,该引擎能够快速、准确地完成信息检索。  相似文献   

15.
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果.根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎.通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现.文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率.  相似文献   

16.
基于Lucene的中文全文检索系统的研究与设计   总被引:4,自引:0,他引:4  
提出了一种基于Lucene的中文全文检索系统模型.通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度.在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率.实验数据表明,该系统在检索中文网页时,在效率,精度和结果处理等方面性能明显提高.  相似文献   

17.
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

18.
基于Lucene的中文倒排索引技术的研究   总被引:2,自引:0,他引:2  
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

19.
一个基于.Net的答疑系统的设计与实现   总被引:1,自引:0,他引:1  
分析了国内外答疑系统的现状和全文检索技术的最新发展,利用ASP.Net及ADO.Net技术构建了一个答疑系统并使用Lucene.Net技术实现了中文全文检索,提高了站点的检索效率。  相似文献   

20.
探讨Lucene体系结构,比较了几种中文分词技术,利用Lucene建立索引,检索索引和利用Struts框架来显示结果.针对构建全文检索中的优化提出了建议。通过一个试验展示了搜索结果。试验表明使用Lucene可以快速而准确的检索结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号