首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
针对工建设领域信息公开系统信息检索的需求,在Lucene的基础上,设计并实现了近实时的全文检索系统,核心模块包括语言处理模块、索引管理模块和检索模块。通过研究Lucene的内部原理,对中文分词IKAnalyser扩展同义词。  相似文献   

2.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

3.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

4.
针对在站群系统中目录检索所面临的不能全文检索以及关键词检索效率不高等问题,文章利用开源框架Lucene设计实现了一款站群全文检索系统。主要实现了站群内网页抓取、网页信息处理与索引、数据检索和用户交互界面等模块。该站群全文检索系统目前系统已上线,运行表明检索效率高,达到了较为精确的全文检索要求。  相似文献   

5.
全文检索系统的数据预处理研究   总被引:1,自引:0,他引:1  
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

6.
针对海量数据下的全文检索遇到的索引时间过长、I/O过高的时间较长、检索响应时间较长的问题进行了分析.提出了一种以索引类型分解、索引分块、多索引联合检索以及使用RMI提供远程检索服务相结合的解决方案.实验和生产环境中的应用表明,此方案能解决上述问题并能够提供稳定、高效的搜索服务.  相似文献   

7.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

8.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

9.
Lucene2.0是一个高性能的、可扩展的、开源的全文检索工具库,它可以方便地融入到各种应用系统中实现全文索引和搜索功能:在搜索引擎中,Lucene是充当索引的建立工具和索引的查找工具的角色.文章详细分析了Lucene分析器、索引包、搜索包以及Lucene中评分排序、中文分词、索引优化等关键技术点,然后将其引入具体应用,给出了一个基于Lucene2.0的电子文献全文检索系统的实现、  相似文献   

10.
Lucene2.0是一个高性能的、可扩展的、开源的全文检索工具库,它可以方便地融入到各种应用系统中实现全文索引和搜索功能:在搜索引擎中,Lucene是充当索引的建立工具和索引的查找工具的角色,文章详细分析了Lucene分析器、索引包、搜索包以及Lucene中评分排序、中文分词、索引优化等关键技术点,然后将其引入具体应用,给出了一个基于Lucene2.0的电子文献全文检索系统的实现  相似文献   

11.
站内搜索引擎是针对某个网站内部的全文检索服务,具备信息检索的核心技术。提出在文件系统上构建的解决方案,使用全文检索开发工具包——Lucene,实现站内搜索引擎系统。不仅针对关系数据库的数据,还对服务器文件系统上的各种非结构化文档数据进行加工、信息抽取,并创建索引文件进行搜索,最终实现对站内被检索数据的导航浏览,关键字高亮提示,筛选排序等。经过测试,检索效率较高,效果良好。  相似文献   

12.
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。  相似文献   

13.
全文索引技术在办公自动化系统中的应用研究*   总被引:1,自引:0,他引:1  
基于内容的全文检索技术广泛用于全文数据库中,为解决办公自动化系统中大量文档的快速检索问题,将SQL Server全文索引技术运用于办公自动化系统开发中.首先介绍SQL Server全文检索流程,然后将其运用于办公自动化系统文档管理模块公文搜索的实现中,全文检索用户界面层采用ASP.NET开发,应用业务层采用C#语言.  相似文献   

14.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

15.
分析了Lucene的系统结构及检索原理,设计了一个基于Lucene的全文检索系统模型,并将该系统模型应用到自动答疑系统中进行实验。实验结果表明,以Lucene作为核心的检索系统不仅建立索引的效率高,而且检索速度也较快。  相似文献   

16.
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1秒,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。  相似文献   

17.
基于Web的网络爬虫的设计与实现   总被引:2,自引:0,他引:2  
无论是站内信息检索还是特定的Web信息搜集,都离不开全文搜索引擎系统的核心模块--网络爬虫,本文详细介绍了一种设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法及主要的技术难点.该系统经实际运行,效果良好,最后给出了有待进一步改进的地方.  相似文献   

18.
基于压缩后缀数组技术的搜索引擎   总被引:1,自引:0,他引:1       下载免费PDF全文
目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀数组索引的步骤和核心操作伪代码。对比实验表明,基于压缩后缀数组的索引比传统倒排文件索引的短语查准率提高了近20%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号