首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。  相似文献   

2.
梁正友  陈涛 《计算机工程》2009,35(20):273-275
针对单机网页索引器索引速度慢和串行倒排索引算法具有可并行处理的特性,提出分布式并行倒排索引算法。该算法应用分布式并行计算ProActive中间件和单机索引Lucene包,设计和实现一个在机群系统下工作的分布式并行网页索引器。实验结果表明,该索引器有较高的索引性能和较好的扩展性能。  相似文献   

3.
Internet搜索引擎主要由搜索器、索引器和用户界面三部分组成。通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。  相似文献   

4.
《软件工程师》2015,(7):50-52
索引是搜索引擎的核心概念,优化索引提高使用效率是当前主要研究内容。文中研究了Lucene索引文件的内部结构,包括Lucene索引文件格式、文件组成、索引创建过程,并重点研究了段Segment文件的存储结构。经研究表明,创建单一且重用的文档实例以及提高使用的内存大小可有效提高索引使用效率。  相似文献   

5.
基于DPR树的分布式并行空间索引机制的研究   总被引:1,自引:0,他引:1  
针对分布式并行环境下海量空间数据管理与并行化处理的效率问题,以提高分布式并行空间数据的查询效率为目的,根据现有的空间索引结构与并行化技术,提出一种新的分布式并行空间索引结构--DPR树.DPR树是空间索引技术与并行化技术优化结合的成果.DPR树在数据的总体划分与部分查询中所采用的均是基于高效处理技术.它在原有的并行Master-client R树的基础上进行改进,采用了HCSDP数据划分技术,并将其应用到分布式环境下,且每个节点机中各子树采用了改进的R树--R*Q树.通过性能分析表明,该索引结构具有高效的查询性能.  相似文献   

6.
随着数据规模的增大,查询越来越复杂,分布式并行索引以其高性能而逐渐成为解决复杂查询问题的有效手段。本文提出一种适合于分布式并行的新索引树结构——DPB~ -Tree,该索引树以B~ 树和 hash结构为基础,其叶子结点被组织为有n个散列表元的hash表链,从树的根结点到叶子结点,结点副本数量逐渐减少,并且其数量的变化是动态的。对DPB~ -Tree响应时间的仿真结果表明 DPB~ -Tree系统提高了系统的查询效率,与其它相关策略,如CPB方法比较具有较明显优势。  相似文献   

7.
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。  相似文献   

8.
该文简要介绍了搜索引擎的基本概念以及Lucene的工作原理和结构,并根据一个实例说明了Lucene中创建索引的核心过程.并对Lucene相关基础排序算法的改进算法进行讨论。  相似文献   

9.
随着计算机的发展,为了能更好地搜索到所需的内容,全文检索引警已经变得越来越重要.Lucene作为当前最流行的开源Java索引工具包,索引性能的提升是非常关键也是值得研究的,同时索引过程快慢是衡量一个搜索引擎的重要指标.在Java的基础上,通过更改Lucene提供的内置参数来适应不同计算机的硬件达到性能调节的作用.其次,更是提出了一种修改源代码的方法,主要是对Hits进行改进,提出了一种在结果非常多的情况下加速查询的方法,通过对索引过程和Hit结果集进行两方面的设置和改进达到性能提高的双重效果.仿真实验结果表明该改进方法不仅提高了索引工具性能的优化,同时减少了负载.通过这两方面的改进,可以使Lucene开发的搜索引擎达到更高的效率.  相似文献   

10.
分析面向大数据平台的MapReduce分布式编程技术以及实现数据查询时的连接算法,针对SSB数据模型,提出基于分布式缓存的多表星型连接优化技术.利用谓词向量技术,将维表中间连接的数据依赖转化为表上的位图索引过滤,减少数据依赖产生的巨大网络开销;采用分布式缓存技术充分利用处理节点的内存,优化网络传输,减少查询代价.  相似文献   

11.
基于Lucene的中文倒排索引技术的研究   总被引:2,自引:0,他引:2  
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

12.
陈勇  张汉国  成筠 《现代计算机》2009,(11):134-137
基于B/S模式的Java Web平台架构实现一个全文搜索引擎。该系统使用MySQL作为后台数据库.并采用Heritrix、Lucene等优秀的开源框架实现对某网页手机产品信息的检索。系统还利用Struts、Hibernate、Spring等流行的Java开发框架以及面向接口编程很好地实现对系统的解耦合,在前端使用具备较强UI表现功能的Extjs作为辅助实现了AJAX应用。  相似文献   

13.
对Lucene在搜索和索引中表现出来的特点做了研究,对基于Lucene的搜索策略做了阐述,并结合一个应用案例对搜索策略进行了说明。对于如何在分布式环境下建立强大的搜索引擎进行了探讨。  相似文献   

14.
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

15.
对改进后的Lucene网页排序算法中考虑的几个因素,用模糊层次分析法的方法对这些因素的权重进行确定,并运用算例对其过程进行说明,使权重向量的确定更有说服力。  相似文献   

16.
开发基于Lucene的多媒体搜索工具,作为桌面搜索系统,包括建立本地索引、建立网络索引和搜索关键字等功能。开发工具使用Eclipse SDK集成开发环境,在开发过程中按软件工程的流程进行。该系统实现了对本地多种数据源文件的索引,搜索关键字,对索引进行查询并对结果进行处理的功能。  相似文献   

17.
Lucene的全文检索的研究与应用   总被引:7,自引:0,他引:7  
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

18.
基于Lucene 网页排序算法的改进   总被引:2,自引:1,他引:2  
在分析现有的词频位置加权排序法、Direct Hit算法、PageRank算法和Lucene的网页排序算法后,将这三种著名的算法思想运用到Lucene的网页排序算法中,并设计了一个基于Lucene的糖业专业搜索引擎,重点介绍该搜索引擎的检索功能。最后,通过在所设计好的糖业专业搜索引擎进行实验,验证改进后Lucene的网页排序算法,实验结果表明改进后的排序算法能够提高检索结果的质量,能够更准确地将结果信息反馈给用户。  相似文献   

19.
为解决数据高效组织和系统管理以及跨域合作数据共享体系不完善的问题,本文设计一个基于Lucene搜索引擎的Web服务影像数据服务器。该服务器核心引入Lucene的全文检索技术进行二次开发,实现一个全文垂直检索引擎,并引入Xml作为数据描述,最后用Web技术作为与用户的交互手段。该平台有易使用,扩展性能强的优点,能够将数据的多条件查询与选择传输功能有机地结合起来,为用户提供一个具有良好体验的数据共享平台。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号