首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
全文检索是一种非常有效的信息检索技术,本文通过分析全文检索系统中静态索引技术的优缺点,以及影响动态性能的因素,提出一种基于互关联后继树模型的动态索引技术,该技术在不影响查询效率等性能的情况下,很好地解决了索引的更新问题,提高了索引的动态性能。  相似文献   

2.
基于动态文档集的索引技术*   总被引:1,自引:0,他引:1  
倒排文件是全文检索中广泛使用的索引结构,对静态文档集合建立倒排索引的研究已有较长时间。随着计算机技术的发展,需要存储的数据越来越大。同时特定的应用领域如新闻搜索、桌面搜索等对实时更新性能要求较高,这需要使用有效的索引更新策略,也称动态索引。描述了常用的动态索引技术,并详细分析了其使用代价。  相似文献   

3.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

4.
全文检索系统的数据预处理研究   总被引:1,自引:0,他引:1  
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

5.
随着信息技术的发展,很多单位累积了海量的科研和生产数据,其中部分是涉密数据.如何从这些海量数据中安全且快速找到所需的涉密信息是用户面临的难题.密文索引是密文全文检索系统的核心模块,为保证在密文状态下进行高效的全文检索,提出了一种密文动态后继树精简索引模型.该索引模型支持密文子串查询、潜在分词查询和索引动态更新,具有较高的查全率和查准率;给出该模型密文索引的创建、检索、和索引密文更新算法,并对其安全性和效率进行分析.实验表明,与其他已有的索引模型相比,该模型具有较好的时间效率,更适合应用于密文全文检索领域.  相似文献   

6.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度.Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引.但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈.在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题.  相似文献   

7.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。  相似文献   

8.
Lucene是一个优秀的开源全文搜索技术框架,Lucene全文检索技术是信息检索领域广泛使用的基本技术.它能非常方便地为各种应用程序加入全文索引和搜索功能,快速有效地索引企业累积的大量信息资源.文中阐述了建立全文检索系统的必要性,介绍了全文检索系统的概念并分析了Lucene的系统结构和实现机制,最后结合实际应用背景从系统设计、文挡抽取、索引的建立及执行检索等方面介绍了全文检索系统的实现过程.实践证明,该系统的查准率、查询速度等均达到了设计要求.  相似文献   

9.
针对海量涉密隐私数据高效安全检索的需求,提出了一种基于密文的全文检索系统——Mimir.Mimir基于B+树构建了一种安全密文全文索引结构,Mimir检索过程完全在密文环境下进行,保证了系统的安全性和存储信息的私密性.与传统的全文检索系统相比,Mimir密文索引中没有存储索引词的位置信息和词频信息,可以有效地抵御已知明文攻击、选择明文攻击和词频统计攻击.对Mimir密文全文检索系统进行了性能测试,实验结果数据表明,Mimir密文全文检索系统在确保高安全性的同时,也具有很好的检索时间和存储空间性能.  相似文献   

10.
在移动对象数据库中,移动对象的数量可能会经常变化,这就给索引技术提出了新的挑战。移动对象索引技术的效率是移动对象数据库的一个重要研究课题。为了防止数据库由于移动对象数量的变化而导致性能锐减,本文在网格文件索引的基础上提出了一种动态网格索引技术。通过实验比较显示,它相对于静态索引具有更好的适应性。  相似文献   

11.
互联网文本数量持续爆炸式增长,用户通过互联网查找信息变得更加困难,响应时间得不到满足。针对藏文本身的语言学特点,探讨一种面向信息搜索的藏文文本索引建立策略,建立一种高效的藏文文本索引,以提高藏文信息检索速度。  相似文献   

12.
研究了医学影像诊断资源平台中的一些关键技术,利用文本处理技术提取文本特征和影像处理技术提取灰度、纹理和形状特征,应用文本和影像处理相结合的技术确定影像中病灶特征,使用索引技术将高维特征组织在一起,利用语义网建立资源的语义关联。原型系统提供了高效率和高准确率的资源检索平台,为医生提供了学习以及交流的平台。实验结果表明,系统的性能得到较大提升。  相似文献   

13.
在XML文档上进行全文本检索已经成为很多研究课题的基础问题,例如Web信息检索,信息抽取等。有效的XML索引结构对于加速检索速度是至关重要的,在文献[1]的基础上全面地构建和实现了一个可以有效的支持XML全文本检索的索引结构。实验表明提出的索引结构在索引构建时间、空间等性能指标上均有很好的表现。  相似文献   

14.
构建中医汉英双语语料库平台并介绍其主要功能。该平台以经典中医文献语料为生语料,通过语料匹配程序和智能自增词典等技术实现语料加工入库功能,运用B_树动态索引技术实现语料检索和统计分析功能并降低了检索时间。  相似文献   

15.
包刚  关毅  王强  赵健 《计算机工程与应用》2005,41(25):165-167,196
信息检索系统如果能较精确地定位于文章中用户关心的部分必将提高用户的检索效率。基于Cover级别的检索策略就是针对上述问题提出的。基于Cover级别的检索策略以用户查询的关键词集合作为输入,在被检索文档中找到包含关键词集合的最短文本片断集作为输出。文章采用了一种经过改进的基于Cover级别的检索策略,对系统返回的文本片断作了限制,并在检索过程中使用了贪心算法(Greedy Algorithm)的思想,最后将其应用到中文信息检索系统中。实验证明,采用改进的策略比原有的基于Cover级别的检索策略在返回有效结果个数和平均排序倒数(MRR)等指标上都有了提高。  相似文献   

16.
基于复合结构的高效索引在线更新策略   总被引:1,自引:0,他引:1       下载免费PDF全文
赵亮 《计算机工程》2008,34(2):75-77
倒排索引结构已被广泛地应用在信息检索系统中,倒排索引离线的生成和更新方法已不适合在线更新。文中研究了在线索引更新方法,分析了合并更新、插入更新、复合更新等方法,提出一种结合“插入更新”和“合并更新”优点,并采用多级结构的改进复合更新策略。使用磁盘操作复杂度来衡量更新策略的性能,对几种常用的更新策略和复合更新策略在大量记录下的性能进行理论和实验分析。结果显示,改进复合更新策略具有较好的效率。  相似文献   

17.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

18.
对分词检索算法n-Gram/2L的索引结构作了改进,在第二级倒排表中加入对文章标识的索引,提出一种基于Zigzag的分词检索算法n-Gram/2LZ(n-Gram/2L on Zigzag join)。在对数据量较大的文章进行检索和索引时,该算法在保留原有算法特性的基础上进一步减少了索引冗余,降低了索引的存储量,同时对查询算法的优化降低了查询时的系统开销,并且减少索引中记录访问次数,提高了查询效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号