首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
全文索引的研究   总被引:4,自引:0,他引:4  
在倒排表模型的基础上,从加快索引创建速度和改进索引动态结构两个方面着手,提出了并实现了一种高效的索引创建算法和相应的索引模型,经过测试,新系统的索引创建速度可以和数据复制速度相提并论,而在空间效率上,也得到了一定程序的提高。  相似文献   

2.
基于邻接矩阵的全文索引模型   总被引:5,自引:0,他引:5  
周水庚  胡运发  关佶红 《软件学报》2002,13(10):1933-1942
文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用.  相似文献   

3.
Pat数组创建算法的研究   总被引:2,自引:0,他引:2  
Pat数组是目前比较新的全文索引结构,有广阔、良好的应用前景,详细研究了Pat数组的创建算法,提出了新算法-双边二分比较法,首先从理论上分析了算法的高效性,然后用实验结果主宰了分析,初步的研究表明,Pat数组用于中文文本的全文索引是可行的。  相似文献   

4.
谭舜泉  陈有青 《计算机应用》2004,24(5):151-153,157
文中根据分布式全文数据库的特点,提出一种新的全文索引模型——基于三维特征索引空间的分布式全文索引模型。在理论上的推导和对实际全文数据库的测试都证实新模型在分布式环境下,能以相对较小的空间代价获得较大幅度的查询效率的提高。  相似文献   

5.
DNA序列中的重复片段在人类基因研究中有着非常重要的生物意义,因此,查找给定DNA序列中的重复片段是生物序列分析领域中的一个重要课题.基于重复片段的模式提出了新的重复片段定义LPR(largest pattern repetition)和模式单元的概念.对于长度为n的DNA序列,其中的LPR的数量是O(n)数量级的,但提供了与个数可多达n2/4的tandem repeat相同的重复片段信息.基于模式单元设计了可用于重复片段查找的全新索引--后继数组.后继数组有效地降低了索引空间,很好地突破了重复片段查找中的索引空间瓶颈.在后继数组上,通过模式单元可发现构成LPR的全部原子模式,并通过判断相同模式是否在原序列中连续出现完成LPR的查找.理论分析和实验结果均表明,设计的LPR查找算法的时间和空间复杂度均为O(n).  相似文献   

6.
搜索引擎(Search Eng ine)技术是在网络数据成指数级增加的情况下出现的新技术。然而现在的搜索引擎在检索时都采用的是倒排文件,从后缀数据技术出发探讨了压缩后缀数组(Com pressed Su ffix A rray)技术在搜索引擎技术中的应用,从而大大提高了搜索引擎的性能。  相似文献   

7.
基于压缩后缀数组技术的搜索引擎   总被引:1,自引:0,他引:1       下载免费PDF全文
目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀数组索引的步骤和核心操作伪代码。对比实验表明,基于压缩后缀数组的索引比传统倒排文件索引的短语查准率提高了近20%。  相似文献   

8.
针对全文检索领域的索引结构模型的研究,基于三元互关联后继树模型,提出并实现了一个存储结构良好的索引系统.利用该系统实现了多种有效的查询.  相似文献   

9.
演变图中含有大量的时间和空间信息,其中某些空间信息随着时间的推移表现出相似的演变规律。给出了一种演变图查询模型,可以挖掘出在相同时间范围内具有相同变化规律的演变子图。但是演变图的规模往往是巨大的,当需要对其进行多次查询时,每次遍历整个演变图将带来非常高的查询代价,而现有的基于枚举的哈希索引算法又使得预处理过程拥有相当大的时间和空间开销,为了减少对大规模演变图的预处理代价,将压缩的全文索引技术应用于演变图,它基于涡轮转换和后缀数组。在构建后缀数组时,给出了两种不同的线性算法,确保了预处理过程的稳定性。通过在Facebook、Enron邮件系统以及模拟数据集上的实验,评估了该算法的可行性、效率以及可扩展性。  相似文献   

10.
一种全文检索系统的设计与实现   总被引:4,自引:0,他引:4  
在对全文检索有关技术进行分析和研究的基础之上,提出并实现了一个实用的全文检索系统UFRS,它能够处理中英文文档并可以扩展到其它语言,支持多种不同的索引存储方案以及分布式检索。依次讨论了该系统中的存储层、词法语法分析层、系统核心接口层。最后给出了该系统的一种分布式部署方案。  相似文献   

11.
Exchange2000是当今开发办公自动化系统的主流产品之一,如何快速有效地查询Exchange数据库中的各种文档数据,是实现智能化知识管理的关键。本文首先介绍Exchange平台及其核心技术WSS的特点,然后介绍在B/S结构下对Exchange数据库的全文检索实现方案,并用XML对查询结果进行处理以实现不同平台数据的动态交互。  相似文献   

12.
基于动态文档集的索引技术*   总被引:1,自引:0,他引:1  
倒排文件是全文检索中广泛使用的索引结构,对静态文档集合建立倒排索引的研究已有较长时间。随着计算机技术的发展,需要存储的数据越来越大。同时特定的应用领域如新闻搜索、桌面搜索等对实时更新性能要求较高,这需要使用有效的索引更新策略,也称动态索引。描述了常用的动态索引技术,并详细分析了其使用代价。  相似文献   

13.
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

14.
全文索引技术时空效率分析   总被引:3,自引:0,他引:3  
刘小珠  彭智勇 《软件学报》2009,20(7):1768-1784
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3 种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向.  相似文献   

15.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

16.
全文检索模型综述   总被引:5,自引:0,他引:5  
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研完的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文检索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全文检索模型构建中一些关键问题进行了分析。  相似文献   

17.
姚金阳  赵荣彩  王琦  李颖颖 《计算机科学》2018,45(9):220-223, 236
对现有的编译器而言,间接数组索引不能被高效地向量化,这使得程序中包含有该类访存形式的间接数组索引不能利用SIMD扩展部件,这也是程序向量化研究中的热点问题。为了高效地利用SIMD扩展部件,充分挖掘程序中的向量化潜能,提出了一种对间接数组索引进行向量化的新方法,且提供了性能收益方法,分别对各种间接数组索引进行性能收益分析。实验结果表明,使用该向量化方法可以显著地提高程序的执行效率。  相似文献   

18.
随着计算机的广泛应用以及互联网的飞速发展,互联网流量呈现爆炸式增长的态势。为了应对日益严重的网络滥用以及网络安全事件,出于安全取证的需要,必须对互联网流量进行收集、存储和分析。互联网流量的监控需要及时统计网络流量的源地址、目的地址、源端口、目的端口、协议、时间戳等信息,以便进行流量统计和综合分析。但是网络流量信息是海量的,如何快速检索相关流量是一个挑战性问题。在搜索引擎中,为了处理海量数据检索,倒排索引是快速搜索技术的关键方法。文章把搜索引擎中的倒排索引方法和索引压缩算法应用到互联网网流信息检索中。通过实验测试和验证,在网流信息检索中,倒排索引以及索引压缩算法能够有效提高检索速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号