首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
在大型搜索引擎的查询处理过程中,对索引文件的顺序遍历将导致响应时间过长。自索引结构能够有效解决上述问题。为了进一步缩短查询时间,通过对当前索引文件自索引结构的分析,设计了倒排链表的多层自索引结构。此结构以定长元组为单位,使用迭代的方法提取数据段同步点形成上层自索引。在此基础上,实现了索引压缩与查询系统。基于TREC GOV2数据集的测试结果表明,该系统的各项性能指标均优于不采用自索引结构的查询系统,在不影响结果精度的情况下使检索效率得到大幅提升。  相似文献   

2.
针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块大小可变的分块倒排索引存储模式和基于CLOCK替代策略的专用缓冲管理机制。实验结果表明在禁用和启用缓冲的情况下,分块访问模式检索效率都优于ASPSeek。在启用缓冲并使用16万中文词条或5万高频中文词条作为测试集合的条件下,分块存储模式在访问倒排索引100万次后的检索时间趋于常量,即使以全部的827309个词条作为测试集合的条件下,分块存储模式在访问倒排索引200万次后的检索时间趋于收敛。  相似文献   

3.
为了进一步提高检索系统的整体效率,提出了一种分块组织技术的倒排索引方法。具体研究过程是在数据统计的基础上产生倒排索引的检索性能模型,分析倒排文件分块索引项的组织策略,通过仿真实验对检索性能模型进行验证。研究结果表明:分块组织倒排文件方法可以在较小的检索算法循环次数下,获得较高的算法效率,显著减少检索算法的执行时间,验证了倒排文件分块索引方法的可行性。  相似文献   

4.
为了有效提高搜索引擎检索服务系统的整体性能,提出了一种基于倒排文件索引的缓存机制优化方法。具体研究过程是:首先分析倒排文件缓存的体系结构和数据加载,接着讨论负载数据对倒排文件缓存和缓存替换算法的影响,最后通过设计仿真实验研究倒排文件的缓存优化。研究结果表明,采用倒排文件索引的缓存机制优化方法可以明显减少磁盘系统I/O访问次数,提高磁盘系统带宽的利用率。  相似文献   

5.
许维平  许驰 《微机发展》1998,8(2):57-59
介绍用 C语言编程、构造 B-树生成倒排文件 ,实现数据查找。  相似文献   

6.
吴文娟  车明 《微处理机》2006,27(6):83-85
倒排文件是搜索引擎检索系统普遍采用的索引技术。在实验基础上,针对中文搜索引擎中索引的时效性和传统倒排索引在更新时的缺点,提出分组索引技术和一种追加索引的更新算法,可以有效提高搜索引擎的检索效率,同时不影响系统检索效果。  相似文献   

7.
要提高文件检索系统的性能,需要对倒排文件压缩技术进行研究与对比,以使文件检索系统在最大压缩比和最快的解压速度间寻找均衡,以到达最大的吞吐量。对Golomb,Eliasgamma,Eliasdelta,VariableByteEncoding和BinaryInterpolativeCoding五种压缩技术通过在Windows操作系统下对theTRECWallStreetJournalcollection文件系统进行存取与压缩,从CPU时钟周期角度来对比各个算法的压缩比、压缩与解压缩的时间和对文件的读取和查询所花费的时间,并对它们进行了一个综合的评测。  相似文献   

8.
Maze系统是基于P2P,采用集中式架构管理用户和资源的内容交换系统。文章对Maze检索系统的性能问题进行了研究,讨论检索效率的影响因素,并提出改进的方法和途径。  相似文献   

9.
搜索引擎通常使用签名文件、倒排索引、后缀树/后缀数组来构建索引,其中倒排文件由于性能可靠、实现简单,得到广泛应用.但是在现今海量数据情况下,有时倒排索引仍显力不从心,导致检索性能不佳,提出了分块索引术,可以有效提高基于倒排索引搜索系统检索效率.  相似文献   

10.
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

11.
全文索引技术时空效率分析   总被引:3,自引:0,他引:3  
刘小珠  彭智勇 《软件学报》2009,20(7):1768-1784
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3 种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向.  相似文献   

12.
针对石油勘探行业海量数据过大以及非结构化的特点导致地震数据合并处理时的效率低、消耗磁盘等问题, 提出对地震数据文件建立元数据, 将多个独立地震数据文件通过文件元数据合并方式生成一个逻辑上完整的地震数据文件即虚拟地震数据文件, 提高地震数据合并效率, 并根据地震数据并行访问模型实现对虚拟地震数据文件的IO访问.  相似文献   

13.
页是磁盘与内存进行数据交换的基本单位,它在操作系统、数据库管理系统以及倒排文件的数据组织中占据十分重要的地位。为减少倒排索引的磁盘 I/O 读写开销,提出了一种倒排文件按页存储的构建方法,实现了按页读写文件。该方法主要包括磁盘I/O层设计、页管理器设计以及堆文件管理器设计三个部分,实现了页大小可变的分块式数据文件管理,支持页内定长记录、变长记录的组装以及超长数据记录的跨页存储。经实验测试,结果表明该方法是行之有效的,可以将其应用到实际的垂直搜索引擎中。  相似文献   

14.
针对气象水文应用中,大量常规观探测报文批量访问出现的低效问题,研究文件存储特性,定量分析了目录级数和文件数量对访问性能的影响,发现文件数相对于文件大小,对于系统的访问效率影响更大,当单个目录下文件数目过大时,文件存取延时较大,严重影响用户体验与服务性能。根据NTFS下的实验数据,设计了一种高效的目录组织方法,优化用户态文件存储管理算法。实验表明,优化后的文件目录结构和组织形式,能极大地提高批量文件的读取效率,降低20%—73%的访问延时,改善网络环境下的大规模文件接收处理效率。  相似文献   

15.
Linux系统向来以高安全性著称,但是其仍然存在提权漏洞,因此造成重要文件遭到篡改、破坏。介绍了利用可堆叠文件系统技术,在Linux系统中实现访问控制文件系统,进一步提高文件访问的安全性。  相似文献   

16.
文章针对当前主机系统所面临的效率问题,提出减小CA分裂次数,加快VSAM文件访问速度的有效方法,以此来提高系统运行效率。文章先对VSAM结构进行介绍,然后详细描述减小CA分裂的方法,最后通过实际应用中的测试,证明该方法行之有效,并可以大大的提高主机系统运行的效率。  相似文献   

17.
广域存储虚拟化所要解决的一个问题是如何实现对分布的文件进行方便高效的访问。本文在分析了几种常见的文件系统后,针对广域存储虚拟化系统的特征,设计了客户端的文件访问模式,并实现了一套应用于该系统的文件访问接口,使用户能够像使用本地系统一样使用广域存储虚拟化系统的存储资源。  相似文献   

18.
曙光星云分布式文件系统:海量小文件存取   总被引:2,自引:0,他引:2  
随着互联网应用的发展和云计算的兴起,在线图片、音频、视频以及微博等服务逐渐广泛发展,这些应用展示了与传统应用截然不同的数据访问和存储模式.数据中心内每秒钟都有大量较小文件的生成、分析和返回,这些应用对高并发海量文件的高吞吐、低延迟读写提出了新的挑战.提出基于分布式表存储的全新的分布式文件系统HVFS来管理数以十亿计的文件,并同时支持高吞吐和低延迟的文件访问.HVFS通过改进分布式可扩展哈希来管理元数据、日志结构的格式和列存储来利用时空局部性.本文描述了HVFS的设计和实现并进行了中等规模的实验.实验显示HVFS的表存储结构能够线性的扩展,并在82个结点上提供超过240,000次/秒、100,000次/秒的数据(<1KB)写和读;基于FUSE的实现在32个节点上提供超过180,000个/秒的文件创建速度.  相似文献   

19.
探讨基于压缩倒排文件的中文全文检索技术,包括数据压缩方法、存储、检索与排名机制。借助中科院的高精度ICTCLAS中文分词系统,采用C++/STL语言仿真实现了一个中文全文检索系统。该文列出部分关键代码,利用搜狗实验室提供的数据进行实验。通过改进压缩算法,系统的磁盘利用率提高了近80%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号