首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 984 毫秒
1.
倒排索引创建效率和查询效率是全文检索技术的两个重要方面.针对传统倒排索引创建方法效率低下的问题,提出了基于缓存满再写临时文件和双缓冲区相结合的索引创建机制,充分利用内存和CPU资源以加快倒排索引的创建速度;提出了查询缓存机制,以提高倒排索引的查询效率.分析及实验结果表明,提出的索引创建机制能有效地提高索引创建速度,查询缓存机制能有效地加快查询速度,提高了全文检索系统的时间和空间效率.  相似文献   

2.
页是磁盘与内存进行数据交换的基本单位,它在操作系统、数据库管理系统以及倒排文件的数据组织中占据十分重要的地位。为减少倒排索引的磁盘 I/O 读写开销,提出了一种倒排文件按页存储的构建方法,实现了按页读写文件。该方法主要包括磁盘I/O层设计、页管理器设计以及堆文件管理器设计三个部分,实现了页大小可变的分块式数据文件管理,支持页内定长记录、变长记录的组装以及超长数据记录的跨页存储。经实验测试,结果表明该方法是行之有效的,可以将其应用到实际的垂直搜索引擎中。  相似文献   

3.
搜索引擎通常使用签名文件、倒排索引、后缀树/后缀数组来构建索引,其中倒排文件由于性能可靠、实现简单,得到广泛应用.但是在现今海量数据情况下,有时倒排索引仍显力不从心,导致检索性能不佳,提出了分块索引术,可以有效提高基于倒排索引搜索系统检索效率.  相似文献   

4.
为了进一步提高检索系统的整体效率,提出了一种分块组织技术的倒排索引方法。具体研究过程是在数据统计的基础上产生倒排索引的检索性能模型,分析倒排文件分块索引项的组织策略,通过仿真实验对检索性能模型进行验证。研究结果表明:分块组织倒排文件方法可以在较小的检索算法循环次数下,获得较高的算法效率,显著减少检索算法的执行时间,验证了倒排文件分块索引方法的可行性。  相似文献   

5.
介绍了在信息时代的背景下,海量数据快速查找算法的应用场景以及几种高效的查找算法,包括哈希、倒排索引、位图法,并且随后给出了多级缓存和分级索引的优化方法。  相似文献   

6.
基于光盘库的Hadoop分布式文件系统(HDFS光盘库)在单位存储成本、数据安全性、使用寿命等方面非常符合当前大数据存储要求,但是HDFS不适合存储大量小文件和实时数据读取。为了使HDFS光盘库能更好地运用到更多大数据存储场景,本文提出一种更加适合大数据存储的磁光虚拟存储系统(MOVS, Magneto-optical Virtual Storage System)。系统在HDFS光盘库与用户之间加入磁盘缓存,并在磁盘缓存内通过文件标签分类、虚拟存储、小文件合并等技术将磁盘缓存内小文件合并为适合HDFS光盘库存储的大文件,提高系统的数据传输速度。系统还使用了文件预取、缓存替换等文件调度算法对磁盘缓存内文件进行动态更新,减少用户访问HDFS光盘库次数。实验结果表明,MOVS相对HDFS光盘库在响应时间和数据传输速度方面得到很大改善。  相似文献   

7.
对基于Java的全文检索工具包lucene的索引研究   总被引:4,自引:0,他引:4  
陆云 《电脑学习》2007,(2):45-46
详细介绍了Lucene的倒排索引原理,认识了索引机制架构和典型的索引文件操作,对如何提高索引的性能进行了比较深入的研究.  相似文献   

8.
提出了一种新的机群文件系统缓存模型,它充分利用机群系统累积的系统资源和高速的互联网络,将文件系统元数据和内容数据分离,分别使用分布式元数据缓存和统一缓存模型进行管理。元数据缓存使用改进的广播一致性协议和LRU替换算法。内容数据统一缓存则将磁盘缓存整个文件和内存缓存文件块相结合组成一个单一映像的多层次分布协作缓存,并使用单拷贝优先LRU和向前传递调度缓存块替换算法以及一种贪心的数据预取方法。实验结果表明,这两种缓存机制结合使用能极大地提高机群文件系统的性能。  相似文献   

9.
Hadoop作为一个分布式计算框架,在处理大容量数据方面有着显著优势。然而,因其Name Node节点问题的内存有瓶颈等问题,对于处理海量小文件的存取不利。提出了一种针对海量录音小文件的优化方法,充分利用录音文件相关性的特点,通过预处理模块归类文件,把录音小文件合并成一系列的sequencefile,并建立全局索引,最后,采用缓存机制及缓存优化策略进行进一步优化。实验证明,该方法能有效提高大批量小文件的存取性能。  相似文献   

10.
针对现有报表缓存方法在内存消耗和访问速度上相冲突的问题,提出一种结构化数据缓存方法,把具有行列结构的报表数据分块存储到文件中。以文件形式存储的数据被划分为索引区和数据区,通过数据分块算法和写操作将报表数据缓存入文件。在读取报表数据时根据索引区可以直接定位到所在的块,在块中快速查找所需要的数据,从而在内存消耗和访问速度上达到优化。  相似文献   

11.
设计并实现了在网格虚拟文件系统Grid VFS客户端采用代理管理磁盘缓存来隐藏网络延迟,提高网格数据利用率。此方法扩展了虚拟化分布式文件系统,提高了对网格资源有效完整的数据访问。在Grid VFS中,客户端代理动态地产生和管理磁盘缓存,每一个未修改的应用程序和OS都能应用,支持write-back策略、文件系统之间缓存的共享以及磁盘缓存的多级化,通过用户级VFS可以完整的集成到网格应用程序和资源中,从而提高了网格数据的访问性能。  相似文献   

12.
集群协作缓存机制研究   总被引:1,自引:0,他引:1  
计算机集群中的节点使用内存一般不均衡,往往有些节点使用太多内存,而其他节点又有较多的空闲内存.为了改进集群操作系统,将集群节点的内存作全局分布的资源使用,我们首先提出一个内存互操作高速缓存方案:通过使用集群范围内的内存作文件高速缓存,从其他节点的高速缓存中读文件,可以避免很多低速的磁盘访问,改进集群文件系统的总体吞吐量.然后利用我们提出的缓存页面代替策略GCAR来支持这种内存互操作的高速缓存方案.该算法与CAR相比,对缓存中被"经常"使用的页面的管理粒度更细,更适合集群协作缓存的计算环境.实验结果表明,GCAR对本地缓存的命中率比CAR略好,在集群协作缓存下能取得更好的缓存命中率.  相似文献   

13.
基于分级缓存加速的高可靠高速星载固存设计   总被引:1,自引:0,他引:1       下载免费PDF全文
星上模块在模式切换过程会因为星载固态存储器启动过程缓慢而导致无法快速访问固存。分级缓存系统设计采用片内缓存结合小容量非易失存储器(MRAM)的硬件架构,通过在MRAM中存储文件对象头索引以及Nand Flash块元数据区索引等流程优化来加速文件系统启动操作。本设计通过数据建模和仿真实验来分析性能,并在硬件板卡上进行算法实现和测试验证,以对象为索引的启动方式耗时3.12 ms,以块元数据区为依据的启动方式耗时143.47 ms。对比传统设计架构下的耗时170.35s的启动操作,基于分级缓存加速的系统具有高可靠性同时大大缩短了固存启动时间。其系统性能提升为卫星在轨管控优化提供技术基础。  相似文献   

14.
Peer-to-peer (P2P) systems generate a major fraction of the current Internet traffic which significantly increase the load on ISP networks. To mitigate these negative impacts, many previous works in the literature have proposed caching of P2P traffic. But very few have considered designing a distributed caching infrastructure in the edge network. This paper demonstrates that a distributed caching infrastructure is more suitable than traditional proxy cache servers which cache data in disk, and it is viable to use the memory of users in the edge network as the cache space. This paper presents the design and evaluation of a distributed network cache infrastructure for P2P application, called BufferBank. BufferBank provides a number of application interfaces for P2P applications to make full use of the cache space. Three-level mapping is introduced and elaborated to improve the reliability and security of this distributed cache mechanism. Our measurement results suggest that BufferBank can decrease the data obtaining delay, compared with traditional P2P cache server based on disk.  相似文献   

15.
Because of the rapid growth of the World Wide Web and the popularization of smart phones, tablets and personal computers, the number of web service users is increasing rapidly. As a result, large web services require additional disk space, and the required disk space increases with the number of web service users. Therefore, it is important to design and implement a powerful network file system for large web service providers. In this paper, we present three design issues for scalable network file systems. We use a variable number of objects within a bucket to decrease internal fragmentation in small files. We also propose a free space and access load-balancing mechanism to balance overall loading on the bucket servers. Finally, we propose a mechanism for caching frequently accessed data to lower the total disk I/O. These proposed mechanisms can effectively improve scalable network file system performance for large web services.  相似文献   

16.
为了实现文件透明加解密过滤驱动,首先提出了基于文件流的文件信息存储和转化方式,对于已经存储标识信态的文件,只有规定进程,才能读到其明文,否则读到的则是该文件的密文.其次,提出了分组对齐IRP(Input/Output Pequest packet)的方法,使加解密过滤驱动对加解密算法具有通用性.最后,设计并实现了具有文...  相似文献   

17.
The JFFS2 file system for flash memory compresses files before actually writing them into flash memory. Because of this, multimedia files, for instance, which are already compressed in the application level go through an unnecessary and time-consuming compression stage and cause energy waste. Also, when reading such multimedia files, the default use of disk cache results in unnecessary main memory access, hence an energy waste, due to the low cache hit ratio. This paper presents two techniques to reduce the energy consumption of the JFFS2 flash file system for power-aware applications. One is to avoid data compression selectively when writing files, and the other is to bypass the page caching when reading sequential files. The modified file system is implemented on a PDA running Linux and the experiment results show that the proposed mechanism effectively reduces the overall energy consumption when accessing continuous and large files.  相似文献   

18.
在当前的分布式文件系统(HDFS,Hadoop distributed file system)密钥管理系统中,加密区密钥在启动时全部加载至内存,提供密钥服务。随着密钥资源的增加,占据的内存空间也随之增长,带来内存空间不足和密钥索引瓶颈,如何组织缓存数据、高效处理未命中密钥的查询,如何调整缓存中的密钥资源,如何精准预测密钥的使用这三大要点是解决该瓶颈的关键所在。为了实现细粒度高效缓存,提高密钥使用效率,从密钥索引数据结构、密钥置换算法、密钥预取策略分析3个方面出发,设计了密钥缓存置换的模块架构,计算密钥热度,设置密钥置换算法。具体地,在密钥热度计算与缓存置换方面,从密钥所绑定的文件系统和用户出发,分析影响密钥缓存热度的潜在影响要素,构建密钥使用热度的基本模型,采用哈希表与小顶堆链表组合的方式,维护在用密钥的热度,基于热度识别设置淘汰算法,由时间控制器调整密钥使用,动态更新缓存中的密钥,从而实现基于热度计算的密钥差异化置换。在密钥预取策略分析方面,综合考虑业务流程和用户访问存在时间周期维度的规律,通过日志挖掘获取密钥使用规律,分析密钥预置策略。实验表明,所提密钥置换算法可在降低内存占用的...  相似文献   

19.
在E级计算时代,超算系统一般使用多层存储架构以满足应用数据访问的容量和性能需求,这种架构中不同层次的存储介质差异较大,难以实现统一名字空间管理,往往需要应用修改数据访问流程才能最大程度利用到多层存储的性能和容量优势。针对多层存储统一名字空间的问题,提出针对非易失性双列存储模块(NVDIMM)的块级缓存和针对突发缓冲存储(BB)的文件级缓存技术。基于NVDIMM的块级缓存技术对缓存窗口灵活控制,以支持数据块粒度的异步读写,实现NVDIMM与BB层统一名字空间管理;基于BB的文件级缓存技术将数据缓存在BB层中,并动态迁移和管理文件副本,实现BB层与传统磁盘文件系统统一名字空间管理。在神威E级原型验证系统中的测试结果表明,所提出的两种技术较好地解决了多层存储的透明加速难题,NVDIMM块级缓存与BB相比,在缓存窗口16 MB时128 KB顺序读写带宽分别提升27%和36%,8 KB随机读写带宽分别提升20%和37%;基于BB的文件缓存技术利用BB的高带宽支撑数据访问,与全局文件系统相比,128 KB顺序读写带宽分别提升55%和141%,8 KB随机读写带宽分别提升163%和209%。此外,实际应用的测试也表明以上两种缓存技术具有透明的存储加速效果。  相似文献   

20.
基于单汉字索引的全文检索系统的优化研究   总被引:7,自引:0,他引:7  
对于按照单汉字建立倒排索引的全文检索系统,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法:一是利用参数化的Golomb编码对倒排文件进行压缩;二是对求集合交集的逻辑乘算法进行改进;三是运用并行计算和双缓冲技术。实验结果表明,经过优化后的单汉字全文检索系统已达到实用化的程度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号