首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
为了进一步提高检索系统的整体效率,提出了一种分块组织技术的倒排索引方法。具体研究过程是在数据统计的基础上产生倒排索引的检索性能模型,分析倒排文件分块索引项的组织策略,通过仿真实验对检索性能模型进行验证。研究结果表明:分块组织倒排文件方法可以在较小的检索算法循环次数下,获得较高的算法效率,显著减少检索算法的执行时间,验证了倒排文件分块索引方法的可行性。  相似文献   

2.
搜索引擎通常使用签名文件、倒排索引、后缀树/后缀数组来构建索引,其中倒排文件由于性能可靠、实现简单,得到广泛应用.但是在现今海量数据情况下,有时倒排索引仍显力不从心,导致检索性能不佳,提出了分块索引术,可以有效提高基于倒排索引搜索系统检索效率.  相似文献   

3.
吴文娟  车明 《微处理机》2006,27(6):83-85
倒排文件是搜索引擎检索系统普遍采用的索引技术。在实验基础上,针对中文搜索引擎中索引的时效性和传统倒排索引在更新时的缺点,提出分组索引技术和一种追加索引的更新算法,可以有效提高搜索引擎的检索效率,同时不影响系统检索效果。  相似文献   

4.
一种基于XML文档关键字检索的结构索引   总被引:2,自引:0,他引:2  
娄颖  李战怀  郭文琪  陈群  韩萌 《计算机科学》2010,37(12):120-124
XML数据索引对其检索效率有较大的影响。在深入分析现有XMI、结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引--LSS(Level Structure Summary) . LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN,并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引,将各个关键字的原始倒排表集合分拆成不同类型的子集合,最后在所有子集合上进行查询。实验结果表明,LSS可以帮助减少XML文档中关键字倒排表的规模,提高检索效率。  相似文献   

5.
针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块大小可变的分块倒排索引存储模式和基于CLOCK替代策略的专用缓冲管理机制。实验结果表明在禁用和启用缓冲的情况下,分块访问模式检索效率都优于ASPSeek。在启用缓冲并使用16万中文词条或5万高频中文词条作为测试集合的条件下,分块存储模式在访问倒排索引100万次后的检索时间趋于常量,即使以全部的827309个词条作为测试集合的条件下,分块存储模式在访问倒排索引200万次后的检索时间趋于收敛。  相似文献   

6.
一种实时更新索引结构的设计与实现   总被引:5,自引:1,他引:4  
在搜索引擎的信息检索中,索引性能的优劣是影响检索质量的一个重要因素.本文针对面向主题搜索引擎内容覆盖范围窄、更新速度快的特点,设计了一种实时更新的索引结构,该方案的倒排索引结构打破了传统索引单一结构的形式,由主倒排索引、附加倒排索引和删除文件列表组成,很好的解决了索引的更新问题,实验结果显示该索引结构具有良好的性能.  相似文献   

7.
搜索引擎的混合索引技术   总被引:5,自引:0,他引:5  
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。  相似文献   

8.
该文从传统的基于FAQ库自动答疑系统的知识库存储及检索方式的不足出发,提出了知识库文档预处理及建立倒排索引结构的方法。对倒排索引文档进行重组及性能进行优化,初始化了文档的权重,提高了文档内容的检索速度。  相似文献   

9.
哈希技术被视为最有潜力的相似性搜索方法,其可以用于大规模多媒体数据搜索场合。为了解决在大规模图像情况下,数据检索效率低下的问题,提出了一种基于分段哈希码的倒排索引树结构,该索引结构将哈希码进行分段处理,对每段哈希码维护一个倒排索引树结构,并结合高效的布隆过滤器构建哈希索引结构。为了进一步提高检索准确性,设计了一种准确的排序融合算法,对多个哈希算法的排序结果分别构建加权无向图,采用PageRank的思想对基于多个哈希算法的排序列表的融合技术进行了详细的说明。实验结果表明,基于分段哈希码的倒排索引树结构能极大地提升数据的检索速度。此外,相比于传统的单个哈希算法排序技术,基于多个哈希算法的排序列表融合技术的检索准确率优势显著。  相似文献   

10.
曾梦琪  马蔚吟  李力 《计算机工程》2019,45(11):262-268
融合文本和视觉信息进行图像检索可避免图像低层视觉特征与高层语义之间的语义鸿沟,但在提高检索质量的同时难以保证检索效率。为此,针对基于文本和内容的混合图像检索,通过结合曼哈顿哈希、倒排索引和R树等技术,设计一个新型的索引结构CAT树和相应的top-k检索算法,并由此提出三段式图像检索方案。在基准图像数据集上的实验结果表明,该方案可以在保持准确率的前提下,显著提升图像检索的效率。  相似文献   

11.
在全文信息检索系统中,存储文本及其上关键词的索引结构需要大量的空间。位图索引不能支持基于信息量的查询,倒排文件需要的空间比较大。提出了频率向量这种索引结构的压缩存储方法,设计并实现了基于这种压缩存储方法的存储结构,理论分析表明该压缩方法与存储结构可以获得较高的压缩比;此外,还讨论了压缩频率向量上的查询处理技术,实验结果表明这种压缩的索引结构能够保证查询结果的完备性,并能有效地提高频率向量的存储和查询效率。  相似文献   

12.
为实现可以为单独的网站提供站内全文检索系统,采用独立于专门商业搜索引擎的lucene索引结构,在网站所有的文档基础上,首先使用xml转换技术建立文档的xml索引格式,抽取文档主题内容写入xml链表,索引过程基于伪xml的存储布局。该方法在检索效率和准确性上都有很明显的提高,并且扩展性好,在原来解析链的结构下可以直接增加新的解析模块。  相似文献   

13.
在XML文档上进行全文本检索已经成为很多研究课题的基础问题,例如Web信息检索,信息抽取等。有效的XML索引结构对于加速检索速度是至关重要的,在文献[1]的基础上全面地构建和实现了一个可以有效的支持XML全文本检索的索引结构。实验表明提出的索引结构在索引构建时间、空间等性能指标上均有很好的表现。  相似文献   

14.
Text retrieval systems require an index to allow efficient retrieval of documents at the cost of some storage overhead. This paper proposes a novel full-text indexing model for Chinese text retrieval based on the concept of adjacency matrix of directed graph. Using this indexing model, on one hand, retrieval systems need to keep only the indexing data, instead of the indexing data and the original text data as the traditional retrieval systems always do. On the other hand, occurrences of index term are identified by labels of the so-called s-strings where the index term appears, rather than by its positions as in traditional indexing models. Consequently, system space cost as a whole can be reduced drastically while retrieval efficiency is maintained satisfactory. Experiments over several real-world Chinese text collections are carried out to demonstrate the effectiveness and efficiency of this model. In addition to Chinese, The proposed indexing model is also effective and efficient for text retrieval of other Oriental languages, such as Japanese and Korean. It is especially useful for digital library application areas where storage resource is very limited (e.g., e-books and CD-based text retrieval systems).  相似文献   

15.
为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案.存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销.检索阶段,改进MapFile映射关系结构、索引存储位置与组...  相似文献   

16.
针对网络视频监控系统中传统文件系统存储方案存储效率低和检索性能差的缺陷,提出一种基于裸磁盘设备的录像存储方案。根据监控系统的数据存储特点,采用B+树管理录像段索引信息,设计一种磁盘逻辑存储结构,并给出一种基于图像组的数据缓存机制。系统测试结果表明,与传统的文件系统存储方案相比,该方案在监控系统的512Kb/s和1Mb/s典型存储码率下,录像存储效率分别提高了43.6%和30.3%,录像检索耗时降至35ms以下。  相似文献   

17.
为了从这些海量信息中获取“有用的、满足用户需求的信息”,提出一个基于Hadoop和Lucene技术的分布式检索系统架构处理Web电子产品信息检索。利用Hadoop的Map和Reduce实现分布式索引文件的存储,通过Lucene检索技术实现索引文件的访问,从而提高信息检索的效率。并且针对Lucene_Hadoop架构存在粗粒度检索问题,提出了一种细粒度检索方法,减少了系统建立索引的时间。实验表明基于Hadoop和Lucene的分布式检索系统在Web电子产品信息中具有较高的检索性能。  相似文献   

18.
对分词检索算法n-Gram/2L的索引结构作了改进,在第二级倒排表中加入对文章标识的索引,提出一种基于Zigzag的分词检索算法n-Gram/2LZ(n-Gram/2L on Zigzag join)。在对数据量较大的文章进行检索和索引时,该算法在保留原有算法特性的基础上进一步减少了索引冗余,降低了索引的存储量,同时对查询算法的优化降低了查询时的系统开销,并且减少索引中记录访问次数,提高了查询效率。  相似文献   

19.
空间数据库的索引是提高空间数据库存储效率、空间检索性能的关键技术.本文在R树索引的基础上提出了一种新的空间数据库索引结构CQRtree,给出了CQRtree的数据结构、插入、删除、查询实现算法以及性能分析与比较,最后指出了进一步的研究方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号