首页 | 本学科首页   官方微博 | 高级检索  
     

倒排索引中的文档序号重排技术综述
引用本文:史亮,张鸿,刘欣然,王勇,王斌.倒排索引中的文档序号重排技术综述[J].中文信息学报,2015,29(2):24-32.
作者姓名:史亮  张鸿  刘欣然  王勇  王斌
作者单位:1. 国家计算机网络应急技术处理协调中心,北京 100029;
2. 中国科学院 信息工程研究所,北京 100093
基金项目:国家973重点基础研究发展规划项目(2011CB302605);科技支撑计划(2012BAH47B04)
摘    要:倒排索引作为文本搜索的核心索引技术,广泛应用于搜索引擎、桌面搜索和数字图书馆领域。倒排索引由字典和对应的倒排表组成,倒排表一般采用差值存储和整数编码进行压缩。研究表明,当倒排表具有较好的局部连续性时,上述方法能够获得很高的压缩率。整数编码研究通过不断改进编码算法来充分利用倒排表的局部连续性特征,而文档序号重排正是一种对文档序号重新排列来产生局部连续性的技术。通过文档序号重排,索引压缩率得到显著提高。该文主要介绍近年来文档序号重排技术取得的研究成果: 首先介绍索引压缩的基本原理,然后详细介绍文档序号重排技术,包括分析、对比各个方法的优劣;最后对文档序号重排技术进行总结、整理和展望。

关 键 词:搜索引擎  性能优化  索引压缩  文档序号重排  局部连续性  

Reassignment of Document Identifiers in Index Compression
SHI Liang;ZHANG Hong;LIU Xinran;WANG Yong;WANG Bin.Reassignment of Document Identifiers in Index Compression[J].Journal of Chinese Information Processing,2015,29(2):24-32.
Authors:SHI Liang;ZHANG Hong;LIU Xinran;WANG Yong;WANG Bin
Affiliation:1. National Computer Network Emergency Response Fechnical Team/Coordination Center of China, Bejing 100029, China;
2. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China
Abstract:The inverted index has been widely used as the core data structure in search engine, desktop search and digital library. by. To best compress it via the d-gap or the integer coding, the algorithm called Document Identifiers Reassignment is usually adopted to achieve a high locality in an inverted index. This paper first introduces the basic principle of index compression, and then focuses on state-of-the-art techniques on document identifiers reassignment with an analysis of the pros and cons. It also summarizes all the related work and discusses the future work of document identifiers reassignment.
Keywords:search engine  performance optimization  index compression  document identifier reordering  locality  
本文献已被 CNKI 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号