首页 | 本学科首页   官方微博 | 高级检索  
     

倒排链表多层自索引结构的分析与设计
引用本文:江宇,姜琨,杨岳湘.倒排链表多层自索引结构的分析与设计[J].计算机应用研究,2017,34(2).
作者姓名:江宇  姜琨  杨岳湘
作者单位:国防科学技术大学 计算机学院,西安交通大学 电信学院,国防科学技术大学 信息中心
基金项目:大型搜索引擎中的倒排索引压缩算法研究
摘    要:在大型搜索引擎的查询处理过程中,对索引文件的顺序遍历将导致响应时间过长。自索引结构能够有效解决上述问题。为了进一步缩短查询时间,通过对当前索引文件自索引结构的分析,设计了倒排链表的多层自索引结构。此结构以定长元组为单位,使用迭代的方法提取数据段同步点形成上层自索引。在此基础上,实现了索引压缩与查询系统。基于TREC GOV2数据集的测试结果表明,该系统的各项性能指标均优于不采用自索引结构的查询系统,在不影响结果精度的情况下使检索效率得到大幅提升。

关 键 词:搜索引擎  倒排索引  自索引  随机访问
收稿时间:2016/1/20 0:00:00
修稿时间:2016/12/20 0:00:00

Analysis and design of hierarchical self-index for posting lists
Jiang Yu,Jiang Kun and Yang Yuexiang.Analysis and design of hierarchical self-index for posting lists[J].Application Research of Computers,2017,34(2).
Authors:Jiang Yu  Jiang Kun and Yang Yuexiang
Abstract:Query processing costs on large search engines are dominated by the need to traverse the inverted files. Hence self-index was proposed which could solve the problem efficiently. To shorten query time further, this paper analyzed self-index in current search engines and designed hierarchical self-index for posting lists. This structure of index, which was based on the group of elements with fixed length, used the iterative approach to extract skipping pointers and construct the self-index of upper level. A retrieval system with hierarchical self-index was implemented in this paper. The experimental results on TREC GOV2 show that the system above can obtain better performance than conventional ones.
Keywords:search engine  inverted index  self-index  random access
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号