首页 | 本学科首页   官方微博 | 高级检索  
     

面向大规模机群的可扩展OLAP查询技术
引用本文:王会举,覃雄派,王珊,张延松,李芙蓉.面向大规模机群的可扩展OLAP查询技术[J].计算机学报,2015,38(1).
作者姓名:王会举  覃雄派  王珊  张延松  李芙蓉
作者单位:1. 数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872;中国人民大学信息学院 北京100872
2. 中国人民大学中国调查与数据中心 北京100872
基金项目:国家“九七三”重点基础研究发展规划项目基金,国家重大科技专项基金,国家自然科学基金,中国人民大学科学研究基金(中央高校基本科研业务费专项资金,This work is partly supported by the Important National Science & Technology Specific Projects of China,the National Natural Science Foundation of China,the Fundamental Research Funds for the Central Universities,the Graduate Science Foundation of Renmin University of China
摘    要:大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级.

关 键 词:大规模可扩展  OLAP查询  无连接雪花模型  TRM执行模型  跳跃式扫描  Scan-index  大数据

Scalable OLAP Queries Processing Towards Large Cluster
WANG Hui-Ju,QIN Xiong-Pai,WANG Shan,ZHANG Yan-Song,LI Fu-Rong.Scalable OLAP Queries Processing Towards Large Cluster[J].Chinese Journal of Computers,2015,38(1).
Authors:WANG Hui-Ju  QIN Xiong-Pai  WANG Shan  ZHANG Yan-Song  LI Fu-Rong
Abstract:
Keywords:large scalability  OLAP query  join-free snowflake schema  TRM model  jump scan  Scan-index  big data
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号