首页 | 本学科首页   官方微博 | 高级检索  
     

基于SQL-on-Hadoop的分布式广电数据仓库的设计与实现
作者姓名:高晓俊朱琛刚
作者单位:1.江苏省广电有线信息网络股份有限公司;
摘    要:为解决传统数据仓库扩展能力弱,不支持非结构化数据的问题,江苏有线结合实际应用情况,基于SQL-on-Hadoop技术实现了分布式的广电数据仓库TRAF。TRAF融合了传统数据仓库与Hadoop技术,可以同时存储结构化和非结构化数据,具备良好的扩展能力。TRAF在HBase框架之上构建支持多重查询嵌套和多级索引ANSI SQL标准的查询接口,实现海量用户行为的实时分析;采用通用x86服务器替代原有小型机存储,大幅降低了系统构建成本。测试结果表明,数据量在10亿条时,TRAF的处理速度比传统关系型数据仓库提升了5倍,同时构建成本降低了50%,有效提升了广电数据分析系统的应用水平。

关 键 词:数据仓库  分布式文件系统  SQL-on-Hadoop  HBase  可扩展性
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号