摘 要: | 为解决传统数据仓库扩展能力弱,不支持非结构化数据的问题,江苏有线结合实际应用情况,基于SQL-on-Hadoop技术实现了分布式的广电数据仓库TRAF。TRAF融合了传统数据仓库与Hadoop技术,可以同时存储结构化和非结构化数据,具备良好的扩展能力。TRAF在HBase框架之上构建支持多重查询嵌套和多级索引ANSI SQL标准的查询接口,实现海量用户行为的实时分析;采用通用x86服务器替代原有小型机存储,大幅降低了系统构建成本。测试结果表明,数据量在10亿条时,TRAF的处理速度比传统关系型数据仓库提升了5倍,同时构建成本降低了50%,有效提升了广电数据分析系统的应用水平。
|