首页 | 本学科首页   官方微博 | 高级检索  
     

分布式流数据加载和查询技术优化
作者姓名:易佳  薛晨  王树鹏
作者单位:中国科学院信息工程研究所 北京100093,国家计算机网络与信息安全管理中心 北京100029,中国科学院信息工程研究所 北京100093
基金项目:本文受国家自然科学基金(61271275,61202067)资助
摘    要:分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。

关 键 词:大数据  流处理系统  分布式流查询  查询优化  Kafka快速加载
收稿时间:2016-08-02
修稿时间:2016-12-11
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号