首页 | 本学科首页   官方微博 | 高级检索  
     

模型驱动的大数据流水线框架PiFlow
引用本文:朱小杰,赵子豪,杜一.模型驱动的大数据流水线框架PiFlow[J].计算机应用,2020,40(6):1638-1647.
作者姓名:朱小杰  赵子豪  杜一
作者单位:1.中国科学院 计算机网络信息中心,北京 100190
2.中国科学院大学,北京 100049
基金项目:国家重点研发计划云计算与大数据重点专项(2018YFB1004001);国家自然科学基金重点项目(61836013);中国烟草总公司科技重大专项(110201801019(SJ-01))。
摘    要:复杂流程的大数据处理多依托于流水线系统,但大数据处理的流水线系统在易用性、功能复用性、扩展性以及处理性能等方面存在不足。针对上述问题,为提高大数据处理环境的构建与开发效率,优化处理流程,提出了一种模型驱动的大数据流水线框架PiFlow。首先,将大数据处理过程抽象为有向无环图;然后,开发一系列组件用于构建数据处理流水线,并设计了流水线任务执行机制。同时,为规范和简化流水线框架的描述,设计了基于模型驱动的大数据流水线描述语言--PiFlowDL,该语言以模块化、层次化的方式对大数据处理任务进行描述。PiFlow以所见即所得(WYSIWYG)的方式配置流水线,集成了状态监控、模板配置、组件集成等功能,与Apache NiFi相比有2~7倍的性能提升。

关 键 词:大数据  流水线  流水线调度  模型驱动的开发方法  数据处理
收稿时间:2019-10-22
修稿时间:2020-01-13

PiFlow: model driven big data pipeline framework
ZHU Xiaojie,ZHAO Zihao,DU Yi.PiFlow: model driven big data pipeline framework[J].journal of Computer Applications,2020,40(6):1638-1647.
Authors:ZHU Xiaojie  ZHAO Zihao  DU Yi
Affiliation:1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
Abstract:
Keywords:big data                                                                                                                        pipeline                                                                                                                        pipeline scheduling                                                                                                                        model driven development method                                                                                                                        data processing
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号