首页 | 本学科首页   官方微博 | 高级检索  
     

云原生数据湖服务平台的设计与实现
作者姓名:魏文定  鄂海红  王曦  宋美娜  宿兴辉
作者单位:1. 北京邮电大学计算机学院(国家示范性软件学院);2. 中国科学院信息工程研究所
基金项目:国家自然科学基金(62176026);;北京自然科学基金(M22009);
摘    要:云原生数据湖已经成为数据管理和分析领域的研究热点,相关技术和应用也得到了广泛的关注和探索。数据湖部署存在着成本高、组件之间兼容性差等问题,存算不分离制约着数据湖平台延展性,缺乏完备的数据入湖体系容易引起数据湖沼泽的形成,导致用户无法从中提取数据价值。该文设计并实现了云原生数据湖服务平台,平台以Kubernetes为底层构建云原生环境,结合容器技术将数据湖组件镜像化,同时设计数据湖存算分离方案来提高数据湖平台的可扩展性和可移植性,并配合监控、组装生产线将镜像容器化,实现数据湖上云操作。并建立用户入湖作业与云原生计算引擎之间的桥梁,对入湖信息进行预处理,提供多类型作业以满足多元化入湖场景,以统一catalog的方式将数据写入数据湖中。实际运行结果表明,该平台既提高了数据湖平台的灵活性和可靠性,又确保了元数据和数据资产的规范性存储。

关 键 词:云原生  数据湖  大数据  生产线  数据湖上云
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号