基于Kubernetes的分布式TensorFlow平台的设计与实现 |
| |
作者姓名: | 余昌发 程学林 杨小虎 |
| |
作者单位: | 浙江大学软件学院 杭州310027,浙江大学软件学院 杭州310027,浙江大学软件学院 杭州310027 |
| |
基金项目: | 本文受中央高校基本科研业务费专项资金,国家科技支撑计划:公共文化科技服务能力建设与绩效评估技术研究与示范(2015BAK26B00)资助 |
| |
摘 要: | 文中介绍了基于Kubernetes的分布式TensorFlow平台的设计与实现,针对分布式TensorFlow存在的环境配置复杂、底层物理资源分布不均、训练效率过低、模型研发周期长等问题,提出了一种容器化TensorFlow的方法,并基于Kubernetes容器PaaS平台来统一调度管理TensorFlow容器。 文中将Kubernetes和TensorFlow的优点相结合,由Kubernetes提供可靠、稳定的计算环境,以充分发挥TensorFlow异构的优势,极大地降低了大规模使用的难度,同时建立了一个敏捷的管理平台,实现了分布式TensorFlow资源的快速分配、一键部署、秒级启动、动态伸缩、高效训练等。
|
关 键 词: | TensorFlow Kubernetes Docker 深度学习 |
|
|