首页 | 本学科首页   官方微博 | 高级检索  
     

提升大规模集群上并行计算软件系统可靠性和服务性的方法与实践
作者姓名:林彦宇  陈虎  苗军  韩佳龙媚  赖路双
作者单位:(华南理工大学软件学院,广东 广州 510006)
摘    要:大规模集群上的并行计算软件需要具备处理部分节点、网络等失效的容错能力,也需要具有易于管理、维护、移植和可扩展的服务能力。针对星形计算模型,研究和开发了一套并行计算框架。利用调度节点内部的可变粒度分解器、相关队列等方法,实现了全系统容错,且具有较好的易用性、可移植性和可扩展性。系统目前可以实现300TFlops计算能力下连续运行超过150h,而且还具有进一步的可扩展能力。

关 键 词:可靠性  可扩展性  服务性  大规模集群  并行计算软件
收稿时间:2013-09-24
修稿时间:2013-12-18
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号