排序方式: 共有2条查询结果,搜索用时 15 毫秒
1
1.
GPU集群已经成为高性能计算的重要方式,特别对于计算密集型应用,具有成本低、性能高、功耗小的优势.为了解决GPU集群系统运行中的任务负载均衡问题,文中提出了一种面向计算密集型应用的异构GPU集群调度方法,该方法可以自动发现计算节点,并动态估计计算节点的计算能力,并根据计算能力、任务的计算强度和优先级在异构GPU集群上合理分配计算资源.同时,该系统还具有容错能力,能够处理计算节点的意外退出,可恢复意外退出计算节点的计算任务,并动态适应系统的计算规模.通过实验表明,文中采用的策略达到了预期目的 相似文献
2.
大规模集群上的并行计算软件需要具备处理部分节点、网络等失效的容错能力,也需要具有易于管理、维护、移植和可扩展的服务能力。针对星形计算模型,研究和开发了一套并行计算框架。利用调度节点内部的可变粒度分解器、相关队列等方法,实现了全系统容错,且具有较好的易用性、可移植性和可扩展性。系统目前可以实现300TFlops计算能力下连续运行超过150h,而且还具有进一步的可扩展能力。 相似文献
1