首页 | 本学科首页   官方微博 | 高级检索  
     

神威超级计算机运行时故障定位方法
引用本文:高剑刚,郑岩,于康,彭达佳,李宏亮,刘勇,何王全,陈德训,王飞.神威超级计算机运行时故障定位方法[J].计算机研究与发展,2024(1):86-97.
作者姓名:高剑刚  郑岩  于康  彭达佳  李宏亮  刘勇  何王全  陈德训  王飞
作者单位:1. 国家并行计算机工程技术研究中心;2. 江南计算技术研究所
摘    要:随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑.

关 键 词:E级计算机  可靠性  错误定位  运行时  众核处理器
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号