排序方式: 共有11条查询结果,搜索用时 187 毫秒
1.
2.
随着系统规模与集成度的快速增加,可靠性与可用性问题成为构建E级计算机系统所面临的重大挑战.针对神威太湖之光超级计算机可靠性与可用性设计与实现开展全面的分析.首先概要描述神威太湖之光超级计算机系统结构.其次,系统提出神威太湖之光超级计算机可靠性增强技术以及故障预测、主动迁移、任务局部降级等主被动容错技术,建立神威太湖之光超级计算机多层次主被动协同的容错系统.再次,根据系统故障统计信息,分析失效分布及主要失效来源,结合指数、对数正态与韦布尔3种典型寿命周期分布,对神威太湖之光系统故障间隔时间分布进行数据拟合分析.最大似然估计与K-S(Kolmogorov Smirnov)检验结果表明,对数正态分布与系统失效经验数据取得了最好的拟合度,建立神威太湖之光系统失效分布模型,并计算得出系统平均无故障时间.通过系统运行统计与实际应用测试,分析了故障预测精确度以及主动迁移、局部降低等容错技术的时间开销与容错效果.最后,在神威太湖之光超级计算机可靠性与可用性分析的基础上,提出E级计算机系统高可靠与高可用技术发展建议. 相似文献
3.
4.
5.
在高性能计算机系统中,10Gbps串行背板互连设计需求日益显现.作为超高频互连传输,10Gbps背板互连设计中准确仿真和有效分析其传输性能的难度越来越大.本文简要介绍10Gbps背板互连的设计难点,总结提出通道的判断标准.针对一种典型背板通道的设计进行建模和仿真,并通过S参数和传输眼图两种方式分析单通道的传输性能.同时,针对超高频信号串扰影响逐渐加大的现实,建立双通道模型,从S参数角度对近端和远端串扰进行分析,并从传输眼图的角度进行定量对比,结果表明两种分析结果能够符合一致,串扰影响完全可控.通道设计性能经测试可以满足10Gbps信号传输. 相似文献
6.
7.
高性能计算机的可靠性技术现状与趋势 总被引:5,自引:0,他引:5
随着高性能计算机系统性能的不断提升和硬件规模的不断扩大,如何实现系统的可靠运行,是高性能计算机尤其是P级计算机研制中面临的重要技术挑战.从高性能计算机对可靠性技术的需求出发,全面介绍了高性能计算机硬件设计中的可靠性技术现状,包括避错、静态冗余、动态冗余和在线替换等技术,详细分析了各种可靠性技术在典型机器中的应用情况;最后对高性能计算机可靠性技术的发展趋势进行了深入探讨,包括多核处理器的可靠性设计、全方位的内存防护技术和刀片式的冗余架构. 相似文献
8.
9.
高可靠性是计算机系统所要解决和实现的重要目标,而容错技术是提高可靠性的有效途径。章论述了可靠性的基本概念和3种故障模式;介绍了计算机容错设计所采用的硬件冗余、信息冗余和时间冗余技术,着重分析了RAID技术和纠错码技术;指出了计算机容错设计的发展趋势及面临的挑战。 相似文献
10.