首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于神威太湖之光和神威蓝光超级计算机的巨量内存故障统计数据,建立P级超级计算机的内存失效时间模型。采用序列规则挖掘方法,分析内存失效序列模式,得到CPU节点上内存失效序列与后续内存失效的关联关系。通过协同分析方法研究并行应用的内存故障与内存失效特征,结果表明计算-访存-I/O密集型应用对内存故障影响较大,而应用类型对内存失效的影响有限,内存失效可能与内存芯片自身的可靠性有关。  相似文献   

2.
在E级超级计算机发展过程中系统可靠性问题得到人们高度关注,因此,本文介绍了基于故障预测的数据采集框架,重点探讨了E级超级计算机故障预测的数据采集方法. 引言 随着科学技术的发展,人们对计算机的要求不断提高,随之出现了超级计算机,如:E级超级计算机,其部件多达数十万,为了避免故障出现,实践中常选用检查点技术,但因其保存与恢复开销较大,未能适应实际发展需求.目前,高性能计算容错方式主要两种,一种为被动容错,即:检查点技术,另一种为主动容错,即:低开销保护性技术,主要是指预测故障,提前迁移或复制进程.当前,常见的主动容错法有基于模型或数据驱动的故障预测,前者可用于小规模系统,后者适用于大规模系统,其实现的关键为获得系统故障有关数据,从而保证了预测精准性与合理性.  相似文献   

3.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。  相似文献   

4.
“神威·太湖之光”高效能计算机系统是世界上首台峰值运算速度超过 10 亿亿次量级的超级计算机,HPSEPS (High Performance Symmetric Eigenproblem Solvers) 是自主开发的大规模对称稠密矩阵特征问题并行求解器,包括标准对称稠密矩阵特征问题的并行计算方法, 对大规模数据问题的计算,表现出较好的性能,本文分别在中科院的“元”超级计算机上和神威·太湖之光超级计算机上进行了移植, 对比了两种超级计算机的系统性能, 并且在“神威·太湖之光”上分别链接适合其异构众核结构的 xMath 数学库和 mkl 数学库, 对求解器在链接两种不同数学库的计算机效果进行了测试与分析。  相似文献   

5.
神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R) Xeon(R) CPU E5-2695 v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。  相似文献   

6.
<正>随着神威·太湖之光以125P的峰值性能登顶Top500榜首,超级计算机研制中的一个重要里程碑结点100P系统已被攻克,下一个高峰"E级计算机"正成为各国竞逐的新目标。2016年科技部适时启动了E级计算重点专项,拉开了我国研制E级超级计算机(以下称E-HPC)的序幕。国防科技大学计算机学院牵头,联合相关单位承担了专项第一批唯一单列的基础前沿探索项目—面向E-HPC的新型高性能互连  相似文献   

7.
本文描述了神威E级原型机的互连网络和消息机制.神威E级原型机是继神威蓝光、神威·太湖之光之后神威家族的第三代计算机.该计算机作为一台E级计算机的原型机,峰值性能3.13 PFlops,其最大的特色之一就是采用28 Gbps传输技术,设计开发了新一代的神威高阶路由器和神威高性能网络接口两款芯片,在传统胖树的基础上,设计了双轨泛树拓扑结构,定义实现了新颖的神威消息原语和消息库,实现了一种基于包级粒度动态切换的双轨乱序消息机制,通信性能比神威·太湖之光互连网络提升了4倍,为神威E级计算机互连网络的研制奠定了基础.  相似文献   

8.
主动容错机制解决了被动容错冗余问题,实现了硬盘潜在故障的提前预测和主动处理,显著提高了存储系统的可靠性.然而,民航存储系统采用被动容错机制无法全面保障系统可靠性.本文利用主动容错机制的优势,基于硬盘故障预测模型构建了多副本民航存储系统状态转换模型.该模型全面考虑硬盘,节点和机架故障3个因素,采用韦布分布模拟民航存储系统事件的发生.根据系统状态转换模型,本文使用了改进的基于事件驱动的蒙特卡洛仿真方法,对民航存储系统进行了全面的可靠性分析.实验结果表明,本文模型显著提高了民航存储系统的可靠性.另外,敏感性分析得出主动和被动的结合机制有效延缓了系统可靠性下降的趋势,节约了网络带宽资源.  相似文献   

9.
节点崩溃或者仿真资源不足导致的分布式仿真系统故障,降低了仿真系统可靠性。为保证系统容错效果,降低容错开销,提出了一种基于虚拟化技术的仿真系统容错方法,按照系统故障发生的位置,对不同类型故障动态采用不同类型的容错策略。分析了检查点容错策略的优化方法,给出了最优设置间隔;结合虚拟化技术的优势,解决了副本容错策略的节点选择、副本数量以及位置分布问题;同时,引入基于虚拟机迁移的容错策略,并将其作为检查点容错策略和副本容错策略的补充,以降低容错开销。通过仿真实验数据对比,分析了动态容错策略与普通容错策略的性能,可知动态容错策略保证了系统容错性能,容错开销也保持在较低水平。  相似文献   

10.
为了提高系统的性能和可靠性,文中描述了计算机控制系统的两种容错方案:系统级三模冗余(TMR)方案和部件级三模冗余(TTMR)方案,给出了两种容错系统的马尔可夫模型,并利用MATLAB工具对描述可靠性的重要参数指标--可靠度进行了比较和分析.得出部件级容错计算机系统的可靠度受故障覆盖率C的影响比系统级容错计算机系统的小,在C相同的情况下,部件级容错计算机系统的可靠度比系统级容错计算机系统的可靠度高,因此部件级容错计算机系统比较易于实现.  相似文献   

11.
This article describes the rationale for the multiphase creative problem solving process, and reports the findings from an empirical investigation conducted to facilitate the problem solving of managers. The ideational skills of the managers were assessed before and after training in a complete process of creative problem solving, along with their ideational attitudes, creative problem solving style (i.e., generator, conceptualizer, optimizer, or implementor), and evaluative skill (i.e., ability to recognize original ideas). The most important findings indicated that the training had a significant impact on the evaluative accuracy of the managers. They were significantly more accurate in their judgments about original ideas after training, both in their identification of original ideas and their recognition of unoriginal ideas. After training, the managers also gave more solutions and more original solutions to problems. Finally, several variables (e.g., the “preference for active divergence” attitude, and the conceptualizer process style) seemed to moderate the impact of training. Training was therefore effective, with specific effects that can be predicted from pre-training individual differences in attitudes and process style.  相似文献   

12.
13.
为提高高等院校的管理水平和决策水平,充分利用校园网资 源,开发了高等院校行政财政分析与决策系统。解决了诸如数据的动态查询、自动生成报表 、网络环境下数据共享等技术问题,具有网上数据共享、图形界面友好和安全的保密措施等 特点。  相似文献   

14.
The deep connection between the Burrows–Wheeler transform (BWT) and the so-called rank and select data structures for symbol sequences is the basis of most successful approaches to compressed text indexing. Rank of a symbol at a given position equals the number of times the symbol appears in the corresponding prefix of the sequence. Select is the inverse, retrieving the positions of the symbol occurrences. It has been shown that improvements to rank/select algorithms, in combination with the BWT, turn into improved compressed text indexes.  相似文献   

15.
16.
17.
18.
19.
20.
A new method of stochastic model reduction has recently been introduced by Desai et al. [1], [2]. The stability of the reduced order model has not previously, been considered. In this paper, we show that the stability of the reduced order model follows directly from the results of Pernebo and Silverman [3]. It is also shown that the reduced order model is minimal, in the controllability/observability sense. The relevance of this notion of minimality to stochastic minimality is made clear.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号