首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
张琳  杨静 《计算机应用》2004,24(7):16-17,21
检查点机制作为一种软件容错机制,可以与新出现的广域分布式系统网格相结合,更好地满足网格系统的容错要求。文中详细分析了检查点回卷恢复协议的关键点,并对数据网格中GridCPR API进行了解析,提出一些改进,这样就更有利于网格系统的故障检测和容错服务。  相似文献   

2.
MPI是大规模集群和网格平台中最通用的编程环境,但其运行环境经常会因为节点或网络的故障而出现错误,所以有必要为MPI编程提供容错机制。本文分析了实现MPI程序容错的关键技术,并针对运行MPICH-P4的LINUX集群,利用检查点和消息日志技术,通过改造和扩充MPI底层的P4通信库,提出了一套MPI程序容错系统的具体实施方案。  相似文献   

3.
为了确保并行程序能够在并行环境下准确地运行,须提高系统的可靠性,将容错技术应用到并行计算中。该文针对MPI并行程序提出一种容错系统的设计方法,采用检查点/卷回恢复技术、并添加故障检测功能,能够有效地处理节点失效故障和进程失效故障,在一定范围内实现容错,为MPI环境下进行大规模计算提供一个可使用的应用模型。  相似文献   

4.
容错系统中文件状态的保存与恢复算法   总被引:1,自引:0,他引:1  
在机群计算环境中实现容错是人们日益关心的热点。许多著名的机群计算环境都使用检查点实现了容错的功能。但目前的检查点算法在使程序卷回执行的同时,不能相应地恢复文件系统的状态,因而对应用程序访问文件系统有较多的限制。本文在原子操作和并发控制的基础上,提出了能够恢复文件系统状态的SCR算法,进一步发展了文件系统可恢复性的概念,SCR算法与检查点机制结合使用,便可支持分布式应用程序在容错运行时对文件系统的任  相似文献   

5.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。  相似文献   

6.
移动计算容错行为研究   总被引:1,自引:0,他引:1  
移动计算作为新兴技术正在迅速发展。与有线固定环境相比,移动环境中的无线网络连接更加脆弱,移动主机可靠性差,由此在移动计算环境中引入实现错误恢复的机制显得尤为重要。文章详细分析了移动计算的环境及其特点,介绍基于检查点和日志的容错技术,基于移动Agent的容错技术,并作了相关的比较。  相似文献   

7.
容错服务是分布计算系统正常运作的有力保障。该文在一个基于多Agent的校园网格计算原型系统基础上,根据网格计算以及网格应用的本质,提出了网格容错服务的特征,采用Agent分而治之,自主容错的策略,将自主容错服务作为基础服务部署在校园网格计算原型系统的三个Agent层上,并对其实现和运作机制进行了详细的论述。  相似文献   

8.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。  相似文献   

9.
李春江  肖侬  杨学军 《计算机工程》2005,31(10):57-59,102
分析了计算网格环境中实现检查点机制的特殊性,提出了一种新的应用级检查点方法:基于作业进展描述的检查点方法。介绍了这种检查点方法的基本思想,定义了构成作业进展描述的作业进展状态对象和作业进展描述对象,这些对象的方法构成了检查点API;讨论了检查点作业的构建。  相似文献   

10.
容错问题是大规模并行程序长时间运行中不可回避的问题,超级计算机中异构计算部件的加入使得该问题更加复杂。考察由CPU和GPU组成的异构并行系统中应用程序的容错,利用Charm++并行编程模型和CUDA的并行计算架构,对大规模计算宇宙学软件WIGEON进行重构。针对异构并行系统中存在的fail-stop硬件故障,设计并实现了内存检查点的应用容错机制。支持计算恢复后对产生变化的CPU/GPU资源配置进行自适应负载调整。通过在高性能计算机Mole8.5上的实验和分析,验证了异构容错方案的高效性和可行性,故障恢复时间仅需1~4 s。此外,使用分布式冗余数据改进了Charm++现有内存检查点存储模式,对比原有Double-in-Memory机制,性能未受影响,且最多降低了50%的额外内存使用量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号