首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。  相似文献   

2.
容错技术已经成为工作流的研究热点,设置检查点是一种常用的容错方法。针对工作流系统提出一种适应性检查点机制,该机制通过最优化检查点数量和动态设置检查点间隔,大大提高了错误发生情况下任务按时完成的比率,并通过实验验证了该机制优于传统的检查点机制。  相似文献   

3.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。  相似文献   

4.
检查点机制在现代并行分布式计算中有着重要的应用。本文介绍了一种基于Linux的检查点系统的设计和实现方法,它对系统容错、进程迁移和动态负载平衡的研究都具有重要的意义。  相似文献   

5.
李春江  肖侬  杨学军 《计算机工程》2005,31(10):57-59,102
分析了计算网格环境中实现检查点机制的特殊性,提出了一种新的应用级检查点方法:基于作业进展描述的检查点方法。介绍了这种检查点方法的基本思想,定义了构成作业进展描述的作业进展状态对象和作业进展描述对象,这些对象的方法构成了检查点API;讨论了检查点作业的构建。  相似文献   

6.
检查点是一种重要的系统容错机制,可以对运行进程的状态进行保存与恢复.本文通过链接Condor系统的检查点库,在网络模拟器NS-2中实现了用户级透明检查点.提高了NS-2的容错能力,以及在长时间模拟方面的性能.并通过特定网络模拟场景中的实验测试,对网络拓扑中节点、链路的数量对检查点时空开销的影响进行了分析.  相似文献   

7.
在由机构内部空闲计算机组成的为计算移动Agent提供服务的网格计算服务系统中减少容错开销,提高计算效率是一个重要的问题.一个具有非封闭、非阻塞、低开销等优势的新检查点算法被提出,且该算法的同步垃圾收集过程可以避免不同进程间在确立新检查点、抛弃旧检查点时的不同步造成的不一致状态.实验结果表明,该算法的开销与系统节点数量呈线性关系.  相似文献   

8.
双机容错系统中最佳检查点间隔的分析   总被引:2,自引:0,他引:2       下载免费PDF全文
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。  相似文献   

9.
在大规模机群环境下,检查点和恢复机制是一种必不可少的容错技术。该文提出一种基于机群通信系统的可靠性机制,在不作全局同步的情况下获取通信系统全局状态的方法,并利用该方法实现了一个对应用程序透明的并行检查点系统。该系统通过底层通信系统的支持降低了并行检查点的实现复杂度和执行开销,适用于大规模机群应用。  相似文献   

10.
一种新的优化的检查点间隔的求解模型   总被引:1,自引:0,他引:1  
在具有容错功能的高性能计算环境中,由于加入检查点机制会给系统引入额外负载,检查点间隔的适当选定能使系统性能优化,Vaidya的贡献是用他的模型得出的检查点间隔的求解等式独立于检查点潜伏时间(L)及检查点恢复时间(R),本文介绍了一种新的基于时间分段的模型NSBM,引入了系统平均利用率这一容错领域更易理解的概念代替Vaidya模型中的平均负载率并推导出了也是独立于LR的求解等等式,实验结果表明NSBM的求解模型比Vaidya的求解模型更优化。  相似文献   

11.
容错计算网格作业调度模型的研究   总被引:14,自引:1,他引:14  
网格技术的发展对网格系统的效率和服务质量提出了更高要求.在综合研究目前网格作业调度环境的基础上,提出一种容错计算网格作业调度的随机Petri网模型,并给出了网格作业分派策略和计算站点内的作业选择策略,以及容错计算网格的性能评价指标.仿真实验对容错计算网格的性能进行有效的分析,反映故障对网格中不同类别作业的影响.  相似文献   

12.
错误的频繁发生已经成为阻碍网格稳健发展和大规模应用的主要障碍之一,网格系统的容错性研究显得尤为重要。根据网格计算的特点,提出了网格环境下的特殊容错需求;结合用户的服务质量要求,建立了包括网格错误检测与网格错误管理的动态容错服务架构,阐述了错误检测服务与错误管理服务的组织结构、各组成模块的具体功能;最后,给出了一个完整的容错服务实现过程。  相似文献   

13.
Fault-tolerant grid architecture and practice   总被引:10,自引:0,他引:10       下载免费PDF全文
Grid computing emerges as effective technologies to couple geographically dis-tributed resources and solve large-scale computational problems in wide area networks. The fault tolerance is a significant and complex issue in grid computing systems. Various techniques have been investigated to detect and correct faults in distributed computing systems. Unreliable fault detection is one of the most effective techniques. Globus as a grid middleware manages resources in a wide area network. The Globns fault detection service uses the well-known techniques basedon unreliable fault detectors to detect and report component failures. However, more powerful techniques are required to detect and correct both system-level and application-level faults in agrid system, and a convenient toolkit is also needed to maintain the consistency in the grid. Afault-tolerant grid platform (FTGP) based on an unreliable fault detector and the Globus faultdetection service is presented in this paper. The platform offers effective strategies in such threeaspects as grid key components, user tasks, and high-level applications.  相似文献   

14.
网格计算环境下分布并行计算的一种实现方法   总被引:3,自引:1,他引:2  
网格计算为人们处理很多复杂问题提供了新方法。文章利用GlobusToolkit来构建网格计算环境,并把它扩展为分布并行计算的支撑环境,为实现分布并行计算提供了新方法。讨论了任务分布、系统通信和容错机制等关键问题。最后给出了基于网格计算环境下的一个分布并行计算实例,取得了令人满意的实验结果。  相似文献   

15.
使用不同管理系统的多机群系统不能实现资源共享、协同工作和自适应资源管理。针对该问题,该文利用网格的资源共享和动态分配特性,通过构建多机群资源管理中间件,设计并实现了基于网格技术的异构多机群系统。运行结果表明,以中间件集中、动态地管理和调度资源,该系统能够正确高效地工作,验证了网格技术和中间件设计概念在异构多机群系统方面的可行性。  相似文献   

16.
RTEMS嵌入式系统中的软件容错设计   总被引:1,自引:0,他引:1       下载免费PDF全文
为了提高嵌入式系统在恶劣环境下的可靠性,除了在硬件上采用诸如双机冷备份之类的容错方案外,在实时操作系统级提供软件容错处理功能既可以减小硬件资源开销,又可以在不影响系统工作效率的前提下明显提高系统的容错纠错能力.本文针对RTEMS实时操作系统缺乏软件容错支持功能的不足,在操作系统级设计了一套两级软件容错的方案,提高了嵌入式系统的可靠性.  相似文献   

17.
张忠平  贾倩 《计算机应用研究》2012,29(12):4683-4687
引入域和资源路由节点的概念,设置最小代价函数对网格资源进行分层按域划分,形成一种基于最小代价的分层次网格资源发现模型;并为模型设计了相应的资源路由器节点选择算法、资源注册和查询算法。性能分析和模拟实验结果表明,模型具有良好的可扩展性和容错性,且系统代价低;模型能够在屏蔽网格资源异构性的同时很好地满足其动态性、分布性和扩展性的要求,具有较高的资源搜索性能。  相似文献   

18.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。  相似文献   

19.
为集中和有效管理企业网格中的资源,提出了多级资源管理模型,该模型能根据系统规模大小调整资源管理树的深度和广度,模型中的中级调度器间的交互提高了系统的容错性.多级资源管理模型应用在JMS中,解决了资源描述、资源需求描述、资源查询和资源匹配等问题,为实现有效利用企业IT资源的目标提供了理论基础和技术保障.  相似文献   

20.
P2P与网格的互补性研究   总被引:9,自引:0,他引:9  
P2P与网格都是新型的分布式计算模型,它们的总体目标相似,对P2P和网格模型中的安全性、连通性、访问服务、资源发现与管理、容错以及协同性等几个重要问题进行分析,为将P2P模型中的技术应用到网格中来创造条件。采用P2P协议和模型来处理网格计算,并利用P2P与网格技术之间的协同和互补来构建高性能的分布式系统,从而增加网格的可扩展性,实现非分层的分散网格系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号