共查询到20条相似文献,搜索用时 156 毫秒
1.
检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。 相似文献
2.
桑莉莉 《计算机应用与软件》2010,27(3):139-141
容错技术已经成为工作流的研究热点,设置检查点是一种常用的容错方法。针对工作流系统提出一种适应性检查点机制,该机制通过最优化检查点数量和动态设置检查点间隔,大大提高了错误发生情况下任务按时完成的比率,并通过实验验证了该机制优于传统的检查点机制。 相似文献
3.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。 相似文献
4.
检查点机制在现代并行分布式计算中有着重要的应用。本文介绍了一种基于Linux的检查点系统的设计和实现方法,它对系统容错、进程迁移和动态负载平衡的研究都具有重要的意义。 相似文献
5.
6.
7.
张至柔 《计算机工程与设计》2008,29(14)
在由机构内部空闲计算机组成的为计算移动Agent提供服务的网格计算服务系统中减少容错开销,提高计算效率是一个重要的问题.一个具有非封闭、非阻塞、低开销等优势的新检查点算法被提出,且该算法的同步垃圾收集过程可以避免不同进程间在确立新检查点、抛弃旧检查点时的不同步造成的不一致状态.实验结果表明,该算法的开销与系统节点数量呈线性关系. 相似文献
8.
9.
10.
一种新的优化的检查点间隔的求解模型 总被引:1,自引:0,他引:1
在具有容错功能的高性能计算环境中,由于加入检查点机制会给系统引入额外负载,检查点间隔的适当选定能使系统性能优化,Vaidya的贡献是用他的模型得出的检查点间隔的求解等式独立于检查点潜伏时间(L)及检查点恢复时间(R),本文介绍了一种新的基于时间分段的模型NSBM,引入了系统平均利用率这一容错领域更易理解的概念代替Vaidya模型中的平均负载率并推导出了也是独立于LR的求解等等式,实验结果表明NSBM的求解模型比Vaidya的求解模型更优化。 相似文献
11.
容错计算网格作业调度模型的研究 总被引:14,自引:1,他引:14
网格技术的发展对网格系统的效率和服务质量提出了更高要求.在综合研究目前网格作业调度环境的基础上,提出一种容错计算网格作业调度的随机Petri网模型,并给出了网格作业分派策略和计算站点内的作业选择策略,以及容错计算网格的性能评价指标.仿真实验对容错计算网格的性能进行有效的分析,反映故障对网格中不同类别作业的影响. 相似文献
12.
13.
Grid computing emerges as effective technologies to couple geographically dis-tributed resources and solve large-scale computational problems in wide area networks. The fault tolerance is a significant and complex issue in grid computing systems. Various techniques have been investigated to detect and correct faults in distributed computing systems. Unreliable fault detection is one of the most effective techniques. Globus as a grid middleware manages resources in a wide area network. The Globns fault detection service uses the well-known techniques basedon unreliable fault detectors to detect and report component failures. However, more powerful techniques are required to detect and correct both system-level and application-level faults in agrid system, and a convenient toolkit is also needed to maintain the consistency in the grid. Afault-tolerant grid platform (FTGP) based on an unreliable fault detector and the Globus faultdetection service is presented in this paper. The platform offers effective strategies in such threeaspects as grid key components, user tasks, and high-level applications. 相似文献
14.
网格计算环境下分布并行计算的一种实现方法 总被引:3,自引:1,他引:2
网格计算为人们处理很多复杂问题提供了新方法。文章利用GlobusToolkit来构建网格计算环境,并把它扩展为分布并行计算的支撑环境,为实现分布并行计算提供了新方法。讨论了任务分布、系统通信和容错机制等关键问题。最后给出了基于网格计算环境下的一个分布并行计算实例,取得了令人满意的实验结果。 相似文献
15.
16.
为了提高嵌入式系统在恶劣环境下的可靠性,除了在硬件上采用诸如双机冷备份之类的容错方案外,在实时操作系统级提供软件容错处理功能既可以减小硬件资源开销,又可以在不影响系统工作效率的前提下明显提高系统的容错纠错能力.本文针对RTEMS实时操作系统缺乏软件容错支持功能的不足,在操作系统级设计了一套两级软件容错的方案,提高了嵌入式系统的可靠性. 相似文献
17.
引入域和资源路由节点的概念,设置最小代价函数对网格资源进行分层按域划分,形成一种基于最小代价的分层次网格资源发现模型;并为模型设计了相应的资源路由器节点选择算法、资源注册和查询算法。性能分析和模拟实验结果表明,模型具有良好的可扩展性和容错性,且系统代价低;模型能够在屏蔽网格资源异构性的同时很好地满足其动态性、分布性和扩展性的要求,具有较高的资源搜索性能。 相似文献
18.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。 相似文献
19.
张啸川 《计算机工程与设计》2007,28(20):5001-5005
为集中和有效管理企业网格中的资源,提出了多级资源管理模型,该模型能根据系统规模大小调整资源管理树的深度和广度,模型中的中级调度器间的交互提高了系统的容错性.多级资源管理模型应用在JMS中,解决了资源描述、资源需求描述、资源查询和资源匹配等问题,为实现有效利用企业IT资源的目标提供了理论基础和技术保障. 相似文献
20.
P2P与网格的互补性研究 总被引:9,自引:0,他引:9
P2P与网格都是新型的分布式计算模型,它们的总体目标相似,对P2P和网格模型中的安全性、连通性、访问服务、资源发现与管理、容错以及协同性等几个重要问题进行分析,为将P2P模型中的技术应用到网格中来创造条件。采用P2P协议和模型来处理网格计算,并利用P2P与网格技术之间的协同和互补来构建高性能的分布式系统,从而增加网格的可扩展性,实现非分层的分散网格系统。 相似文献