共查询到15条相似文献,搜索用时 93 毫秒
1.
工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术 相似文献
2.
工作站机群系统已成为分布式并行处理发展的主流方向之一,随着机群系统应用领域的逐渐拓展和规模的不断扩大,人们对其可靠性的要求日益提高,设计高可靠的群机系统,需要着重研究其系统容错技术,本文叙述了并行异构回卷恢复和检查点派生,实现透明的可移植容错和负载均衡能力,避免调整检查点就构成全局一致性状态,不仅使BSP应用程序自治容错能力,而且能够在机群(Clusters)间迁移,保持系统负载均衡,重点介绍了检查点设置,检查点派生、卷回、进程迁移技术。 相似文献
3.
工作站网络系统进程迁移机制 总被引:2,自引:0,他引:2
进程迁移是工作站网络系统实现负载平衡、提高系统可用性功能的重要手段.该文提出了一种基于接收/发送方消息记录的进程迁移技术.它在消息传递库PVM(parallel virtual machine)之上实现,具有对用户程序透明、可移植性好、开销小和实现简单等特点.此技术已实际应用于作者自行研制的“并行程序运行回卷恢复与进程迁移系统—ChaRM(checkpointing-based rollback recovery and migration system)”中. 相似文献
4.
5.
设置检查点是保存和恢复进程运行状态的一种重要技术,是实现容错、卷回调试和进程迁移的重要手段。本文研究了全透明检查点系统Epckpt在系统Ⅴ共享内存方面的实现方法和不足,给出了自己的改进,从而更好地实现了系统Ⅴ共享内存的保存与恢复。 相似文献
6.
Unix进程检查点设置关键技术 总被引:4,自引:0,他引:4
Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自行设计的Libcsm等检查点设置工具。 相似文献
7.
针对空中交通管制系统(ATC)中对飞行数据集群处理的可靠性要求,提出了一种基于Linux的用户级进程检查点设置与恢复方案.对基于该Linux用户级的进程检查点的飞行数据集群处理的各个主要模块进行了介绍,在此基础上给出了系统设计框架.从进程的初始化数据段、堆、栈和打开的文件的保存与恢复,给出了该方案的详细实现方法.该进程检查点设置与恢复方案不但可以在主机崩溃重启后恢复进程在重启前的运行状态,更重要的是可以在分布式系统通过进程迁移将保存的进程检查点迁移到其它主机运行,从而有效的提高系统的可靠性,减少运算损失. 相似文献
8.
Solaris系统多线程检查点设置与卷回恢复 总被引:1,自引:0,他引:1
文章利用UNIX进程检查点设置思想,结合多线程在Solaris系统中的实现特点,提出了一种适合于Solaris操作系统的多线程检查点设置与恢复技术,其检查点设置与恢复技术具有在用户级实现、对用户透明和简单高效的特点。文章主要介绍检查点信息的保存与恢复、函数换名、包裹,线程号映射等关键技术。 相似文献
9.
10.
WindowsNT环境下的进程检查点设置与回卷恢复 总被引:6,自引:0,他引:6
阐述了WindowsNT环境下应用程序的检查点设置与回卷恢复机制,并介绍了设计和实现的检查点设置与恢复工具WinNTCkp.WinNTCkpt采用标准WindowsAPI函数,通过代码动态注入和对系统调用进行包裹的方法进行检查点设置与回卷恢复。与同类工具相比,WinNTCkpt具有不需修改应用程序源代码,不需对应用程序进行重新编译或连接,支持对用户文件内容的检查设置与回卷恢复的特点。WinNTCkpt是正在研制开发的高可用性机群计算环境的核心,也是在机群环境下实现进程迁移和负载平衡的技术基础。 相似文献
11.
为了解决分布式计算系统回卷恢复容错的验证评估问题,设计一种分布式计算系统的回卷恢复容错算法的仿真机制,依据分布式计算系统回卷恢复容错的总体架构,将分布式计算系统中的节点任务过程使用离散事件模拟,在网络系统仿真工具的应用层增加支持多任务回卷恢复容错仿真的模块,并设计用于回卷恢复容错仿真的结构、功能模块和系统参数设定。结果表明本文提出的仿真机制能够实现分布式计算系统的回卷恢复容错算法的模拟验证,为不同容错算法间对比、改进与优化提供参照。
相似文献
12.
一个动态自适应的迁移和协同调度模型 总被引:4,自引:1,他引:4
本文基于工作站网络NOW(networksofworkstations)的特性,提出一个自适应可伸缩的进程迁移和协同凋度模型DASIC(dynamicadaptivescalableprocessmigrationandcoscheduling),试图解决其动态自适应要求越来越高的问题.DASIC模型在系统协同调度的基础上增加动态自适应的可伸缩功能,使其能够动态适应NOW环境下的变化,进行可伸缩的调度和负载平衡凋节.在保证工作站用户独占特性的同时,提高了整个系统资源的利用率,为当前NOW环境中系统资源充分 相似文献
13.
14.
15.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。 相似文献