期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

霍志刚马捷孙凝晖《计算机工程》2007,33(5):217-219

在大规模机群环境下，检查点和恢复机制是一种必不可少的容错技术。该文提出一种基于机群通信系统的可靠性机制，在不作全局同步的情况下获取通信系统全局状态的方法，并利用该方法实现了一个对应用程序透明的并行检查点系统。该系统通过底层通信系统的支持降低了并行检查点的实现复杂度和执行开销，适用于大规模机群应用。相似文献

2.

分布式系统检查点算法中程序卷回时文件系统的状态恢复 总被引：3，自引：0，他引：3

沙丽杰武秀川韦鹓《计算机工程与应用》2002,38(17):131-134

检查点技术,也称为“回溯恢复”,是软件容错的重要手段,它主要用于保存和恢复程序的运行状态。在分布式计算和并行计算系统中有十分重要的作用。该文从减少检查点的开销角度,对分布式系统检查点算法中关于程序卷回时文件系统状态的恢复问题进行了分析讨论和进一步的研究。相似文献

3.

设置进程检查点的嵌入式容错系统设计

王福友杨斌《单片机与嵌入式系统应用》2014,(8):10-12

针对嵌入式Linux系统的特点,通过设置检查点(checkpoint)实现ARM平台进程级容错。在检查点工作时,通过/proc文件系统与内核进行交互,实时地获取与进程有关的PID、CPU状态以及内存信息,并保存在存储介质中。当进程出现故障后,将上述与进程有关的状态信息进行恢复,从而实现进程级容错。实验表明,该进程级容错系统有较好的容错能力,极大地缩短了进程恢复的时间。相似文献

4.

超步诱导的回卷恢复

丁俊童维勤《小型微型计算机系统》2002,23(6):731-735

工作站机群系统已成为分布式并行处理发展的主流方向之一，随着机群系统应用领域的逐渐拓展和规模的不断扩大，人们对其可靠性的要求日益提高，设计高可靠的群机系统，需要着重研究其系统容错技术，本文叙述了并行异构回卷恢复和检查点派生，实现透明的可移植容错和负载均衡能力，避免调整检查点就构成全局一致性状态，不仅使BSP应用程序自治容错能力，而且能够在机群（Clusters）间迁移，保持系统负载均衡，重点介绍了检查点设置，检查点派生、卷回、进程迁移技术。相似文献

5.

超步透导的回卷恢复

丁俊童维勤《小型微型计算机系统》2002,23(6):731-735

工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术相似文献

6.

网格环境中检查点技术的研究与实现

梁鸿曾科宏《计算机系统应用》2007,16(4):46-49

检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。相似文献

7.

基于内存缓存的异步检查点容错技术

易会战王锋左克杨灿群杜云飞马亚青《计算机研究与发展》2014,51(6):1229-1239

高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统.利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性. 相似文献

8.

基于数据库的机群检查点的研究与实现 总被引：1，自引：0，他引：1

武剑锋戈弋李三立《小型微型计算机系统》2002,23(3):257-261

本文提出一种新的应用级机群检查点实现方案 .给出了与现有方案不同的方法 :首先 ,采用关系数据库系统来代替以前采用文件的方式来存储机群系统的检查点、管理数据、资源情况等信息 ,便于数据的索引与归一化 ,并且 ,当数据规模非常大时 ,数据库支持的访问速度要优于基于文件系统的访问速度 .其次 ,采用独立的服务器 ,使得这些检查点以及其他相关操作对机群系统本身的运算影响最小 ,并且对这个独立的管理服务器作镜像容错处理 ,在成本和效率上要优于为每个计算节点作镜像容错处理相似文献

9.

WindowsNT环境下的进程检查点设置与回卷恢复 总被引：6，自引：0，他引：6

张悠慧汪东升郑纬民《计算机研究与发展》2001,38(1):50-55

阐述了WindowsNT环境下应用程序的检查点设置与回卷恢复机制,并介绍了设计和实现的检查点设置与恢复工具WinNTCkp.WinNTCkpt采用标准WindowsAPI函数,通过代码动态注入和对系统调用进行包裹的方法进行检查点设置与回卷恢复。与同类工具相比,WinNTCkpt具有不需修改应用程序源代码,不需对应用程序进行重新编译或连接,支持对用户文件内容的检查设置与回卷恢复的特点。WinNTCkpt是正在研制开发的高可用性机群计算环境的核心,也是在机群环境下实现进程迁移和负载平衡的技术基础。相似文献

10.

一种新的优化的检查点间隔的求解模型 总被引：1，自引：0，他引：1

蒋廷耀李庆华《小型微型计算机系统》2003,24(3):448-451

在具有容错功能的高性能计算环境中，由于加入检查点机制会给系统引入额外负载，检查点间隔的适当选定能使系统性能优化，Vaidya的贡献是用他的模型得出的检查点间隔的求解等式独立于检查点潜伏时间（L）及检查点恢复时间（R），本文介绍了一种新的基于时间分段的模型NSBM，引入了系统平均利用率这一容错领域更易理解的概念代替Vaidya模型中的平均负载率并推导出了也是独立于LＲ的求解等等式，实验结果表明NSBM的求解模型比Vaidya的求解模型更优化。相似文献

11.

SCR algorithm: Saving/restoring states of file systems

下载免费PDF全文

魏晓辉鞠九滨《计算机科学技术学报》2000,15(4):0-0

Fault-tolerance is very important in cluster computing and has been implemented in many famous cluster-computing systems using checkpoint/restart mechanisms,But existent check-pointing algorithms cannot restore the states of a file system when roll-backing the running of a program,so there are many restrictions on file accesses in existent fault-tolerance systems.SCR algorithm,an algorithm based on atomic operation and consistent schedule,which can restore the states of file systems,is presented into idem-potent operations and non-idem-potent operations.systems are classified into idem-potent operations and non-idem-potent operations.A non-idem-potent operation modifies a file system‘s states,while an idem-potent operation does not.SCR algorithm tracks changes of the file system states.It logs each non-idem-potent operation used by user programs and the information that can restore the operation in disks.When check-pointing roll-backing the program,SCR algorithm will revert the file system states to the last checkpoint time.By using SCR algorithm,users are allowed to use any file operation in their programs. 相似文献

12.

InfiniBand Ⅲ型集群系统可视化监测工具的实现方法 总被引：1，自引：0，他引：1

王文义阴斐王若雨《计算机工程与应用》2005,41(22):87-90,156

随着集群系统的广泛应用,用户对系统的综合性能要求显得越来越重要。该文在基于InfiniBand[1]ⅢPC集群的平台上,通过对目前常用的监测系统的分析,针对它们所共有的一些不足之处,在其基础上开发了一个实用的对并行处理过程的可视化监测工具。工具通过lm_sensors获取硬件信息,以proc文件获取负载信息,并通过MPE生成记录并行程序执行过程的log文件,具有能以图形方式实时显示硬件信息和系统节点负载信息,以及需要时可以用图形方式重现程序执行过程的功能。相似文献

13.

资源管理系统中基于作业检查点的自动容错

下载免费PDF全文

曹宏嘉卢宇彤谢旻《计算机工程与科学》2009,31(11)

本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间。相似文献

14.

SFT:一个具有较短冻结时间的一致检查点算法 总被引：1，自引：0，他引：1

魏晓辉鞠九滨《计算机学报》1999,22(6):645-650

介绍了一个基于消息记录的一致检查点算法－ＳＦＴ算法,ＳＦＴ算法能够实现分布式系统的容错,该算法具有无多米诺效应,冻结时间短,开销小和重启动算法简单的优点,ＳＦＴ的ＩＰＣ机制基于ＰＶＭ,能够保证消息的有序到达,并且其消息的发送和接收操作都是原子操作,另外,ＩＰＣ机制中进程的ｉｄ值编码与所在机器无关,这样一个过程即使从故障机器迁移到其它机器上运行仍可与其它进程继续通信,为提高检查点操作的并行性,ＳＦＴ相似文献

15.

Transparent migration of Java-based mobile agents: Capturing and re-establishing the state of Java programs

Stefan Fünfrocken 《Personal and Ubiquitous Computing》1998,2(2):109-116

In this paper we describe a way to save and restore the state of a running Java program. We achieve this on the language level, without modifying the Java virtual machine, by instrumenting the programmer's original code with a preprocessor. The automatically inserted code saves the runtime information when the program requests state saving and re-establishes the program's runtime state on restart. The current preprocessor prototype is used in a mobile agent scenario to offer transparent agent migration for Java-based mobile agents, but could generally be used to save and re-establish the execution state of any Java program. 相似文献

16.

基于虚拟文件操作的文件检查点设置 总被引：1，自引：0，他引：1

刘少锋汪东升朱晶《软件学报》2002,13(8):1528-1533

实现分布/并行系统容错的基础是单进程检查点设置和卷回恢复技术,而对活动文件信息进行保存和恢复则是这种技术的重要方面.提出一种虚拟文件操作策略,实现了对用户文件的检查点设置,有效地解决了发生故障时用户文件内容与进程全局状态的不一致的问题.该方法通过文件块式管理、检查点分布操作等技术,使得在空间开销、正常运行时间、恢复时间等性能指标上优于其他方法,并且具有对用户透明、可最大限度地保留已完成工作的特点. 相似文献

17.

容器热迁移的快速内存同步技术

游强志胡怀湘陈相宇《计算机与现代化》2022,(1):17-22

容器热迁移是云平台负载均衡技术的基础,也是集群故障管理、底层系统维护的重要保障。目前容器热迁移的实现主要基于checkpoint/restore机制,即对正在运行的容器做检查点操作,随后停止容器,传输镜像文件至目的主机后恢复,迁移消耗时间包括检查点时间、传输时间和恢复时间。为了减少容器热迁移的停机时间和减小传输消耗,本文设计并实现一种基于预拷贝（pre-copy）迁移算法的容器热迁移方案,并且采用快速内存同步关键技术,该技术包含3种方法：细粒度脏内存识别、脏内存压缩传输、提前合并增量内存。实验表明,本文所提出的方案及优化技术可以明显减少停机时间和传输开销。相似文献

18.

Windows NT Clustering Service

Gamache R. Short R. Massa M. 《Computer》1998,31(10):55-62

The Windows NT Clustering Service supports high-availability file servers, databases, and generic applications and services. A cluster is a collection of computer nodes-independent, self-contained computer systems-that work together to provide a more reliable and powerful system than a single node. In general, the goal of a cluster is to distribute a computing load over several systems, without users or system administrators being aware of the independent systems running the services. The Windows NT Clustering Service detects and restarts failed hardware or software components or migrates the failed component's functionality to another node if local restart is not possible. It also offers a much simpler user and programming interface. Microsoft Cluster Service for Windows NT has been shipping for about a year on Windows NT version 4.0. The upcoming Windows NT 5.0 release of Windows NT Clustering Service will improve ease of use through a wizard that guides the user through the creation of cluster resources 相似文献