共查询到20条相似文献,搜索用时 289 毫秒
1.
贾佳 《计算机工程与科学》2011,33(11)
应用级checkpointing技术是同构系统上最为常用和成熟的容错技术,但在异构系统下的应用还处于起步阶段,还没有一套严谨合理的针对异构系统架构和故障模型特点的实现方案和配置方法。针对这一现况,本文基于CUDA异构系统的体系结构和编程模型,对CUDA程序在CPU和GPU上的执行模式进行分析,提出了一种面向异构系统应用级checkpointing技术的异步执行机制,并基于这一机制对异构系统的检查点优化设置问题进行讨论,设计了一套优化方案。最后在CUDA平台下通过三个实例验证了这一技术的可行性和实用性,并进行了性能评估。结果表明,这种面向CPU-GPU的异构系统的应用级checkpointing异步执行机制是行之有效的,相比CPU-GPU同步执行的checkpointing机制在设置上更为灵活,优化空间更大。而本文基于这一机制所提出的检查点优化设置方法也有效地减少了check-pointing的开销,从而获得了更高的容错性能。 相似文献
2.
以异构系统的过程间相关性分析为基础,研究分析异构系统硬件故障在软件之中的传播行为,指导优化基于异构系统的应用级checkpointing检查点保存问题,并通过实验验证其可行性及性能,对异构系统的容错优化研究具有重大意义. 相似文献
3.
Solaris系统多线程检查点设置与卷回恢复 总被引:1,自引:0,他引:1
文章利用UNIX进程检查点设置思想,结合多线程在Solaris系统中的实现特点,提出了一种适合于Solaris操作系统的多线程检查点设置与恢复技术,其检查点设置与恢复技术具有在用户级实现、对用户透明和简单高效的特点。文章主要介绍检查点信息的保存与恢复、函数换名、包裹,线程号映射等关键技术。 相似文献
4.
5.
6.
检查点是并行系统中实现容错的重要手段,同步检查点方法已广泛应用在工作站机群系统中。PVM所提供的消息传递机制支持高效的异构网络计算,但不支持客错功能。为了降低同步检查点设置的时间开销,提出了一种基于PVM的准同步检查点设置方法,它吸取了同步检查点方法的优点,又通过消息记录方式实现各节点间独立进行状态保存,大大降低了检查点的同步开销,提高了检查点操作效率,该方法在PVM环境下得以实现,实验结果表明所提出的方法具有较好的客错性能。 相似文献
7.
桑莉莉 《计算机应用与软件》2010,27(3):139-141
容错技术已经成为工作流的研究热点,设置检查点是一种常用的容错方法。针对工作流系统提出一种适应性检查点机制,该机制通过最优化检查点数量和动态设置检查点间隔,大大提高了错误发生情况下任务按时完成的比率,并通过实验验证了该机制优于传统的检查点机制。 相似文献
8.
9.
减少检查点开销的一种方法 总被引:1,自引:0,他引:1
设置检查点(checkpointing)是容错计算机系统进行故障恢复的重要手段。设置检查点的开销则是影响其性能的一个主要因素。文章提出了一种预先保存部分检查点数据的新方法。该方法不仅能够有效地减少检查点开销,而且具有比较短的检查点延迟。 相似文献
10.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。 相似文献
11.
复杂失效分布下的动态检查点设置 总被引:1,自引:1,他引:0
检查点技术是保障计算机系统可靠性的一种常用方法.通常假定系统失效的发生服从泊松分布,因此检查点是等间隔设置的.但近几年公布的现场数据表明以上假定不合实际.因此,首先利用现场失效数据对固定检查点间距方法的适应性进行分析,并提出两种检查点动态设置方法,它们根据系统前个阶段的失效信息动态地设置下一个检查点.模拟实验结果表明,所提出的方法在复杂失效分布下所获得的效果达到或者优于最优固定检查点的水平. 相似文献
12.
13.
本文提出了一个圆片规模布局算法,它是国外一个相应算法的改进形式,区别在于利用力定向布局法的方式不同。在相对位置阶段,该算法利用布局的层次特性将需确定所有电路元件相对位置的问题缩减至仅需确定宏电路元件相对位置的问题;在实际位置阶段,采用分治策略和取消前阶段层次划分的方式回避了需确定任意元实际位置的问题.其时间复杂度远低于国外相应算法. 相似文献
14.
George Bosilca Aurlien Bouteiller Elisabeth Brunet Franck Cappello Jack Dongarra Amina Guermouche Thomas Herault Yves Robert Frdric Vivien Dounia Zaidouni 《Concurrency and Computation》2014,26(17):2772-2791
In this paper, we present a unified model for several well‐known checkpoint/restart protocols. The proposed model is generic enough to encompass both extremes of the checkpoint/restart space, from coordinated approaches to a variety of uncoordinated checkpoint strategies (with message logging). We identify a set of crucial parameters, instantiate them, and compare the expected efficiency of the fault tolerant protocols, for a given application/platform pair. We then propose a detailed analysis of several scenarios, including some of the most powerful currently available high performance computing platforms, as well as anticipated Exascale designs. The results of this analytical comparison are corroborated by a comprehensive set of simulations. Altogether, they outline comparative behaviors of checkpoint strategies at very large scale, thereby providing insight that is hardly accessible to direct experimentation. Copyright © 2013 John Wiley & Sons, Ltd. 相似文献
15.
大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序。基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法。测试结果表明,并行作业容错自动调度环境保证了checkpoint数据的完整性,并在应用程序出错退出以后,调度环境可以自动感知,自动提交运行作业,实现了并行作业无需用户干预的容错自动调度计算,避免了系统资源和计算时间的浪费。 相似文献
16.
17.
改进了一种求解集成电路模块布局问题的启发式算法。以边界矩形周长最小为目标,设计了模块的优先序列,并在布局过程中动态调整,重新设计布局优先度,并简化模块的占边动作,重写占角动作,对模块布局放置的多个可能位置进行比较,并将其放置在优先度最高的适当区域。经实例测试,结果表明该算法简洁高效,面积利用率有较大提高。 相似文献
18.
检查点机制作为一种软件容错机制,可以与新出现的广域分布式系统网格相结合,更好地满足网格系统的容错要求。文中详细分析了检查点回卷恢复协议的关键点,并对数据网格中GridCPR API进行了解析,提出一些改进,这样就更有利于网格系统的故障检测和容错服务。 相似文献
19.
Carol M. Shepherd 《Universal Access in the Information Society》2008,7(4):285-292
Increasingly, high school students in USA are participating in advanced placement courses. Unfortunately, this opportunity
is not equitable across the country, as many students are unable to take these classes. By effectively utilizing technology,
advanced placement courses could be offered to all students, in all countries, from all socio-economic groups. This paper
discusses the benefits and possible disadvantages of students taking AP courses online. However, little research has been
conducted in this area. There is a need for further research in the positive and negative aspects of online learning among
high school students, particularly those taking AP courses. 相似文献
20.
We investigate the placement of N enterprise data-stores (e.g., database tables, application data) across an array of disks with the aim of minimizing the response time averaged over all served requests, while balancing the load evenly across all the disks in the parallel disk array. Incorporating the non-FCFS serving discipline and non-work-conserving nature of disk drives in formulation of the placement problem is difficult and current placement strategies do not take them into account.We present a novel formulation of the placement problem to incorporate these crucial features and identify the runlength of requests accessing a store as the most important criterion for placing the stores. We use these insights to design a fast (running time of NlogN) placement algorithm that is optimal under the assumption that transfer times are small. Further, we develop polynomial-time extensions of the algorithm that minimize response time even if transfer times are large, while balancing the loads across the disks. Comprehensive experimental studies establish the efficacy of the proposed algorithm under a wide variety of workloads with the proposed algorithm reducing the response time for real storage traces by more than a factor of 2 under heterogeneous workload scenarios. 相似文献