首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 289 毫秒
1.
应用级checkpointing技术是同构系统上最为常用和成熟的容错技术,但在异构系统下的应用还处于起步阶段,还没有一套严谨合理的针对异构系统架构和故障模型特点的实现方案和配置方法。针对这一现况,本文基于CUDA异构系统的体系结构和编程模型,对CUDA程序在CPU和GPU上的执行模式进行分析,提出了一种面向异构系统应用级checkpointing技术的异步执行机制,并基于这一机制对异构系统的检查点优化设置问题进行讨论,设计了一套优化方案。最后在CUDA平台下通过三个实例验证了这一技术的可行性和实用性,并进行了性能评估。结果表明,这种面向CPU-GPU的异构系统的应用级checkpointing异步执行机制是行之有效的,相比CPU-GPU同步执行的checkpointing机制在设置上更为灵活,优化空间更大。而本文基于这一机制所提出的检查点优化设置方法也有效地减少了check-pointing的开销,从而获得了更高的容错性能。  相似文献   

2.
贾佳  杨学军 《软件学报》2011,22(12):2853-2865
以异构系统的过程间相关性分析为基础,研究分析异构系统硬件故障在软件之中的传播行为,指导优化基于异构系统的应用级checkpointing检查点保存问题,并通过实验验证其可行性及性能,对异构系统的容错优化研究具有重大意义.  相似文献   

3.
Solaris系统多线程检查点设置与卷回恢复   总被引:1,自引:0,他引:1  
文章利用UNIX进程检查点设置思想,结合多线程在Solaris系统中的实现特点,提出了一种适合于Solaris操作系统的多线程检查点设置与恢复技术,其检查点设置与恢复技术具有在用户级实现、对用户透明和简单高效的特点。文章主要介绍检查点信息的保存与恢复、函数换名、包裹,线程号映射等关键技术。  相似文献   

4.
检查点设置和卷回恢复是提高系统可靠性和实现容错计算的有效途径,其性能通常用开销率来评价,而检查点开销是影响开销率的主要因素。针对目前并行程序运行时存在较多通信阻塞时间的现状,该文在写时复制检查点缓存的基础上提出了一种进一步降低检查点开销的方法。通过控制状态保存线程的调度和选择合适的状态保存粒度,该方法能很好地利用通信阻塞时间隐藏状态保存线程运行时带来的开销,从而能进一步降低开销率。  相似文献   

5.
双机容错系统中最佳检查点间隔的分析   总被引:2,自引:0,他引:2       下载免费PDF全文
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。  相似文献   

6.
检查点是并行系统中实现容错的重要手段,同步检查点方法已广泛应用在工作站机群系统中。PVM所提供的消息传递机制支持高效的异构网络计算,但不支持客错功能。为了降低同步检查点设置的时间开销,提出了一种基于PVM的准同步检查点设置方法,它吸取了同步检查点方法的优点,又通过消息记录方式实现各节点间独立进行状态保存,大大降低了检查点的同步开销,提高了检查点操作效率,该方法在PVM环境下得以实现,实验结果表明所提出的方法具有较好的客错性能。  相似文献   

7.
容错技术已经成为工作流的研究热点,设置检查点是一种常用的容错方法。针对工作流系统提出一种适应性检查点机制,该机制通过最优化检查点数量和动态设置检查点间隔,大大提高了错误发生情况下任务按时完成的比率,并通过实验验证了该机制优于传统的检查点机制。  相似文献   

8.
检查点是一种重要的系统容错机制,可以对运行进程的状态进行保存与恢复.本文通过链接Condor系统的检查点库,在网络模拟器NS-2中实现了用户级透明检查点.提高了NS-2的容错能力,以及在长时间模拟方面的性能.并通过特定网络模拟场景中的实验测试,对网络拓扑中节点、链路的数量对检查点时空开销的影响进行了分析.  相似文献   

9.
减少检查点开销的一种方法   总被引:1,自引:0,他引:1  
设置检查点(checkpointing)是容错计算机系统进行故障恢复的重要手段。设置检查点的开销则是影响其性能的一个主要因素。文章提出了一种预先保存部分检查点数据的新方法。该方法不仅能够有效地减少检查点开销,而且具有比较短的检查点延迟。  相似文献   

10.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。  相似文献   

11.
复杂失效分布下的动态检查点设置   总被引:1,自引:1,他引:0  
检查点技术是保障计算机系统可靠性的一种常用方法.通常假定系统失效的发生服从泊松分布,因此检查点是等间隔设置的.但近几年公布的现场数据表明以上假定不合实际.因此,首先利用现场失效数据对固定检查点间距方法的适应性进行分析,并提出两种检查点动态设置方法,它们根据系统前个阶段的失效信息动态地设置下一个检查点.模拟实验结果表明,所提出的方法在复杂失效分布下所获得的效果达到或者优于最优固定检查点的水平.  相似文献   

12.
基于blcr软件,在Linux内核层,设计会话断点保存与恢复软件。该软件可在同一个会话内、进程间实现同步断点保存与恢复,无须改变进程间的相互依赖关系。应用结果表明,将该软件集成到Torque/Maui集群管理和调度系统中,可对用户运行程序进行透明的断点保存与恢复。  相似文献   

13.
本文提出了一个圆片规模布局算法,它是国外一个相应算法的改进形式,区别在于利用力定向布局法的方式不同。在相对位置阶段,该算法利用布局的层次特性将需确定所有电路元件相对位置的问题缩减至仅需确定宏电路元件相对位置的问题;在实际位置阶段,采用分治策略和取消前阶段层次划分的方式回避了需确定任意元实际位置的问题.其时间复杂度远低于国外相应算法.  相似文献   

14.
In this paper, we present a unified model for several well‐known checkpoint/restart protocols. The proposed model is generic enough to encompass both extremes of the checkpoint/restart space, from coordinated approaches to a variety of uncoordinated checkpoint strategies (with message logging). We identify a set of crucial parameters, instantiate them, and compare the expected efficiency of the fault tolerant protocols, for a given application/platform pair. We then propose a detailed analysis of several scenarios, including some of the most powerful currently available high performance computing platforms, as well as anticipated Exascale designs. The results of this analytical comparison are corroborated by a comprehensive set of simulations. Altogether, they outline comparative behaviors of checkpoint strategies at very large scale, thereby providing insight that is hardly accessible to direct experimentation. Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

15.
大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序。基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法。测试结果表明,并行作业容错自动调度环境保证了checkpoint数据的完整性,并在应用程序出错退出以后,调度环境可以自动感知,自动提交运行作业,实现了并行作业无需用户干预的容错自动调度计算,避免了系统资源和计算时间的浪费。  相似文献   

16.
刘红  韦穗 《微机发展》2005,15(12):7-8,11
VLSI门阵列模式布局是一类NP完全问题,传统的分析、研究方法和求解策略不能提供优化布局。文中将遗传算法应用于门阵列模式布局,提出了遗传布局算法,设计了相应的选择函数、交叉算子和变异算子,使布局的构形更趋合理。模拟结果表明,应用遗传布局算法能在较短的时间内提供优化解,为解决大规模、复杂的布局问题提供了广阔的前景。  相似文献   

17.
改进了一种求解集成电路模块布局问题的启发式算法。以边界矩形周长最小为目标,设计了模块的优先序列,并在布局过程中动态调整,重新设计布局优先度,并简化模块的占边动作,重写占角动作,对模块布局放置的多个可能位置进行比较,并将其放置在优先度最高的适当区域。经实例测试,结果表明该算法简洁高效,面积利用率有较大提高。  相似文献   

18.
张琳  杨静 《计算机应用》2004,24(7):16-17,21
检查点机制作为一种软件容错机制,可以与新出现的广域分布式系统网格相结合,更好地满足网格系统的容错要求。文中详细分析了检查点回卷恢复协议的关键点,并对数据网格中GridCPR API进行了解析,提出一些改进,这样就更有利于网格系统的故障检测和容错服务。  相似文献   

19.
Increasingly, high school students in USA are participating in advanced placement courses. Unfortunately, this opportunity is not equitable across the country, as many students are unable to take these classes. By effectively utilizing technology, advanced placement courses could be offered to all students, in all countries, from all socio-economic groups. This paper discusses the benefits and possible disadvantages of students taking AP courses online. However, little research has been conducted in this area. There is a need for further research in the positive and negative aspects of online learning among high school students, particularly those taking AP courses.  相似文献   

20.
General store placement for response time minimization in parallel disks   总被引:1,自引:0,他引:1  
We investigate the placement of N enterprise data-stores (e.g., database tables, application data) across an array of disks with the aim of minimizing the response time averaged over all served requests, while balancing the load evenly across all the disks in the parallel disk array. Incorporating the non-FCFS serving discipline and non-work-conserving nature of disk drives in formulation of the placement problem is difficult and current placement strategies do not take them into account.We present a novel formulation of the placement problem to incorporate these crucial features and identify the runlength of requests accessing a store as the most important criterion for placing the stores. We use these insights to design a fast (running time of NlogN) placement algorithm that is optimal under the assumption that transfer times are small. Further, we develop polynomial-time extensions of the algorithm that minimize response time even if transfer times are large, while balancing the loads across the disks. Comprehensive experimental studies establish the efficacy of the proposed algorithm under a wide variety of workloads with the proposed algorithm reducing the response time for real storage traces by more than a factor of 2 under heterogeneous workload scenarios.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号