首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 593 毫秒
1.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。  相似文献   

2.
崔丽青  徐炜民 《计算机应用》2003,23(Z2):236-238
集群式计算机由于其良好的性能价格比已经成为高性能计算的主要发展方向,可靠性是这一类平台的主要问题.基于消息传递的MPI是广泛应用于集群系统的并行程序开发环境,实现MPI的容错对避免异常情况下应用程序从头执行造成的计算浪费具有重大意义.文中讨论了MPI标准中的容错以及回卷恢复这一容错技术,并以自强2000-SUHPCS为平台设计了针对MPICH并行消息传递库的容错系统.  相似文献   

3.
为了使Petri网技术能够应用于MPI并行程序的正确性和性能的验证,提出了Petri网共享合成运算构建MPI并行程序Petri网的算法。对分布式并行处理系统MPI并行程序的结构与消息传递过程进行分析,给出并行程序基本语句与传递函数的Petri网,将Petri网共享合成运算从两个Petri网的共享合成运算推广到并行程序的多个Petri网的共享合成运算,给出了推广定理和证明。提出了共享合成构建MPI并行程序Petri网的算法,并在消息传递并行系统中给出构建MPI并行程序Petri网的应用示例。实验结果表明,共享合成运算是构建MPI并行程序Petri网模型的一种有效方法。  相似文献   

4.
应用级checkpointing是一种在大规模科学计算领域中备受关注的容错技术.但是应用级checkpointing技术要求用户决定哪些是需要保存的关键数据,这增加了用户的负担.介绍一个基于MPI并行程序活跃变量分析的源到源的预编译工具ALEC,它可用于辅助应用级checkpointing.在一个512处理器的Cluster系统上,对经过ALEC编译的5个Fortran/MPI应用进行了性能评测.结果表明,ALEC能够有效减小checkpoint的大小和应用级checkpointing保存和恢复的开销.  相似文献   

5.
MPI是大规模集群和网格平台中最通用的编程环境,但其运行环境经常会因为节点或网络的故障而出现错误,所以有必要为MPI编程提供容错机制。本文分析了实现MPI程序容错的关键技术,并针对运行MPICH-P4的LINUX集群,利用检查点和消息日志技术,通过改造和扩充MPI底层的P4通信库,提出了一套MPI程序容错系统的具体实施方案。  相似文献   

6.
简要介绍了集群系统,指出其用于并行计算的工作原理,重点介绍MPI并行环境及其通信技术,并分析了MPI并行程序中的基本模式及其采用的通信技术。最后对构建MPI并行环境的集群系统进行了展望。  相似文献   

7.
将现有MPI并行程序移植到网格环境下有着非常现实的意义,本文介绍了网格计算的概念和MPI并行计算模型。阐述了将现有的MPI并行程序移植到Globus网格环境下的重要性,并针对这类移植的一种折中方案——MPICH—G2进行了研究、实验,总结了这种方案的特点和相关技术。  相似文献   

8.
并行处理是一项重要的技术,简要介绍MPI的定义,详尽描述了在Linux环境下如何安装和配置MPI,搭建并行程序实现的软件平台,以达到多机并行计算,或者单机多进程模拟多机并行计算.  相似文献   

9.
吕海  邸瑞华  龚华 《计算机科学》2012,39(1):305-310
通过对基于MPI编程模型实现的开源有限元计算分析软件在多核集群计算平台中的程序性能的分析,找出程序瓶颈及其原因,实现了基于MPI编程模型的并行程序在多核计算环境中的性能优化。根据程序性能瓶颈的分析,提出了基于MPI/OpenMP混合并行编程模型的大规模线性/非线性方程组求解和多线程多进程同时进行消息通信的两种程序性能优化方案。不同计算规模的实验结果表明,在多核集群计算平台中,MPI/OpenMP混合编程模型实现的大规模非线性方程组求解器相对于单纯基于MPI编程模型实现的并行程序,其性能有2倍到3倍的提升;多线程多进程同时消息传递的优化方案虽然对程序能够起到性能优化作用,但是对解决程序消息通信瓶颈的问题不是最好的方法。两个方案总体性能分析结果表明,基于MPI/OpenMP混合编程模型实现的并行程序,在多核集群计算平台中能够更好地发挥硬件系统的计算能力。  相似文献   

10.
基于MPI的动态负载平衡算法的研究   总被引:1,自引:1,他引:0  
MPI是目前集群系统中最重要的并行编程工具,它采用消息传递的方式实现并行程序间通信.在MPI并行程序设计中实现负载平衡有着重要的意义,可以减少运行时间,提高MPI并行程序的性能.为了解决同构集群中动态负载均衡问题,提出了一种在MPI并行程序中实现的方法,可有效地根据节点的负载情况在节点间迁移任务.  相似文献   

11.
大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序。基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法。测试结果表明,并行作业容错自动调度环境保证了checkpoint数据的完整性,并在应用程序出错退出以后,调度环境可以自动感知,自动提交运行作业,实现了并行作业无需用户干预的容错自动调度计算,避免了系统资源和计算时间的浪费。  相似文献   

12.
基于多串口的单片机群控系统管理调度技术   总被引:2,自引:0,他引:2  
简单地介绍了单片机群控系统的逻辑结构和单片机的通信协议,重点讨论了单片机管理调度的算法和实现技术.对基于多串口的利用大量单片机对设备进行控制和采样的系统,给出了一种并行、实时、容错的单片机管理调度实现技术,采用面向对象方法,设计了一个统一的单片机驱动程序框架,使单片机驱动程序的编制简单化、规范化.同时,该技术允许通过配置不同的串口数和每个串口允许管理的最大单片机数来对控制系统的实时性进行调整,而无需修改管理程序.  相似文献   

13.
杨明华  陶灵姣  杨斌  杨银刚  程宾 《计算机工程》2012,38(15):237-239,243
针对关键领域对系统的安全性、可靠性要求极高的特点,设计一种高可信容错计算机系统,将高可信与高可靠技术进行有机融合。采用高可信计算技术,以TCM构建可信密码支撑体系,实现平台自身的完整性、身份可信性和数据安全性。运用冗余容错技术,保证系统在有错误被激活的情况下依然能够提供不间断的服务。该系统通过原理实验样机测试,验证了该技术方案和实现途径的有效性  相似文献   

14.
在设计实时异构系统中的容错调度算法时,既要考虑到实时性的约束,又要最大化系统的可靠性.此外,异构系统中的并行应用调度问题已经被证明了是NP完全问题.现有的容错调度算法大多采用复制技术来提升系统的可靠性,但是任务的多次执行会导致应用执行时间变长,系统实时性下降.为此,提出了一个基于积极复制技术的容错调度算法,该算法连续的复制任务集中对当前系统实时性影响最小的任务,然后将任务集中的所有任务调度至最早完成的处理器,用以在满足实时性约束的同时,提升系统的可靠性.实验表明,相比于同样着眼于实时异构系统的DB-FTSA算法,该算法在实时性约束严格的情况下,可靠性有较大提升.  相似文献   

15.
容错并行算法的性能分析   总被引:1,自引:1,他引:0  
容错并行算法是一种应用级容错方法,它通过并行复算的方法实现快速的故障恢复.容错并行算法是在并行算法设计的基础上增加了容错设计部分,因此其性能评估必须考虑故障对程序性能的影响.研究了评估故障情况下容错并行算法性能的各种度量,建立了性能模型预测容错并行算法的期望执行时间,以此为基础评估了程序段的运行时间、数据保存开销、故障率以及并行复算加速比等系统参数对容错并行算法性能的影响.  相似文献   

16.
针对敏感行业中分布式应用的容错需求问题,分析介绍Agent、多Agent系统和容错中间件技术,根据Agent和中间件特性结构上的相似性,对利用多Agent技术构建容错中间件作了尝试,并着重研究了失效检测与恢复系统;建立局部检测与全局检测互相结合的双层失效检测模型,提出融入定点恢复和异机恢复的改进型REDO失效恢复策略;最后给出基于JADE的一个系统实现。实验结果显示双层检测模型和改进型REDO恢复策略是可行的、高效率的。、  相似文献   

17.
王之元  杨学军  周云 《软件学报》2012,23(4):1022-1035
随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并行计算的可扩展性.因此,在高性能计算需求不断增长的今天,可扩展容错机制的设计显得尤为迫切和重要.以三模冗余(triple modular redundancy,简称TMR)为典型案例,描述了传统TMR在大规模MPI 并行计算上的实现方法,分析了该机制所面临的实际问题,进而指出传统TMR制约了并行计算的扩展.根据该技术所面临的问题,设计了可扩展三模冗余(scalable triple modular redundancy,简称STMR),并进一步验证了其有效性和可扩展性.该机制不仅能够处理Checkpoint/Restart针对的fail-stop故障,还能够解决绝大部分硬件不能直接感知的数据错误.最后,借用BlueGene/L的系统参数进行模拟,预测当系统规模增大时,在分别采用TMR和STMR的情况下并行计算可扩展性的变化,结果进一步验证了STMR是可扩展的容错机制.  相似文献   

18.
分布式计算技术提供了充分利用现有网络资源的有效途径。该文论述了基于解决生物计算中难解问题的具有开放接口的分布式并行计算系统的设计与实现技术。系统兼有开放式、异构性、容错性与易用性等特点。讨论了系统的容错性机制、检查点策略及任务调度算法。对Motif Finding问题的求解验证表明,分布式并行计算机制能大大缩短问题的求解时间,为计算领域的难解问题提供有效的解决途径。  相似文献   

19.
分布式存储系统中,多节点故障出现的概率很高,必须考虑容错问题.RS编码由于性能高、实现简单而被广泛使用.本文介绍了常用的存储容错技术,描述了基于RS编码的存储容错算法,并引入了一个实例进行了详细分析.  相似文献   

20.
研究了具有均方BIBO稳定的网络化控制系统的随机容错控制及控制器设计问题。针对网络化控制系统的传感器失效故障和执行器失效故障均具有随机性这一现象,将传感器和执行器的故障建模为相互独立的Bernoulli随机变量序列;利用Lyapunov稳定性理论,结合线性矩阵不等式技术,通过对反馈增益矩阵的分解,得到了网络控制系统存在传感器失效故障和执行器失效故障情况下的均方BIBO稳定条件;基于该稳定条件给出了系统随机容错控制器的设计。以数值实例验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号