首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
针对计算流体力学应用开发框架容错支持能力的不足,提出了一种新的容错周期优化方法。该方法基于系统故障的概率建模,计算得到理想最优容错周期;并结合计算流体力学应用场数据输出的特点,在线确定实际检查点备份时机。三个典型应用的实验结果表明,在不同平均无故障时间的系统上,与固定时间步进行容错的方法相比,该方法总能够得到最优的容错开销。用户可以基于该方法通过框架接口便捷地设置容错周期,并有效降低容错所引起的开销。  相似文献   

2.
随着分布式系统规模扩大及计算复杂度增加,分布式计算的平均故障修复时间和容错计算所产生的通信开销呈现日益上升趋势。结合分布式编码计算和副本冗余技术,提出一种新的容错算法。map节点应用分布式编码计算的思想,将数据冗余分配至多个计算节点创建编码中间结果,降低计算节点在shuffle阶段的数据传输量。reduce节点通过对接收到的编码中间结果进行解码,从而验证中间结果的正确性并得到最终计算结果。实验结果表明,在基于MapReduce的分布式计算框架下,与三模冗余和两阶段三模冗余容错算法相比,该算法在完成容错计算的同时能降低计算过程中的通信开销和平均故障修复时间,并提高分布式系统的可用性和可靠性。  相似文献   

3.
一种改进的同步检查点设置算法   总被引:1,自引:0,他引:1  
检查点设置与卷回恢复是集群系统中容错计算的重要手段.同步检查点方法在集群系统中得到了广泛应用.为了提高集群计算系统的工作效率,降低系统的容错开销,根据基于消息驱赶的同步检查点设置算法的性质和在实际应用中并行应用程序的通信特征,通过减小协同过程中的阻塞时间,降低系统中控制消息的数量,对基于消息驱赶的Syncand-Stop算法进行优化.改进的算法有效降低检查点设置的时间和空间开销,减小在系统应用中检查点设置的代价,进一步提高系统可扩展性和应用可靠性.  相似文献   

4.
传统的自适应片上网络(NoC)容错路由算法采用一步一比较的方式来确定最优端口, 未能有效降低传输延迟。根据数据包在2D Mesh NoC前若干连续的跳数内最优端口固定的特点, 提出了一种基于报文检测的快速(FPIB)自适应容错路由算法。算法采用跳步比较的方式来减少数据包的路由时间, 并使用模糊优先级策略来进行容错路由计算。实验结果表明, 与uLBDR容错路由算法相比, 该算法能有效地降低平均延迟, 且实现算法的硬件开销更低。  相似文献   

5.
赵毅  曹宗雁  朱鹏  迟学斌 《软件学报》2013,24(S2):89-98
中国科学院超级计算环境是整合了包括总中心、分中心和所级中心计算资源的3层架构超级计算环境.为提升超级计算环境的可靠性,提供稳定、可靠的计算服务,其容错机制的研究成为超级计算环境的一个研究重点.在对容错基本思想及各类计算机容错技术进行充分调研的基础上,提出一种适用于超级计算环境的容错框架,依据该框架给出了不同层次的容错方案,并对不同层次的容错开销进行了分析和比较,验证了不同层次容错方案对应用程序所带来的影响.  相似文献   

6.
节点崩溃或者仿真资源不足导致的分布式仿真系统故障,降低了仿真系统可靠性。为保证系统容错效果,降低容错开销,提出了一种基于虚拟化技术的仿真系统容错方法,按照系统故障发生的位置,对不同类型故障动态采用不同类型的容错策略。分析了检查点容错策略的优化方法,给出了最优设置间隔;结合虚拟化技术的优势,解决了副本容错策略的节点选择、副本数量以及位置分布问题;同时,引入基于虚拟机迁移的容错策略,并将其作为检查点容错策略和副本容错策略的补充,以降低容错开销。通过仿真实验数据对比,分析了动态容错策略与普通容错策略的性能,可知动态容错策略保证了系统容错性能,容错开销也保持在较低水平。  相似文献   

7.
利用实数码可以实现容错线性信号处理系统,这样的系统可以纠正输出数据中存在的随机错误,其中这些错误是由系统中的瞬时故障引起的.矩阵分解是一种有用的线性运算.本文讨论了矩阵的容错LU分解问题,并根据算法容错思想给出了一个有效的矩阵LU分解过程,该过程最多可纠t个随机错误,其中t为某一给定较小常数.基于上述过程,我们提出了一个线性方程组的快速容错求解方案,对应的硬件开销和时间开销分别为O(k)和O(k2),而已知的TMR技术的硬件开销和RESO技术的时间开销分别为O(k2)和O(k3),其中k为线性方程组的阶.所以,与已知方案相比,本文所提方法对于实际应用具有更重要的应用价值.  相似文献   

8.
针对当前的RC编码在应用当中存在容易遭受仿冒、串谋等攻击的安全问题,基于广播加密的思想,提出了以一种安全的RC容错编码.该编码可以选定一个可靠的容错服务器的集合,以保证系统不会在容错过程中遭受攻击.实验结果表明,虽然编码的存储开销和计算开销有所增加,但是在判定性BDHE-Sum假设条件下,该编码是适应性安全的.  相似文献   

9.
一种新的分布式控制系统容错调度算法   总被引:3,自引:3,他引:0       下载免费PDF全文
目前多数容错调度算法在调度非周期任务时采用预留时间的方法,非周期任务无法得到充分响应。针对该问题,提出一种新的分布式控制系统容错调度算法,采用任务集划分的方法在不同处理机上运行不同的周期任务子集,使每个处理机具有不同的非周期任务预留时间,当非周期任务发生时,即可得到有效响应。结果表明,该方法能提高容错调度的效率。  相似文献   

10.
一种利用并行复算实现的OpenMP 容错机制   总被引:1,自引:0,他引:1  
富弘毅  丁滟  宋伟  杨学军 《软件学报》2012,23(2):411-427
基于并行复算的故障恢复技术,将故障恢复的计算任务分配至未发生故障的结点上并行执行,从而显著缩短复算时间,有效降低故障恢复开销,提高并行程序容错性能.基于该故障恢复技术,提出了一种针对OpenMP并行程序的容错机制PR-OMP,有效解决了分段复算、复算负载重分布等问题;此外,还扩展了传统编译数据流分析技术,提出了针对OpenMP并行程序的数据流分析技术,并基于该技术计算状态保存开销进行优化.设计实现了用于支持PR-OMP的编译工具GiFT-OMP,并通过实验证明了PR-OMP机制及其支持工具的有效性,评估并分析了其性能和可扩展性.  相似文献   

11.
Checkpointing是高性能计算领域最常用的容错技术.但是,当处理器数目变大时,这种技术的性能迅速恶化.提出一种在并行计算中容忍单进程故障的新方法:并行复算.这种方法的主要特征是利用冗余处理器的计算能力而不是冗余磁盘的存储能力实现低开销的容错.还提出这种方法的一个优化方法,将并行复算与checkpoint技术相结合,以进一步减小容错开销,并通过举例说明如何开发一个基于并行复算以及其优化方法的并行程序.最后通过实验对该方法进行评估.结果显示,当处理器数目变大时,并行复算的开销低于checkpointing,其优化方法能提供优于并行复算的性能.  相似文献   

12.
RS(Reed-Solomon)码可以根据应用环境构造出任意容错能力的码字,有很好的灵活性,且使用RS纠删码作为容错方法的存储系统能达到理论最优的存储效率.但是,与异或(exclusive-OR,XOR)类纠删码相比,RS类纠删码译码计算的时间开销过大,这又很大程度上阻碍了它在分布式存储系统中的使用.针对这一问题,提出了一类RS纠删码的译码方法,该方法完全抛弃了当前大多RS类纠删码译码方法中普遍使用的矩阵求逆运算,仅使用计算复杂度更小的加法和乘法,通过构造译码变换矩阵并在此矩阵上执行相应的简单的矩阵变换,能够直接得出失效码元由有效码元组成的线性组合关系,从而降低译码计算复杂度.最后,通过理论证明了该方法的正确性,并且针对每种不同大小的文件,进行3种不同大小文件块的划分,将划分得到的数据块进行实验,实验结果表明:在不同的文件分块大小情况下,该新译码方法较其他方法的译码时间开销更低.  相似文献   

13.
超立方体多处理机系统中基于扩展最优通路矩阵的容错路由   总被引:10,自引:1,他引:10  
该文在高峰等文章的基础上,提出了针对超立方体结构多处理机系统的扩展最优通路矩阵(Extended Optimal Path Matrices,EOPMs)的概念,并给出了一个建立EIPMs的算法和基于EOPMs的容错路由算法,证明了基于EOPMs的容错路由算法是基于扩展安全向量(ESVs)^[13]和基于最优通路矩阵(OPMs)^[14]容错路由算法的扩展,与原文相比,该算法的存储开销与OPMs,相同,但记录的最优通路的信息,包含了原文所记录的最优通路的信息,使搜索最优通路的能力比它们有进一步的提高。  相似文献   

14.
随着普适计算的发展,容错作为普适计算中的一个重要研究领域也受到越来越多的关注。普适环境的动态性和开放性导致很难在开发阶段就确定容错策略,而在主流的OOP开发方法中,容错作为一个非功能性的关注点,会对功能性的关注点造成横切,极易导致散射或缠结,影响代码维护和重用。提出一个基于AOP的普适环境下的容错方法,使用AOP实现关注点分离,基于该方法,在OSGi平台上搭建了一个容错的软件开发框架,使用该框架开发的软件能够自动检测服务出错并进行错误恢复。  相似文献   

15.
为了解决空间辐射对嵌入式计算机系统正确性的影响越来越明显的问题,基于典型的编译级容错技术,在编译器LCC上实现了基于有向无环图的编译级容错检测方法VarBIFT.该方法可以有效的保护由于粒子效应所引起的瞬时硬件故障,并可针对不同的目标机自动生成容错代码.实验结果表明,VarBIFT使源程序的平均段错误率从32.3%降到了13.9%,平均错误输出率从28.6%降到了9.2%;而其时间开销和空间开销仅为0.7%和36%.  相似文献   

16.
为了降低人工神经网络训练时的复杂度并减少传统分布式训练方法的通信开销,提出了基于大数据分析的人工神经网络分布式训练方法。具体来讲,使用动态模型平均方法,仅在局部模型显著偏离全局模型时才对局部模型进行同步,因此与基于周期平均的分布式训练框架相比,减少了通信方面的不必要开销。实验部分,基于实际场景中的大型数据集和深度全卷积神经网络,证明了模型同步所需的通信时间明显缩短,且动态模型平均的方法可以达到与静态周期平均方法相当的精度,此外以证明其随着计算节点的增加而可横向扩展,这些夯实了本文方法的有效性。  相似文献   

17.
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。  相似文献   

18.
工程应用中,在某些需要大量的迭代计算来确定个体细胞亲和力的场合,传统的克隆选择算法由于计算的开销太大而变得不可行。针对该问题,该文提出一种新的Hoeffding克隆选择算法(H-CLONALG)来解决耗时的亲和力(适应度)计算问题。并将该算法应用于大数据集的关联分类,来提高构造关联分类器时算法的效率。基于Hoeffding不等式,该算法可以以确定的概率保证得到的解为最优解或接近于最优的解。实验表明,当数据集规模较大时,该方法能显著地减少分类器的构造时间,同时保证所构造的分类器的分类精度。  相似文献   

19.
现有网络服务(Web Services)容错方案存在资源开销大、与Web Services应用系统特性不一致等不足。针对该问题,根据Web Services应用系统特点提出基于服务替换的Web Services应用系统容错方法,其主要思想是在失效发生时使用网络中的等价服务替换失效服务。实验表明了该方法的可行性。  相似文献   

20.
基于WebJet服务组合组装与运行平台,设计了一个基于反馈容错机制、支持Web服务组合运行时自动容错处理的基本框架。针对服务组合运行时的时间QoS质量和用户SLA计算容错选择因子,运用聚类算法确定容错边界值,提出容错处理的一般映射方法,并给出了故障处理及流程重构区域计算方法。系统支持流程在线自恢复,适应复杂的网络生态环境,为流程执行时业务功能与服务质量的保障提供了一种有效的机制。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号