期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

戴志辉肖海力曹荣强迟学斌曹宗雁《计算机应用研究》2011,28(7):2576-2579

为确保建成的中国科学院“十一五”信息化重大专项超级计算环境提供稳定可靠的服务,提出三层架构超级计算环境的容错框架。对计算环境可靠性和计算节点可靠性两大部分,通过作业可靠性、服务可靠性和网格节点可靠性三个主要方面的可靠性研究,提出并实现了三层架构超级计算环境的可靠性解决方案。该框架重点解决了单点故障对环境的影响,确保单点故障发生后系统能够继续提供高可用的高性能计算服务。相似文献

2.

面向互联网的计算资源共享平台容错机制研究

王立徐胜超《计算机工程与设计》2009,30(17)

描述了面向互联网的计算资源共享平台下的新型容错机制.该框架采用服务器端、调度节点,志愿机的层次网络体系结构,把调度节点的主-从备份容错与志愿机端的面向子任务的容错结合起来,保证了系统的最终计算结果不受影响.通过运行电力系统潮流计算的并行程序,对该系统的稳定性与可扩展性进行实验,小规模测试验证了该容错机制的正确性与高效性. 相似文献

3.

Web Services容错管理框架-WSFMF

下载免费PDF全文

孙海燕王晓东周斌邹鹏《计算机工程与科学》2006,28(4):7-9

容错是提高Web Services可靠性和可用性的关键技术。本文提出了在Web Services中实现容错的三种方案：基于后台服务对象的容错、基于Web服务器的容错和基于Web服务的容错,并分析、比较了这三种方案的优缺点。在基于web服务的容错方案的基础上,提出了一个通用的Web Services容错管理框架-WSFMF,并分析了其实现关键,给出了相应的解决方案;最后在我们自主开发的Web Services平台-StarWS上进行了相应实现。相似文献

4.

容错计算系统中数据的可信性

闵应骅《计算机辅助设计与图形学学报》1990,2(2):50-58

本文提出了容错计算系统中数据可信性的概念。同时提出一种容错计算系统的初步方案,详尽地研究了用各种线性反馈移位寄存器进行数据压缩而产生误认的充分必要条件。并给出一种电路设计,以防止由双错所引起的误认。相似文献

5.

基于AOP的普适环境下软件容错方法

米杨黄林鹏《计算机应用与软件》2012,(9):87-91

随着普适计算的发展,容错作为普适计算中的一个重要研究领域也受到越来越多的关注。普适环境的动态性和开放性导致很难在开发阶段就确定容错策略,而在主流的OOP开发方法中,容错作为一个非功能性的关注点,会对功能性的关注点造成横切,极易导致散射或缠结,影响代码维护和重用。提出一个基于AOP的普适环境下的容错方法,使用AOP实现关注点分离,基于该方法,在OSGi平台上搭建了一个容错的软件开发框架,使用该框架开发的软件能够自动检测服务出错并进行错误恢复。相似文献

6.

容错计算的基本技术

赵巍刘恩德《计算机工程与设计》1989,(2):25-32

本文介绍了容错计算的基本技术,重点介绍处理器、子系统以至多机系统、分布式系统和计算机网络等层次的容错技术。文中也简要介绍了容错软件技术。相似文献

7.

面向计算流体力学应用开发框架的容错周期优化方法

《计算机应用》2014,(2)

针对计算流体力学应用开发框架容错支持能力的不足,提出了一种新的容错周期优化方法。该方法基于系统故障的概率建模,计算得到理想最优容错周期;并结合计算流体力学应用场数据输出的特点,在线确定实际检查点备份时机。三个典型应用的实验结果表明,在不同平均无故障时间的系统上,与固定时间步进行容错的方法相比,该方法总能够得到最优的容错开销。用户可以基于该方法通过框架接口便捷地设置容错周期,并有效降低容错所引起的开销。相似文献

8.

面向计算流体力学应用开发框架的容错周期优化方法

张拥军徐新海《计算机应用》2014,34(2):382-386

针对计算流体力学应用开发框架容错支持能力的不足,提出了一种新的容错周期优化方法。该方法基于系统故障的概率建模,计算得到理想最优容错周期;并结合计算流体力学应用场数据输出的特点,在线确定实际检查点备份时机。三个典型应用的实验结果表明,在不同平均无故障时间的系统上,与固定时间步进行容错的方法相比,该方法总能够得到最优的容错开销。用户可以基于该方法通过框架接口便捷地设置容错周期,并有效降低容错所引起的开销。相似文献

9.

融合容错需求和资源约束的云容错服务适配方法

杨娜刘靖《计算机科学》2017,44(7):61-67, 97

云计算环境下,失效成为一种常态行为,可靠性保障能力不足不仅成为云计算应用推广的主要障碍,而且还促使云计算环境下的容错服务研究成为一个亟待解决的问题。针对目前云计算容错服务研究中存在的用户容错需求定义无法直接反映用户关心的可靠性问题,以及云容错服务供应商资源得不到灵活利用等问题,提出了一种融合容错需求和资源约束的云容错服务适配方法。从用户的角度,以组件为单位,基于可靠性对用户的容错需求进行定义。从云容错服务供应商的角度,分别在其资源充足和资源不足的情况下研究最佳的容错服务适配方法,并使用最优化理论求解该适配方法下的容错服务。实验结果表明,所提出的容错服务适配方法生成的容错服务能更好地满足用户和云容错服务供应商的需求。相似文献

10.

一种面向CPU-GPU 异构系统的容错方法

徐新海杨学军林宇斐林一松唐滔《软件学报》2011,22(10):2538-2552

近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是,GPU先天的可靠性缺陷势必加剧超级计算机的可靠性问题.目前,国际上关于CPU-GPU异构系统容错技术的研究工作主要将GPU从异构系统中独立出来,以每次调用为粒度对其进行容错处理.设计了一种面向CPU-GPU异构系统的Lazy容错方法,给出了基于编译指导命令的容错框架及其约束,并讨论了相关的编译实现和优化方法,最后通过实验验证了该方法的正确性.实验结果表明,与现有的容错方法相比,利用所设计的LazyFT容错方法对GPGPU(general purpose computation on graphics hardware)程序进行容错处理,可以明显降低容错代价. 相似文献

11.

VTFTR：高维胖树中的无死锁容错路由算法

刘博阳胡舒凯施得君卢宏生《计算机工程》2022,48(12):38

随着近年来高性能计算系统规模的急剧扩大,高性能互连网络的可靠性成为愈发重要的问题。高维胖树是一种结合了胖树与多维环网优点的网络拓扑结构,凭借其良好的可扩展性与网络性能在E级时代具有广阔的应用前景。然而,目前关于高维胖树中容错路由算法的相关研究较为有限,其可靠性问题亟待解决。为提高高维胖树拓扑在高性能互连网络中的容错能力,进一步提高对应超算系统的运行效率,提出一种用于高维胖树中叶交换机故障的容错路由算法VTFTR。该算法结合转向模型与虚通道切换的思想,通过严格控制报文在无故障路径与容错路径中的转向,使用少量的容错虚通道与额外跳步实现高维胖树中的无死锁容错。实验结果表明,在单点故障情况下,VTFTR算法的容错路径较对比算法有2~4个跳步的减少,在4 096个节点规模的网络中,当叶交换机故障数量为10时,在故障叶交换机不同的分布情况下,该算法能够以1.4%~2.0%的吞吐率下降作为代价来保持全网无故障节点之间的互连。相似文献

12.

Local supercomputing training in the computational sciences using remote national centers

Floyd B. 《Future Generation Computer Systems》2003,19(8):1335-1347

Local training for high performance computing using remote national supercomputing centers is quite different from training at the centers themselves or using local machines. The local site computing and communication resources are a fraction of those available at the national centers. However, training at the local site has the potential of training more computational science and engineering students in high performance computing by including those who are unable to travel to the national center for training. The experience gained from supercomputing courses and workshops in the last 17 years at the University of Illinois at Chicago is described. These courses serve as the kernel in the program for training computational science and engineering students. Many training techniques are illustrated, such as key local user’s guides and starter problems that would be portable to other local sites. Training techniques are continually evolving to keep up with rapid changes in supercomputing. An essential feature of this program is the use of real supercomputer time on several supercomputer platforms at national centers with emphasis in solving large scale problems. 相似文献

13.

一种利用云环境实现Web服务组合容错的方法

牛天飞王志坚叶枫张雪洁沈一尘《计算机与数字工程》2012,40(10):95-98

随着Web服务迅猛发展,基于SOA的服务组合容错性研究成为了业界关注的焦点.服务组合中组件的失效,会导致整个组合执行失败,而资源不足、服务器负载过重是引发组件失效的主要原因之一.云计算作为一种新的计算泛型,其资源整合、动态分配的特点为解决传统SOA下因资源受限而引发的失效提供了新的容错思路.FTEL层将中间件技术应用到服务组合容错上,借助云环境完成服务替换,对传统SOA下较难解决的由于资源问题引起的组件失效进行了容错. 相似文献

14.

高性能计算服务环境应用编程接口

和荣肖海力王小宁卢莎莎迟学斌《计算机系统应用》2022,31(8):184-191

高性能计算服务环境主要面向用户、科研团队提供高性能计算服务.随着环境接入的超算中心以及应用社区和业务平台越来越多,超算中心以及社区和业务平台的用户希望能够使用原有账号登录高性能计算环境使用资源.高性能计算服务环境目前提供的应用编程接口仅支持通过LDAP认证的网格账号.为使得应用社区和业务平台用户使用自己原有的登录方式认证通过后就可访问高性能计算服务环境,我们重新设计开发了高性能计算服务环境应用编程接口.本文着重介绍新版应用编程接口的结构与部署实现,并通过用例来说明如何调用新版接口.新版接口为社区和业务平台接入高性能计算环境提供了更方便且安全地支撑. 相似文献

15.

基于中间件的动态重配置容错对象管理框架 总被引：3，自引：0，他引：3

周明辉邓佳郭长国《计算机学报》2005,28(9):1431-1439

该文从容错QoS角度出发,为现有的基于中间件的容错对象管理框架增加自适应特性．首先把动态童配置定义成容错属性集（及其实现）、计算环境和资源变化描述、动态调整算法三者之间的互动关系,然后采用反射模型和发布／订阅模型建立了一个动态重配置管理框架,可以使系统在发现计算环境的变化、定制动态调整算法等多方面得到有力的支持,为系统有效实施动态重配置奠定了基础．相似文献

16.

无线传感器网络的容错问题与研究进展

下载免费PDF全文

陈颖文徐明虞万荣《计算机工程与科学》2008,30(2):87-91

在简要介绍无线传感器网络研究现状的基础上,本文重点展开了对无线传感器网络容错特征、需求与解决方法的论述;从整体的角度对无线传感器网络物理层、链路层、网络层、传输层、应用层等不同抽象级别的容错问题进行了归纳;同时,对各种容错技术的细节进行了深入的剖析,并综述了相关研究的当前进展;总结了各种容错技术的关键,为进一步研究提供了新思路。相似文献

17.

分布式计算集群容错系统的设计与实现

万玮杨志义《计算机工程与设计》2005,26(10):2811-2813,2816

为了提高分布式计算集群系统的可靠性，增强系统的容错能力，使系统在局部出错的情况下仍能稳定正常运行，建立了一个容错系统模型，该模型采用两级容错机制即节点级容错和任务级容错。此模型为分布式计算集群系统下的容错的进一步研究建立了基础。相似文献

18.

基于MPI并行程序的容错系统设计

李飞飞《数字社区&智能家居》2011,(4)

为了确保并行程序能够在并行环境下准确地运行,须提高系统的可靠性,将容错技术应用到并行计算中。该文针对MPI并行程序提出一种容错系统的设计方法,采用检查点/卷回恢复技术、并添加故障检测功能,能够有效地处理节点失效故障和进程失效故障,在一定范围内实现容错,为MPI环境下进行大规模计算提供一个可使用的应用模型。相似文献

19.

Supervisory control for fault-tolerant scheduling of real-time multiprocessor systems with aperiodic tasks

Seong-Jin Park 《International journal of control》2013,86(2):217-227

Supervisory control theory is a well-established theoretical framework for feedback control of discrete event systems whose behaviours are described by automata and formal languages. In this article, we propose a formal constructive method for optimal fault-tolerant scheduling of real-time multiprocessor systems based on supervisory control theory. In particular, we consider a fault-tolerant and schedulable language which is an achievable set of event sequences meeting given deadlines of accepted aperiodic tasks in the presence of processor faults. Such a language eventually provides information on whether a scheduler (i.e., supervisor) should accept or reject a newly arrived aperiodic task. Moreover, we present a systematic way of computing a largest fault-tolerant and schedulable language which is optimal in that it contains all achievable deadline-meeting sequences. 相似文献

20.

普适计算的可信研究* 总被引：1，自引：0，他引：1

欧阳建权王怀民史殿习《计算机应用研究》2008,25(12):3521-3524

随着应用规模的不断扩展以及具有无处不在性和便捷性的普适计算模式的特点,对普适计算环境下的可信保障提出了更高的要求。普适计算的可信保证是无时无处不在而又不可见的计算方式得以实施的重要保障,是普适计算领域的研究热点。从访问控制、隐私保护和容错三个方面阐述了普适计算的可信技术,并指出了该领域的未来研究发展趋势。相似文献