首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
赵毅  曹宗雁  朱鹏  迟学斌 《软件学报》2013,24(S2):89-98
中国科学院超级计算环境是整合了包括总中心、分中心和所级中心计算资源的3层架构超级计算环境.为提升超级计算环境的可靠性,提供稳定、可靠的计算服务,其容错机制的研究成为超级计算环境的一个研究重点.在对容错基本思想及各类计算机容错技术进行充分调研的基础上,提出一种适用于超级计算环境的容错框架,依据该框架给出了不同层次的容错方案,并对不同层次的容错开销进行了分析和比较,验证了不同层次容错方案对应用程序所带来的影响.  相似文献   

2.
计算机系统的可靠性一直为人们所关注。早期由继电器和真空管构成的计算机经常不能正常工作。随着人们对计算机依赖程度的不断提高,系统的可靠性就显得更为重要。提高计算机的可靠性有避错和容错两种方法。避错实际上是不容错的,乃是保守设计方法的产物,它以采用高可靠性零件、优化路线等质量控制管理的方法,来减低出错的可能性,但即使是最仔细的避错设计,故障也总有一天会出现,从而导致系统失效。容错是指在硬件或软件故障产生的情况下,仍能将指定的算法准确地完成,同时不使性能降低,即用冗余的资源使计算机具有容忍故障的能力。…  相似文献   

3.
4.
错误的频繁发生已经成为阻碍网格稳健发展和大规模应用的主要障碍之一,网格系统的容错性研究显得尤为重要。根据网格计算的特点,提出了网格环境下的特殊容错需求;结合用户的服务质量要求,建立了包括网格错误检测与网格错误管理的动态容错服务架构,阐述了错误检测服务与错误管理服务的组织结构、各组成模块的具体功能;最后,给出了一个完整的容错服务实现过程。  相似文献   

5.
对于某些容错计算系统,由于成功与故障之间没有明确的界限,用传统的可靠性指标难以准确地评价其容错性能,为此一些学者提出了若干与性能相关的可靠性指标。本文将这些指标概括成三类(即基于瞬时性能的指标、基于累积收益的指标和率模可靠性指标)加以介绍,并简要介绍了它们的求解方法。  相似文献   

6.
容错服务是分布计算系统正常运作的有力保障。该文在一个基于多Agent的校园网格计算原型系统基础上,根据网格计算以及网格应用的本质,提出了网格容错服务的特征,采用Agent分而治之,自主容错的策略,将自主容错服务作为基础服务部署在校园网格计算原型系统的三个Agent层上,并对其实现和运作机制进行了详细的论述。  相似文献   

7.
黄平 《电脑》1998,(4):76-77
一、引言 伴随着计算机的产生,容错技术在不断发展,过去计算机可靠性的提高,主要是采用避错技术,在机器的设计生产过程中对元器件的质量进行严格把关,以使产品能满足所规定的可靠性标准。 而采用容错技术则允许系统在出现某些特定硬件故障或软件错误时,系统仍然能够执行规定的一组程序(或算法),或者说程序不会因系统中的故障而中止或被修改,并且执行结果也不包含系统中故障所引起的错误而继续正常运行,同时容错技术还可以降低对元器件的质量要求。 二、容错计算基本技术 容错基本技术本质上是冗余及其管理、故障检测与诊断和系统状态的维  相似文献   

8.
提出了一种基于自适应备份的网格容错任务调度算法:最高百分之k备份算法.该算法对任务的安全需求和资源的信任等级进行匹配,在系统安全等级较低并且网络和主机可能失效的网格环境中进行容错任务调度.调度时,该算法根据整个网格系统的安全状况,对具有最高安全需求的百分之k的任务进行动态备份,任务备份数根据系统安全状况自适应变化,并对失败的任务重新调度.仿真结果表明,该算法可以有效提高不安全网格环境下的任务调度成功率,具有很好的容错性和可扩展性,优于固定备份数的网格任务调度算法.  相似文献   

9.
容错计算二十五年   总被引:12,自引:1,他引:11  
闵应骅 《计算机学报》1995,18(12):930-943
今年是国际容错计算会议25周年(被誉为银婚节),也是全国容错计算会议创办10周年,本文基于FTCS-25十个特邀报告的材料,结合个人看法,综述容错计算这一学科领域的形成和发展,回顾过去的25年,介绍今天的发展情况和挑战,并展望今后的发展前景。  相似文献   

10.
本文介绍了容错计算的基本技术,重点介绍处理器、子系统以至多机系统、分布式系统和计算机网络等层次的容错技术。文中也简要介绍了容错软件技术。  相似文献   

11.
分析了集群接入网格的过程中所面临的问题,研究了在网格环境下使用集群的方法,详细分析了集群接入网格需要提供的接口和服务,并实现了一个网格环境下集群管理的原型系统,将集群转化成为一种标准的、透明的资源接入网格.通过该系统用户能够在任何地方使用分布在各处的集群资源,系统能保证用户提交的作业正确、有效的运行,并及时向用户反馈提交作业的相关信息.实验分析表明,该系统能够有效的整合集群计算资源,从而提高计算能力,增大全局吞吐量.  相似文献   

12.
分析了分布式虚拟环境仿真的特点,提出了基于网格的分布式虚拟环境仿真的海量数据管理框架.该框架结构采用分层结构,自底向上依次为网格节点、高性能通信系统、数据存储与处理系统和计算系统.给出了一个基于上述体系结构的原型系统.对该原型系统的仿真结果表明,该海量数据管理体系结构设计符合虚拟环境仿真实时性、稳定性和高可靠性的要求.  相似文献   

13.
丁敏敏  贾永库 《计算机工程》2010,36(21):286-287,290
根据网格计算中作业调度的特点,基于Platform公司的LSF系统,提出一种适合管理网格系统中作业调度策略的方案——插件机制。鉴于插件即插即用、易于扩充和实现的优势,对网格系统中的调度模块以插件的形式进行管理,以提高系统的整体调度性能,并为第三方软件提供良好的接口。  相似文献   

14.
提出了一个网格信任模型,用主观逻辑理论进行信任值的推导、综合。针对现有网格任务调度算法存在的问题,设计了一种任务和资源安全等级匹配的调度算法。通过安全需求对资源进行筛选,并使它满足最早完成时间。仿真实验表明,与传统经典网格任务调度算法比较,该算法提高了任务成功率,减少了任务完成时间,是网格环境下一种有效的资源调度模型。  相似文献   

15.
计算作业网格执行环境的分析、设计与应用*   总被引:1,自引:0,他引:1  
王彬 《计算机应用研究》2008,25(8):2546-2549
针对网格环境下科学计算遗产程序执行涉及到的关键问题进行了分析和设计,提出了一个基于固有计算执行环境+网格运行支持扩展的计算作业网格执行环境,以支持在网格环境下调用执行科学程序,并将其应用到了科学计算遗产程序包装成的网格服务运行中。计算作业网格执行环境很好地满足了传统科学计算遗产程序在网格环境下共享后的运行管理的需要,具有广泛的适用性和参考价值。  相似文献   

16.
面向高性能计算环境的作业优化调度模型的设计与实现   总被引:1,自引:0,他引:1  
高性能计算环境聚合了多个分布在不同地域、不同组织机构的高性能计算资源,面向用户提供统一的访问入口和使用方式,由系统中间件根据用户作业请求匹配合适的高性能计算资源。随着环境应用编程接口的开放以及作业请求数量的大幅增加,面对高并发作业提交请求时,目前采用的即时调度模型会由于网络等原因导致一定数量的请求处理失败,同时缺乏灵活性。针对此问题,优化了环境作业调度模型,引入作业环境队列,细化了作业系统层状态,增加了作业调度策略可配置性,并基于环境中间件SCE实现了系统原型。经测试,在单核心服务每分钟处理近200个作业提交请求的工作负载下,无因系统和网络原因引起的作业提交出错现象;在共计1 000个作业中,近500个作业提交命令请求在0.3s以内完成,800余个作业提交命令请求在0.5s以内完成。  相似文献   

17.
网格环境下的集群系统作业管理研究   总被引:6,自引:4,他引:2  
网格计算已经逐渐形成一个重要的新领域。相对于传统的分布式计算,它的显著之处在于它能够共享网络上的各种资源,包括地理上分布的各种计算资源。PBS是广泛应用于并行计算机的作业管理系统,它可以按照用户定义的配置参数相对公平地为每个作业分配系统资源。但是在网格环境范围内对集群系统进行管理仍然是一门有待研究的课题。利用网格系统软件和集群系统管理软件,实现了一种在网格环境下对集群系统作业进行管理的方法。  相似文献   

18.
Current assessments of supercomputing (high‐performance computing) primarily focus on system performance. Quantitative methods to measure the impact of supercomputing in a broad context have not been well developed. In this paper, the basic meaning of supercomputing development is analyzed. An evaluation index system for assessing the development status of supercomputing is constructed innovatively, and the SuperComputing Development Index (SCDI) is proposed to measure supercomputing development status. SCDI is a composite index combining various indicators into one benchmark measure that monitors and compares supercomputing development in the past years. This appears to be the first attempt to quantitatively measure the supercomputing ecosystem. As an example, the SCDI of the Chinese Academy of Sciences is obtained, which is based on the data collected from 130 research groups about and covers the period from 2006 to 2012. The results have demonstrated that the proposed evaluation index system is objectively reasonable. The constructed SCDI provides a scientific method to quantitatively evaluate the development status of supercomputing for institutions or organizations.  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号