首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
实时双机系统中检查点设置周期的选择   总被引:2,自引:0,他引:2       下载免费PDF全文
为了保证长运行时间软件的实时性要求,本文针对双机冗余系统,采用检查点设置与卷回恢复的方法提出了一种系统模型,同时为使任务的完成时间最短而给出了如何确定检查点设置周期的方法。文章最后进行了数学分析并给出了模拟结果比较。  相似文献   

2.
与大规模并行处理(MPP)系统相比,基于总线互连的机群系统是一种较为廉价的并行计算环境,文中提出了一个基于总线互连机群系统上的静态任务调度算法。在该算法具有3个主要特点:(1)由于不同处理机之间的通信都必须通过共享总线,故在调度时将总线与处理机一些看成是资源加以分配;(2)针对总线适合于广播的特点,在调度中考虑了广播,地于某些应用而言可以大大通信次数,(3)在确定任务在某个处理机上的开始执行时间以  相似文献   

3.
基于检测点设置依赖图和属性表的卷回恢复算法   总被引:2,自引:0,他引:2  
为了解决检测点设置过程中的Domino效应问题及卷回恢复过程中的活锁问题,并最大限度地减小时间开销,提出了基于检测点设置依赖图和属性表的卷回恢复算法。同以前的算法相比较,该算法一方面节省了用于进程之间同步的时间开销,另一方面检测点设置及卷回过程中涉及少量的相关进程。对该算法的正确性进行了证明。  相似文献   

4.
针对典型的云平台下虚拟化系统的特点,提出了一种结合选择性日志的准同步检查点算法VM_QSC:保持不同虚拟机节点固有的优化检查点周期,通过物理节点Hypervisor选择性地进行虚拟机的消息日志的稳定存储,在全局监控节点维护虚拟机一致线信息,保持全局的一致性。与传统的准同步检查点和同步检查点相比,该算法维持了虚拟机检查点设置的自主性,并显著降低了虚拟化系统的容错开销,可以有效应用于云计算环境下的虚拟资源管理和动态迁移。  相似文献   

5.
协同式检查点设置及卷回恢复技术是一种简单有效的容错手段,被广泛地运用于并行/分布式系统中。为进一步降低协同式检查点算法的开销,该文给出了一个基于可重建检查点的非阻塞协同式检查点算法。并行程序出错导致卷回恢复发生的概率远小于检查点设置概率,该算法利用这一特性,将检查点设置的部分开销转至卷回恢复阶段,降低了容错的开销,提高了系统的可扩展性。  相似文献   

6.
基于PVM的协调检查点设置关键技术   总被引:1,自引:0,他引:1  
本文论述了基于PVM的并行程序运行回卷恢复系统设计和实现过程中的退出再加入PVM机制、任务号隐式映射机制、任务结束前同步机制、防止PVM库重入机制,信号与消息协同触发机制、应用任务初始化机制以及作为前述各机制实现基础的函数包裹与换名机制等关键技术。这些技术已经成功地应用于我们自主开发的ChaRM系统中,证明了技术的正确性和有效性。  相似文献   

7.
一个基于高性能机群系统的并行数据挖掘平台模型   总被引:1,自引:0,他引:1  
基于高性能机群系统建立并行数据挖掘平台,能够有效地提高数据挖掘算法的执行效率,提高对大量数据信息的处理能力,而且可以减少系统开发、升级及维护的费用,提高系统可伸缩性。文章从机群系统的特性出发,论述了基于高性能机群系统建立并行数据挖掘平台的目标、方法和实现技术,给出了一个合理可行的平台模型。  相似文献   

8.
机群技术的快速发展,使得充分利用现有网络和计算机资源建立机群系统以提供高性能计算能力成为可能。文章讨论了建立基于网络的机群系统并行计算环境的一些主要问题,如负载平衡、可视化监控等,并提出和实现了建立机群并行计算平台的一种解决方案。  相似文献   

9.
一种适用于机群系统的任务动态调度方法*   总被引:21,自引:1,他引:21  
傅强  郑纬民 《软件学报》1999,10(1):19-23
任务调度是机群系统上实现并行计算需要解决的重要问题之一.对于在运行中动态产生任务的并行应用程序,由于很难作出准确的任务分配决策,可能导致各个计算结点的任务负载失衡,最终引起整个系统的性能显著下降.因此,需要通过任务再分配来维持负载平衡.该文提出一种任务分配与再分配方法,它通过尽量延迟任务的执行开始时刻,在任务再分配时避免了进程迁移,使得引入的调度开销很小.分析和实验结果表明,该方法在许多情况下能够有效地提高并行程序的运行性能.  相似文献   

10.
陈研  徐国治 《微计算机信息》2007,23(22):181-183,180
Nowadays clusters have been widely deployed as platforms for massive data storage. For applications with high reliability requirement, how to improve system MTTF is one of the key problems. This paper proposes a new dynamic replication scheme, called "concurrent data replication". Through extensive theoretical analysis, it shows that this scheme can improve system MTTF significantly, and the results are further proved by simulation. Additionally, this paper also gives key design techniques.  相似文献   

11.
We present a novel approach to testing fault-tolerant and real-time protocol implementations. Cesium, our testing environment, executes the protocols in a centralized simulator of the distributed system. It simulates the occurrence of inputs and the failure scenarios the protocols are designed to tolerate, while automatically verifying that the required safety and timeliness properties hold at all times during test experiments. Within this framework, the human tester can define failure operations that simulate every failure class studied in the literature. We apply our approach to two fault-tolerant protocols typical in embedded systems. The results show that Cesium can pinpoint implementation errors that would be very difficult to identify in a real system, and can also compute accurate performance predictions that would be problematic to measure in the real embedded platform without ad hoc hardware instrumentation.  相似文献   

12.
介绍了一种利用集群技术实现双机容错的开发方法.通过对集群技术运行机制的深入研究,提出了采用基于“层”模式的双机容错系统技术方案,在普通PC服务器上实现了双机容错系统,分析了该系统的可用性,针对电力综合自动系统的结构特点,对心跳侦测等功能进行了改进,并在一套小型变电站自动化系统上进行了实验验证,能够较好的满足中小型电力综合自动化系统的需求.  相似文献   

13.
一种提高集群系统可用性的方法及其应用   总被引:3,自引:0,他引:3  
郑伟  郭成城 《计算机应用》2003,23(10):67-69
文中将一种预防性的容错方法——软件再生引入集群系统中,分析两种软件老化模型,提出了对应的软件再生策略,最后在Web集群服务器中实现。从实验结果可以看出软件再生技术较好地提高了集群系统的软件容错性能和系统可用性。  相似文献   

14.
In this paper we present an approach to reliable distributed computing, which incorporates fault tolerance into applications at low cost, in terms of both run-time performance and programming effort required to construct reliable application software. In our model fault tolerance is based on distributed consistent checkpointing and rollback-recovery integrated with a user-level reliable transmission protocol. By employing novel techniques 8and algorithms, our approach is distinguished from other consistent checkpointing schemes by the following features: first, minimum communication overhead for constructing a consistent distributed checkpoint and catching messages in transit during checkpointing; second, tolerance to message losses due to site failures or unreliable non-FIFO networks; and third, efficient checkpointing and recovery of persistent state, i.e., user files. Based on the model, a software library prototype called Libra has been implemented for supporting fault tolerance in distributed message-passing applications with file operations. The library provides an easy to use programming interface including message-passing and file I/O primitives, which hides the complexity of both fault-tolerant network communications and checkpointing and recovering user files from the application level. Experience with a number of long-running distributed applications shows that Libra can provide fault tolerance in a cost-effective manner.  相似文献   

15.
This paper presents an efficient, writer-based logging scheme for recoverable distributed shared memory systems, in which logging of a data item is performed by its writer process, instead of every process that accesses the item logging it. Since the writer process maintains the log of data items, volatile storage can be used for logging. Only the readers' access information needs to be logged into the stable storage of the writer process to tolerate multiple failures. Moreover, to reduce the frequency of stable logging, only the data items accessed by multiple processes are logged with their access information when the items are invalidated, and also semantic-based optimization in logging is considered. Compared with the earlier schemes in which stable logging was performed whenever a new data item was accessed or written by a process, the size of the log and the logging frequency can be significantly reduced in the proposed scheme.  相似文献   

16.
对集群相关技术进行分析,提出了基于RAID的双机集群系统的两种应用模式.该模式通过功能整合和故障过渡技术实现集群系统的高可用性和高可靠性.  相似文献   

17.
国产万亿次机群系统NPB性能测试分析   总被引:3,自引:2,他引:1  
对3个国产万亿次机群系统进行了NPB性能测试分析,重点研究大规模并行处理时(处理器数目达到上千个)的性能特点和趋势.分析了不同的处理器、互连网络等系统配置对NPB性能的影响,发现NPB的8个程序在3个万亿次机器上的性能特点和表现并不一致,表明国产高性能机群在设计上正在逐渐走出同质化的趋势,向多样化发展.进一步分析表明,目前NPB程序的可扩展性可以达到几百个处理器,但尚不能达到上千个处理器,NPB程序能发挥出的系统峰值的百分比仍然徘徊在10%左右,机群系统的并行可扩展性和应用程序对机器运算潜能的利用还需要进一步提高.对于处理器数目达到上千个的万亿次机群系统来说,对集合通信和细粒度通信能力的支持亟需提高.  相似文献   

18.
Perl语言是实用性很强的一门程序设计语言。本文介绍了Perl语言的特点、功能,以及Perl语言的效率问题。另外,还讨论了该语言在群机系统领域,特别是系统管理软件中的重要应用。  相似文献   

19.
数据挖掘中聚类算法的综述   总被引:5,自引:0,他引:5  
聚类算法是数据挖掘领域中非常重要的技术。本综述按照聚类算法的分类,对每一类中具有代表性的算法进行了介绍,分析和评价。最后从发现聚类形状、所适用的数据库和输人数据顺序的敏感性等方面进行了算法推荐,供大家在选择聚类算法时参考。  相似文献   

20.
数据挖掘中聚类分析的技术方法   总被引:1,自引:0,他引:1  
数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技术。对各种聚类算法进行了分类,对代表算法作了详细的分析,并对这些算法从多个方面进行了比较,从而为研究和在不同领域使用这些算法提供了参考。同时还阐述了聚类分析在数据挖掘中的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号