共查询到19条相似文献,搜索用时 109 毫秒
1.
描述了面向互联网的计算资源共享平台下的新型容错机制.该框架采用服务器端、调度节点,志愿机的层次网络体系结构,把调度节点的主-从备份容错与志愿机端的面向子任务的容错结合起来,保证了系统的最终计算结果不受影响.通过运行电力系统潮流计算的并行程序,对该系统的稳定性与可扩展性进行实验,小规模测试验证了该容错机制的正确性与高效性. 相似文献
2.
3.
共识问题作为分布式计算中最重要的基本问题之一,被广泛应用在状态机复制、原子广播、领导者选举等领域。解决共识问题的算法通常存在单领导者性能瓶颈、响应延迟受命令冲突的影响等问题。针对这些问题,在非拜占庭故障下的异步分布式系统中,提出了一种低延迟的共识算法MEPaxos(modified Egalitarian Paxos)。首先,提出了系统平均延迟的计算方法;然后,引入超时机制对二阶段提交算法进行改进;接着,根据系统平均延迟计算结果,利用改进的二阶段提交算法自动选择平均延迟较小的算法模式执行;最后,在亚马逊弹性计算云(elastic compute cloud,EC2)平台上将此算法与当前共识算法进行实验对比分析,结果表明,MEPaxos算法下,系统延迟性能得到了提升。 相似文献
4.
提出并描述了一个基于树型层次结构的计算资源共享与聚集系统(tree-based layered sharing and aggregation,TLSA).TLSA系统由对等网络环境下的空闲节点组成,形成一个类似B树的层次结构,使在节点加入和退出的时候可以自动的维持平衡.树型结构的网络拓扑通过自组织的可用性协议来维护,保证了系统的比较低的消息通信量和平衡的处理器负载.通过内部的资源发现协议,节点可以寻找到系统中最近最合适的空闲计算资源来完成大量的子任务.通过模拟测试结果表明对于大规模的子任务,TLSA可以在很短的时间内寻找到空闲资源,而且网络消息通信量不超过O(logmN),具有低消息通信量、非集中性、可扩展性、自组织等特性. 相似文献
5.
为了高效与方便地聚集异构环境下的网络资源,提出一种基于.NET的通用计算资源共享环境GCRSE。GCRSE在体系结构上利用了节点功能角色的方式,由服务器功能实体、自愿机功能实体和客户机功能实体组成。它利用.NET的Web services技术,通过网页的方式提交、执行与传输并行分布式应用相关的任务和子任务。在编程模型上支持普通的主—从模式的编程模式和具有子任务递归迭代的分治模式编程。自愿机端的心跳消息和面向子任务的容错方式可以达到可靠性高的效果。GCRSE的测试环境通过局域网内的若干台自愿机组成,选择了具有数据依赖的分布式旅行商(TSP)问题进行测试,结果表明对于分布式计算中大量的子任务GCRSE环境可以很快地完成,具有高效性、可扩展性和通用性的特点。 相似文献
6.
7.
异构环境下空闲计算资源的共享与聚集 总被引:1,自引:0,他引:1
描述异构环境下的空闲计算资源共享与聚集平台DCSA。DCSA是一种通用的、可扩展与高效并行化的平台,在该环境下可以较容易地使用高级别的方式编写并行程序,把各种不同的软硬环境下的机器整合到单一的系统环境,共同完成高性能科学计算问题。DCSA的通用性得益于统一的XML文档来描述任务与计算结果及灵活的编程模型。利用一个轻量级的检查点机制与高度可配置的通信机制保证了DCSA的容错性与高效性。通过对实际并行例程的案例分析,验证了DCSA的正确性与高效性。 相似文献
8.
胡博 《计算机工程与设计》2010,31(16)
描述了一个多域网络环境下的计算资源共享平台MD-CRSP(multi-domain computing resource sharing platform).MD-CRSP参考了当前网格计算平台,以中间件软件的方式把处于不同机构、私有网络区域的计算资源共享与聚集起来.MD-CRSP被设计成支持自定义的抽象组件集的形式,它对并行应用的实现可以动态的满足用户的需求.通过构建测试环境与运行并行应用程序表明,MD-CRSP具有灵活编程性、高效性,在类似的配置条件下,计算速度快于当前的一些中问件软件. 相似文献
9.
10.
提出了因特网上基于节点角色的计算资源共享平台——RB-CRSP。设计时充分考虑节点的角色性和功能性,把因特网上的网络资源按照角色划分为服务器端节点、协调节点、工作机节点与客户机节点四类实体,通过配合RB-CRSP的应用编程模式,完成并行分布式计算。分析了RB-CRSP中的自适应资源调度策略,该策略考虑了节点的硬件信息与可信誉机制,实现了平台的负载均衡性;在动态的因特网环境下,利用面向工作机的容错方式保证了平台的可靠性。案例程序选择了典型的并行BenchMark程序:N皇后问题,测试结果表明,RB-CRSP可以方便聚集异构环境下的空闲计算资源,平台的性能与机器硬件条件和可靠性密切相关。 相似文献
11.
赖红辉 《计算机工程与设计》2010,31(10)
描述了一个基于Jini技术的互联网计算资源共享框架JiniFrame,JiniFrame框架把互联网环境下的机器按照功能角色分为客户机、代理机和主机3种实体,共同协作完成并行应用的求解.JiniFrarne框架的可扩展性和跨平台性得益于基于Java的Jini技术,易用性与编程灵活性得益于框架中网络节点的组织方式与灵活的编程模型,同时支持主从模式与分治模式的编程.通过对实际分布式计算任务的案例分析与实验,表明了JiniFrame框架的正确性与高效性. 相似文献
12.
George Bosilca Rémi Delmas Jack Dongarra Julien Langou 《Journal of Parallel and Distributed Computing》2009
We present a new approach to fault tolerance for High Performance Computing system. Our approach is based on a careful adaptation of the Algorithm-Based Fault Tolerance technique [K. Huang, J. Abraham, Algorithm-based fault tolerance for matrix operations, IEEE Transactions on Computers (Spec. Issue Reliable & Fault-Tolerant Comp.) 33 (1984) 518–528] to the need of parallel distributed computation. We obtain a strongly scalable mechanism for fault tolerance. We can also detect and correct errors (bit-flip) on the fly of a computation. To assess the viability of our approach, we have developed a fault-tolerant matrix–matrix multiplication subroutine and we propose some models to predict its running time. Our parallel fault-tolerant matrix–matrix multiplication scores 1.4 TFLOPS on 484 processors (cluster jacquard.nersc.gov) and returns a correct result while one process failure has happened. This represents 65% of the machine peak efficiency and less than 12% overhead with respect to the fastest failure-free implementation. We predict (and have observed) that, as we increase the processor count, the overhead of the fault tolerance drops significantly. 相似文献
13.
张远夏 《计算机工程与设计》2011,32(7):2306-2308,2318
提出与描述了计算资源共享平台中的网络资源的可用性预测方法,该方法使用了基于数据挖掘的分类器算法,采用了分布式数据收集器工具,该工具运用收集数据和跟踪数据的方式来获取的预测的可用性的信息,从而完成资源的使用情况的预测。讨论了实现资源可用性预测的软件框架,描述了资源预测的具体过程。实验结果表明,即使在高挥发性的分布式计算平台中,该资源可用性预测技术能够很好地预测计算资源共享平台中机器的处理器利用率、内存的负载、机器的可用性,为调度器和副本备份提供参考。 相似文献
14.
云环境下的自适应资源管理是当前云计算研究领域的热点问题,是云计算具备弹性扩展、动态分配和资源共享等特点的关键技术支撑,具有重要的理论意义和实用价值.其主要研究点包括:虚拟机放置优化算法,虚拟资源动态伸缩模型、多IDC间的全局云计算资源调度、全局资源配置及能力规划模型等.对云环境下自适应资源管理研究现状进行分析研究,并指出当前研究中存在的一些主要问题,同时进一步展望本领域未来的研究方向. 相似文献
15.
A parallel and distributed simulation (federation) is composed of a number of simulation components (federates). Since the federates may be developed by different participants and executed on different platforms, they are subject to Byzantine failures. Moreover, the failure may propagate in the federation, resulting in epidemic effect. In this article, a three-phase (i.e., detection, location, and recovery) Byzantine Fault Tolerance (BFT) mechanism is proposed based on a transparent middleware approach. The replication, checkpointing and message logging techniques are integrated in the mechanism for the purpose of enhancing simulation performance and reducing fault tolerance cost. In addition, mechanisms are provided to remove the epidemic effects of Byzantine failures. Our experiments have verified the correctness of the three-phase BFT mechanism and illustrated its high efficiency and good scalability. For some simulation executions, the BFT mechanism may even achieve performance enhancement and Byzantine fault tolerance simultaneously. 相似文献
16.
Models for fault tolerance in manufacturing systems 总被引:1,自引:0,他引:1
The field of fault tolerance in computer science and engineering has been thoroughly investigated over a long period of time. A great number of different approaches have been presented on means for improving fault tolerance under certain error conditions in computerized systems. One important area that has introduced computers in order to enhance productivity, flexibility and economy, is manufacturing systems in order to acquire computer-integrated manufacturing (CIM). Using computers in a manufacturing system introduces new sources of difficulties, as well as providing new possibilities for overcoming erroneous situations that might disturb production. The aim of this paper, is to describe how the use of different configurations for a manufacturing system can improve fault tolerance. One specific erroneous situation which may occur in CIM is the partitioning of a network. This situation can be handled satisfactorily by using the suggested manufacturing system configurations. Additional improvements to fault tolerance can be achieved through the introduction of data buffers and material buffers, This approach is described in this paper. 相似文献
17.
基于Web的计算资源发布的研究与实践 总被引:3,自引:0,他引:3
迅速发展的World Wide Web(Web)为Web计算资源发布提供了一个开放的,一致的平台。文中提出了Web计算资源代理发布模型。为提高这个模型中代理的可用性和可靠性。设计了两级的树代理结构和主-从代理结构,并在此基础上实现了一个原型系统WCRPS。 相似文献
18.
19.
基于P2P计算的教育资源库共享系统研究 总被引:1,自引:0,他引:1
E-learning的有效实施需要将现有异构教育资源库进行集成,提供一个大规模的资源共享平台.深入分析了e-learning对资源共享的目标和教育资源库管理系统的发展趋势,介绍了P2P计算的分类和JXTA开发平台的技术优势.在此基础上,设计了一种混合P2P结构的教育资源库共享系统,给出了基于JXTA平台的系统体系结构与实现方案,详述了利用XML元数据与本体实现数据库与文件资源发布的机制及支持元数据搜索的查询算法.应用P2P技术和本体解决了分布式异构性教育资源的共享问题. 相似文献