首页 | 本学科首页   官方微博 | 高级检索  
 共查询到19条相似文献,搜索用时 140 毫秒
网格环境下的集群系统作业管理研究   总被引:2,自引:4,他引:2  
网格计算已经逐渐形成一个重要的新领域。相对于传统的分布式计算,它的显著之处在于它能够共享网络上的各种资源,包括地理上分布的各种计算资源。PBS是广泛应用于并行计算机的作业管理系统,它可以按照用户定义的配置参数相对公平地为每个作业分配系统资源。但是在网格环境范围内对集群系统进行管理仍然是一门有待研究的课题。利用网格系统软件和集群系统管理软件,实现了一种在网格环境下对集群系统作业进行管理的方法。  相似文献   

计算网格中作业调度系统GridPBS的设计与实现   总被引:3,自引:0,他引:3  
孙帅  杨凡  李万城  董小社 《计算机工程》2006,32(9):107-108,111
通过对目前流行的集群调度系统PBS进行封装和扩展,设计并实现了一个计算网格作业调度系统GridPBS。该系统可使PBS系统的应用拓展到整个计算网格环境,克服了现有PBS系统只能在单个集群节点上运行的局限性。根据计算网格中的集群资源运行情况对用户作业进行凋度分配,从而有效地整合和利用计算网格各节点的计算能力。  相似文献   

针对单一集群用户提交大量作业时系统响应时间长的问题,提出了一种多集群系统中资源监控的设计方案,该方案主要是对集群中各个子节点所有可用资源的状况进行监控,采集子节点的资源信息,并将收集到的集群节点负载信息传送给作业控制模块,使得作业根据分布在多集群环境中的计算资源负载情况进行作业跨集群调度。此方案可用于商业、高校等计算节点比较多的场所,提高工作效率,此方案已在高性能计算中应用,运行状况稳定。实验结果表明,当用户并提交作业和查询作业状态时,多集群系统响应时间优于单一集群系统响应时间。  相似文献   

高能物理数据由物理事例组成,事例之间没有相关性。可以通过大量作业同时处理大量不同的数据文件,从而实现高能物理计算任务的并行化,因此高能物理计算是典型的高吞吐量计算场景。高能所计算集群使用开源的TORQUE/Maui进行资源管理及作业调度,并通过将集群资源划分成不同队列以及限制用户最大运行作业数来保证公平性,然而这也导致了集群整体资源利用率非常低下。SLURM和HTCondor都是近年来流行的开源资源管理系统,前者拥有丰富的作业调度策略,后者非常适合高吞吐量计算,二者都能够替代老旧、缺乏维护的TORQUE/Maui,都是管理计算集群资源的可行方案。在SLURM和HTCondor测试集群上模拟大亚湾实验用户的作业提交行为,对SLURM和HTCondor的资源分配行为和效率进行了测试,并与相同作业在高能物理研究所TORQUE/Maui集群上的实际调度结果进行了对比,分析了SLURM及HTCondor的优势和不足,探讨了使用SLURM或HTCondor管理高能物理研究所计算集群的可行性。  相似文献   

姜姗  刘方爱 《微机发展》2006,16(12):86-88
资源调度是计算网格资源管理系统的主要内容之一。文中借鉴市场模型中的拍卖机制,通过用户代理、资源代理、拍卖师和资源的交互作用,设计并实现了一个基于多任务拍卖的网格资源调度原型系统,系统使用多拍卖师结构,提高了作业的吞吐率并且可以有效地防止拍卖过程中双方的欺骗行为,改进了网格资源的调度性能。同时,与传统算法相比,该算法能够有效地配置资源和满足用户的服务质量需求。  相似文献   

资源调度是计算网格资源管理系统的主要内容之一。文中借鉴市场模型中的拍卖机制,通过用户代理、资源代理、拍卖师和资源的交互作用,设计并实现了一个基于多任务拍卖的网格资源调度原型系统,系统使用多拍卖师结构,提高了作业的吞吐率并且可以有效地防止拍卖过程中双方的欺骗行为,改进了网格资源的调度性能。同时,与传统算法相比,该算法能够有效地配置资源和满足用户的服务质量需求。  相似文献   

介绍了基于R-GMA体系结构的记账系统,在Open PBS环境下实现了对用户/组等细粒度的记账功能,系统以图表方式直观地显示了各种情况下计算集群资源使用情况的统计信息。由于采用R-GMA体系结构,因此该系统可以移植到网格计算环境中。  相似文献   

如何高效和方便的使用计算资源是网格计算里迫切需要解决的问题之一。为了解决该问题,本文基于Linux命令行,开发一种超级计算环境(SCE)。在SCE中,用户可以完成作业的提交、编译、查询和文件下载等工作。SCE的部署配置操作简单,并具备高度可扩展的特性。通过屏蔽底层计算节点的异构性,使得其在网格计算中适用环境更加广泛。  相似文献   

计算网格环境下一个统一的资源映射策略   总被引:48,自引:3,他引:48  
丁箐  陈国良  顾钧 《软件学报》2002,13(7):1303-1308
由于资源具有广域分布、异构、动态等特性,计算网格环境下资源的管理和调度是一个非常复杂且具有挑战性的问题.提出了计算网格环境下一组相互独立的计算任务(meta-task)的资源映射策略.该策略采用重复映射方法,以更好地适应网格计算环境下的动态性和自治性.算法考虑到任务的输入数据位置对映射效果的影响;通过定义效益函数,该策略在追求较小的任务完成时间的同时兼顾任务的服务质量(QoS)需求.模拟实验结果显示,该映射策略更符合计算网格的复杂环境,能够更好地满足不同用户的实际需要.  相似文献   

孙忱  刘振安 《测控技术》2004,23(11):46-48
研究如何使用Jini来实现集群网格计算环境,给出系统模型JCGE(a Jini-based cluster grid environment),设计一个在此模型上进行并行计算的通用算法,并在集群主机上对此模型及算法进行测试,从而证实其有效性.  相似文献   

An ant algorithm for balanced job scheduling in grids   总被引:1,自引:1,他引:0  
Grid computing utilizes the distributed heterogeneous resources in order to support complicated computing problems. Grid can be classified into two types: computing grid and data grid. Job scheduling in computing grid is a very important problem. To utilize grids efficiently, we need a good job scheduling algorithm to assign jobs to resources in grids.In the natural environment, the ants have a tremendous ability to team up to find an optimal path to food resources. An ant algorithm simulates the behavior of ants. In this paper, we propose a Balanced Ant Colony Optimization (BACO) algorithm for job scheduling in the Grid environment. The main contributions of our work are to balance the entire system load while trying to minimize the makespan of a given set of jobs. Compared with the other job scheduling algorithms, BACO can outperform them according to the experimental results.  相似文献   

云计算集群中的资源存在异构和节点稳定性问题.异构资源的计算能力不同会导致较突出的作业任务同步问题,而某个节点的不稳定状态会使运行于该节点的任务大量备份或重新计算.针对上述两问题将严重影响集群作业的执行进度,在Hadoop平台下利用统计方法,提出一种资源调度算法,对计算资源较少的节点和不稳定状态的节点进行标志并降权,让集群尽可能调度资源较好的稳定节点.实验结果表明,该算法能够在一定程度上减少作业的周转时间,提高集群的效率和吞吐量.  相似文献   

卢大勇  陆琪  姜恺 《计算机工程》2011,37(11):34-36
提出一种基于模板的高性能计算应用封装方法——HPC-APT。该方法具有平台无关性,并且语法简单、易于维护和扩展、用户界面友好。HPC-APT可应用于现今主流的网格中间件或云计算平台上,支持Web和Windows应用。HPC用户可以通过Web或Windows应用界面向远程HPC集群提交作业,从而降低使用HPC的准入门槛,提高HPC集群的可用性。  相似文献   

Cluster architectures are increasingly used to solve high‐performance computing applications. To build more computational power, sets of clusters, interconnected by high‐speed networks, can be used in an elaboration to form a cluster grid. In this type of architecture, it is difficult to exploit all the internal resources of a cluster, because each one can be shielded by a firewall and is usually configured with machines where there is only one visible IP front‐end node that hides all its internal nodes from the external world. The exploitation of resources is even more complicated if we consider the general case where each internal node of a cluster can be a front‐end node of an another cluster. This type of architecture has been defined as a multilayer cluster grid. In this paper, a Parallel Virtual Machine (PVM) extension is presented which, through a middleware solution based on the H2O distributed metacomputing framework, permits the building of a parallel virtual machine in a multilayer cluster grid environment. In addition, the existing code written for PVM can be executed into this environment without modifications. Copyright © 2007 John Wiley & Sons, Ltd.  相似文献   

Cluster computing is an attractive approach to provide high‐performance computing for solving large‐scale applications. Owing to the advances in processor and networking technology, expanding clusters have resulted in the system heterogeneity; thus, it is crucial to dispatch jobs to heterogeneous computing resources for better resource utilization. In this paper, we propose a new job allocation system for heterogeneous multi‐cluster environments named the Adaptive Job Allocation Strategy (AJAS), in which a self‐scheduling scheme is applied in the scheduler to dispatch jobs to the most appropriate computing resources. Our strategy focuses on increasing resource utility by dispatching jobs to computing nodes with similar performance capacities. By doing so, execution times among all nodes can be equalized. The experimental results show that AJAS can improve the system performance. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

本文介绍了网格技术的现状和近期发展,讨论了集群服务器作为网格节点的重要组成部分在网格计算中的重要作用,重点给出了计算包在到达网格节点时的一种数学模型,并利用这种数学模型对网格节点的分布计算策略进行了分析。这对充分利用集群服务器计算资源、提高网格节点的服务能力有着重要意义。  相似文献   

Cloud datacenters host hundreds of thousands of physical servers that offer computing resources for executing customer jobs. While the failures of these physical machines are considered normal rather than exceptional, in large-scale distributed systems and cloud datacenters evaluation of availability in a datacenter is essential for both cloud providers and customers. Although providing a highly available and reliable computing infrastructure is essential to maintaining customer confidence, cloud providers desire to have highly utilized datacenters to increase the profit level of delivered services. Cloud computing architectural solutions should thus take into consideration both high availability for customers and highly utilized resources to make delivering services more profitable for cloud providers. This paper presents a highly reliable cloud architecture by leveraging the 80/20 rule. This architecture uses the 80/20 rule (80% of cluster failures come from 20% of physical machines) to identify failure-prone physical machines by dividing each cluster into reliable and risky sub-clusters. Furthermore, customer jobs are divided into latency-sensitive and latency-insensitive types. The results showed that only about 1% of all requested jobs are extreme latency-sensitive and require availability of 99.999%. By offering services to revenue-generating jobs, which are less than 50% of all requested jobs, within the reliable subcluster of physical machines, cloud providers can make their businesses more profitable by preventing service level agreement violation penalties and improving their reputations.  相似文献   

为了协调网格计算中异构资源在多用户之间的合理共享,满足不同用户需求,该文提出一种基于ECT的优先权约束作业调度策略。该策略充分考虑不同作业的期望完成时间,并通过为不同级别用户设置优先级,使得高优先权用户的作业优先执行,保证绝大多数作业在期望完成时间之内完成,同时平衡了各种资源的利用率。该策略解决了网格环境下不同类别用户无冲突共享资源问题,提高了用户满意程度,实现了作业与异构资源之间的合理匹配。  相似文献   

基于气象水文和网格技术的发展现状,结合气象水文领域的应用特点,提出了一种可扩展的气象水文网格模型,重点研究网格技术在气象水文领域的应用框架及其模块结构。该网格模型首先通过网格技术将异构的气象水文资源进行整合和统一管理;抽取各气象水文应用的公共元素,提供统一的用户认证和用户活动控制;并在此基础上通过动态承载气象水文应用服务的办法来保证各类应用的独立运行,同时各种新的气象水文应用可以加载到已有的网格环境。分析表明该气象水文网格模型具有很强的灵活性和可扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号