首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
高性能集群管理与优化   总被引:1,自引:0,他引:1  
针对高性能集群系统的特点,介绍了与其相关的管理方法并系统实现了高性能集群从硬件到软件的一种优化方法和策略,提出了运行用户作业所需申请的最佳计算节点数的方法.最后,针对当前集群文件管理系统中出现的问题,提出了一种新的基于OSD模型的集群文件系统-- OCVFS及其实现思想.  相似文献   

2.
围绕国家人工智能战略布局和发展需求,基于“碳中和”政策目标,介绍了高性能计算服务器集群建设方案,包括高性能计算集群、节能建设、分布式存储集群、高性能计算网络等方案建设。分析高性能计算服务器集群管理需求,并探析了高性能计算服务器集群管理方法。  相似文献   

3.
针对单一集群用户提交大量作业时系统响应时间长的问题,提出了一种多集群系统中资源监控的设计方案,该方案主要是对集群中各个子节点所有可用资源的状况进行监控,采集子节点的资源信息,并将收集到的集群节点负载信息传送给作业控制模块,使得作业根据分布在多集群环境中的计算资源负载情况进行作业跨集群调度。此方案可用于商业、高校等计算节点比较多的场所,提高工作效率,此方案已在高性能计算中应用,运行状况稳定。实验结果表明,当用户并提交作业和查询作业状态时,多集群系统响应时间优于单一集群系统响应时间。  相似文献   

4.
《软件工程师》2019,(2):38-41
高性能计算集群软件是高性能计算平台的核心,如何高效地利用平台性能是集群软件面对的主要问题。联想智能超算平台LiCO致力于提供简单、易用、丰富的高性能计算及人工智能平台,具有管理、监控、报警、作业调度等多项高性能计算功能。本文简要介绍了高性能计算集群架构后,详细描述了LiCO软件的高性能计算功能。该软件不但具有高性能计算功能,在人工智能领域也在不断深入探索与研发。  相似文献   

5.
在高性能计算集群中,优秀的作业调度软件和作业调度策略对系统的高效运行起着至关重要的作用,目前针对作业调度策略的研究多集中在单个策略的深入挖掘,少有整合多个策略考虑的文章。针对集群作业的运行特点,提出了一种基于节点负载情况自定义优先级回填的调度策略,可以有效提高性能和计算集群的运行效率。  相似文献   

6.
高性能计算是实现大规模并行计算的有效途径,本文论述了如何构建一个高性能集群,介绍了集群安装工具--Rocks,分析Rocks安装机制、特点以及Rocks如何管理集群,利用Rocks搭建了一个基于Linux的高性能集群平台,并在该平台上实现了量子化学软件Gaussian的应用,进一步测试了Rocks系统的性能。  相似文献   

7.
高性能集群不具备作业自动调度和负载均衡的功能。采用开源的作业管理系统定制开发集群管理系统,解决集群“难用难管”的问题。作为一种开源的队列管理和作业调度系统,PBS目前已经广泛应用于集群管理当中。通过Shell脚本应用开发,将不同类型的应用作业转换为相应的PBS作业脚本纳入系统管理。利用PBS系统进行必要的定制开发工作,在较少改变科研人员工作习惯的前提下,实现Paradigm公司EPOS处理系统集群队列管理和作业分发管理。  相似文献   

8.
集群技术已经成为高性能计算的主流方向,集群资源管理系统的好坏直接影响到集群系统性能的发挥.文中简单介绍了几种主流的集群资源管理系统,重点介绍了PBS资源管理系统的组成、功能,给出一个应用实例,并针对网格研究的发展,指出集群资源管理系统今后应该加强资源的动态加入退出、作业的迁移、资源使用的计费和安全问题的研究.  相似文献   

9.
集群资源管理系统PBS及其应用   总被引:2,自引:0,他引:2  
集群技术已经成为高性能计算的主流方向,集群资源管理系统的好坏直接影响到集群系统性能的发挥。文中简单介绍了几种主流的集群资源管理系统,重点介绍了PBS资源管理系统的组成、功能,给出一个应用实例,并针对网格研究的发展,指出集群资源管理系统今后应该加强资源的动态加入退出、作业的迁移、资源使用的计费和安全问题的研究。  相似文献   

10.
高性能遥感数据集群处理技术提高了遥感数据处理的速度和精度。作业调度管理是集群处理系统的核心组成部分,有助于提高系统的吞吐率和资源使用率。常用调度管理系统通用性强,但针对性差,自动化程度低,资源使用存在盲目性。针对遥感数据集群处理,基于集群作业调度管理系统Open PBS,提出一种最优资源自动分配的"双级调度策略";应用分层架构和面向服务的软件开发思想,采用ICE中间件的网络通信技术,使用XML格式作为数据交换模式,研究并实现C/S(Client/Server)架构的灵活、友好、高效的遥感数据集群处理作业调度管理系统。  相似文献   

11.
The Land Information System (LIS) was developed at NASA to perform global land surface simulations at a resolution of 1-km or finer in real time. Such unprecedented scales and intensity pose many computational challenges. In this article, we demonstrate some of our approaches in high-performance computing with a Linux cluster to meet these challenges and reach our performance goals. These approaches include job partition and a job management system for parallel processing on the cluster, high-performance parallel input/output based on GrADS–DODS (GDS) servers, dynamic load-balancing and distributed data storage techniques, and highly scalable data replication with peer-to-peer (P2P) technology. These techniques work coherently to provide a high-performance land surface modeling system featuring fault tolerance, optimal resource utilization, and high scalability. Examples are given with LIS's high-resolution modeling of surface runoff during 2003 to illustrate LIS's capability to enable new scientific explorations.  相似文献   

12.
机群作业管理是机群系统软件的重要组成部分,作业调度策略则是机群作业管理系统的核心.作业调度策略的选择不仅关系到机群系统的效率,还影响了用户作业的响应时间.目前,Firstfit调度算法已经相当成熟并且广泛应用于机群作业调度.传统的Firstfit算法虽然着眼于减少资源碎片,但未能解决作业饥饿问题.曙光超级服务器作业管理系统JMS改进了既有的结合Firstfit和优先级的作业调度算法P-FIFT,将预约和回填策略与Firstfit相结合,引入了新的RB-FIFT调度策略.实验结果表明,与传统Firstfit算法及P—FIFT算法比较,RB-FIFT调度策略不但能够消除系统中作业的饥饿现象,而且大大减少了资源碎片,提高了系统的吞吐率和资源利用率.  相似文献   

13.
网络集群计算系统中的并行任务调度   总被引:12,自引:0,他引:12  
基于多处理机并行任务调度模型,探讨网络集群计算系统中的并行任务调度问题,首先证明了一般网络集群计算系统中调度算法的可近似性难度,然后提出了三种不同的启发式算法:最大长度优先调度算法、最大宽度优先调度算法和最大面积优先调度算法;然后根据大量的模拟实验对这些算法以及文献中已提出的调度算法进行了比较分析,结果表明该文的启发式算法比文献中的算法在性能上效果更好。  相似文献   

14.
单一系统映象在机群管理中的实现   总被引:2,自引:0,他引:2  
单一系统映象是机群系统的关键技术。文章讨论了机群单一系统映象的含义,提出了一种用于并行计算机群管理的单一系统映象模型,实现了机群单一控制和单一作业管理,解决了机群系统难于管理、管理方式可视化不强等问题。  相似文献   

15.
网格环境下的集群系统作业管理研究   总被引:2,自引:4,他引:2  
网格计算已经逐渐形成一个重要的新领域。相对于传统的分布式计算,它的显著之处在于它能够共享网络上的各种资源,包括地理上分布的各种计算资源。PBS是广泛应用于并行计算机的作业管理系统,它可以按照用户定义的配置参数相对公平地为每个作业分配系统资源。但是在网格环境范围内对集群系统进行管理仍然是一门有待研究的课题。利用网格系统软件和集群系统管理软件,实现了一种在网格环境下对集群系统作业进行管理的方法。  相似文献   

16.
实现了一个作业管理集群系统。为了满足现在的企业越来越对运行环境的高可靠性和可随意进行升级提出更高的要求,在项目的开发过程中提出并实现了动态恢复管理技术。  相似文献   

17.
高性能集群的作业调度通常使用作业调度系统来实现,准确填写作业运行时间能在很大程度上提升作业调度效率。现有的研究通常使用机器学习的预测方式,在预测精度和实用性上还存在一定的提升空间。为了进一步提高集群作业运行时间预测的准确率,考虑先对集群作业日志进行聚类,将作业类别信息添加到作业特征中,再使用基于注意力机制的NR-Transformer网络对作业日志数据建模和预测。在数据处理上,根据与预测目标的相关性、特征的完整性和数据的有效性,从历史日志数据集中筛选出7维特征,并按作业运行时间的长度将其划分为多个作业集,再对各作业集分别进行训练和预测。实验结果表明,相比于传统机器学习和BP神经网络,时序神经网络结构有更好的预测性能,其中NR-Transformer在各作业集上都有较好的性能。  相似文献   

18.
基于PBS的机群任务调度管理中间件的设计与实现   总被引:1,自引:0,他引:1  
介绍了基于PBS的机群任务调度管理中间件,是基于现在比较流行的调度系统PBS进行开发和封装,对上层提供了统一的接口.同时在该中间件中还封装了用户管理模块、配置模块和任务调度模块,采用基于XML的通信协议.该中间件具有很强的扩展性,可以扩展应用于LSF等多种流行的机群任务调度系统.最后,在该中间件之上,使用Java开发了前台图形界面,实现了一整套完备的具有实时监控和远程管理能力的机群任务管理系统.  相似文献   

19.
LUNF--基于节点失效特征的机群作业调度策略   总被引:1,自引:0,他引:1  
良好的可扩展性使得人们可通过扩大机群系统的规模来达到所需要的计算能力,但随着机群系统节点数目的增多,节点失效对机群系统性能的影响已经成为大规模机群系统使用过程中一个不可回避的问题.机群作业调度作为机群操作系统软件的重要组成部分,完成高效资源管理与合理作业调度,机群作业调度系统功能上可分为作业选取策略和节点分配策略两部分.结合机群系统节点失效的特征,提出了正常运行时间最长节点优先(longest uptime node first,LUNF)的节点分配策略.仿真结果表明,相对于节点随机分配策略,LUNF策略的作业平均响应时间与作业平均slowdown降低10%左右.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号