共查询到19条相似文献,搜索用时 109 毫秒
1.
2.
围绕国家人工智能战略布局和发展需求,基于“碳中和”政策目标,介绍了高性能计算服务器集群建设方案,包括高性能计算集群、节能建设、分布式存储集群、高性能计算网络等方案建设。分析高性能计算服务器集群管理需求,并探析了高性能计算服务器集群管理方法。 相似文献
3.
针对单一集群用户提交大量作业时系统响应时间长的问题,提出了一种多集群系统中资源监控的设计方案,该方案主要是对集群中各个子节点所有可用资源的状况进行监控,采集子节点的资源信息,并将收集到的集群节点负载信息传送给作业控制模块,使得作业根据分布在多集群环境中的计算资源负载情况进行作业跨集群调度。此方案可用于商业、高校等计算节点比较多的场所,提高工作效率,此方案已在高性能计算中应用,运行状况稳定。实验结果表明,当用户并提交作业和查询作业状态时,多集群系统响应时间优于单一集群系统响应时间。 相似文献
4.
5.
在高性能计算集群中,优秀的作业调度软件和作业调度策略对系统的高效运行起着至关重要的作用,目前针对作业调度策略的研究多集中在单个策略的深入挖掘,少有整合多个策略考虑的文章。针对集群作业的运行特点,提出了一种基于节点负载情况自定义优先级回填的调度策略,可以有效提高性能和计算集群的运行效率。 相似文献
6.
高性能计算是实现大规模并行计算的有效途径,本文论述了如何构建一个高性能集群,介绍了集群安装工具--Rocks,分析Rocks安装机制、特点以及Rocks如何管理集群,利用Rocks搭建了一个基于Linux的高性能集群平台,并在该平台上实现了量子化学软件Gaussian的应用,进一步测试了Rocks系统的性能。 相似文献
7.
8.
集群技术已经成为高性能计算的主流方向,集群资源管理系统的好坏直接影响到集群系统性能的发挥.文中简单介绍了几种主流的集群资源管理系统,重点介绍了PBS资源管理系统的组成、功能,给出一个应用实例,并针对网格研究的发展,指出集群资源管理系统今后应该加强资源的动态加入退出、作业的迁移、资源使用的计费和安全问题的研究. 相似文献
9.
集群资源管理系统PBS及其应用 总被引:2,自引:0,他引:2
集群技术已经成为高性能计算的主流方向,集群资源管理系统的好坏直接影响到集群系统性能的发挥。文中简单介绍了几种主流的集群资源管理系统,重点介绍了PBS资源管理系统的组成、功能,给出一个应用实例,并针对网格研究的发展,指出集群资源管理系统今后应该加强资源的动态加入退出、作业的迁移、资源使用的计费和安全问题的研究。 相似文献
10.
高性能遥感数据集群处理技术提高了遥感数据处理的速度和精度。作业调度管理是集群处理系统的核心组成部分,有助于提高系统的吞吐率和资源使用率。常用调度管理系统通用性强,但针对性差,自动化程度低,资源使用存在盲目性。针对遥感数据集群处理,基于集群作业调度管理系统Open PBS,提出一种最优资源自动分配的"双级调度策略";应用分层架构和面向服务的软件开发思想,采用ICE中间件的网络通信技术,使用XML格式作为数据交换模式,研究并实现C/S(Client/Server)架构的灵活、友好、高效的遥感数据集群处理作业调度管理系统。 相似文献
11.
Y. Tian C.D. Peters-Lidard S.V. Kumar J. Geiger P.R. Houser J.L. Eastman P. Dirmeyer B. Doty J. Adams 《Computers & Geosciences》2008,34(11):1492-1504
The Land Information System (LIS) was developed at NASA to perform global land surface simulations at a resolution of 1-km or finer in real time. Such unprecedented scales and intensity pose many computational challenges. In this article, we demonstrate some of our approaches in high-performance computing with a Linux cluster to meet these challenges and reach our performance goals. These approaches include job partition and a job management system for parallel processing on the cluster, high-performance parallel input/output based on GrADS–DODS (GDS) servers, dynamic load-balancing and distributed data storage techniques, and highly scalable data replication with peer-to-peer (P2P) technology. These techniques work coherently to provide a high-performance land surface modeling system featuring fault tolerance, optimal resource utilization, and high scalability. Examples are given with LIS's high-resolution modeling of surface runoff during 2003 to illustrate LIS's capability to enable new scientific explorations. 相似文献
12.
RB-FIFT--一种结合Firstfit及预约回填策略的机群作业调度算法 总被引:3,自引:0,他引:3
机群作业管理是机群系统软件的重要组成部分,作业调度策略则是机群作业管理系统的核心.作业调度策略的选择不仅关系到机群系统的效率,还影响了用户作业的响应时间.目前,Firstfit调度算法已经相当成熟并且广泛应用于机群作业调度.传统的Firstfit算法虽然着眼于减少资源碎片,但未能解决作业饥饿问题.曙光超级服务器作业管理系统JMS改进了既有的结合Firstfit和优先级的作业调度算法P-FIFT,将预约和回填策略与Firstfit相结合,引入了新的RB-FIFT调度策略.实验结果表明,与传统Firstfit算法及P—FIFT算法比较,RB-FIFT调度策略不但能够消除系统中作业的饥饿现象,而且大大减少了资源碎片,提高了系统的吞吐率和资源利用率. 相似文献
13.
14.
单一系统映象在机群管理中的实现 总被引:2,自引:0,他引:2
单一系统映象是机群系统的关键技术。文章讨论了机群单一系统映象的含义,提出了一种用于并行计算机群管理的单一系统映象模型,实现了机群单一控制和单一作业管理,解决了机群系统难于管理、管理方式可视化不强等问题。 相似文献
15.
网格环境下的集群系统作业管理研究 总被引:2,自引:4,他引:2
网格计算已经逐渐形成一个重要的新领域。相对于传统的分布式计算,它的显著之处在于它能够共享网络上的各种资源,包括地理上分布的各种计算资源。PBS是广泛应用于并行计算机的作业管理系统,它可以按照用户定义的配置参数相对公平地为每个作业分配系统资源。但是在网格环境范围内对集群系统进行管理仍然是一门有待研究的课题。利用网格系统软件和集群系统管理软件,实现了一种在网格环境下对集群系统作业进行管理的方法。 相似文献
16.
17.
陈奉贤 《计算机工程与科学》2022,44(7):1181-1190
高性能集群的作业调度通常使用作业调度系统来实现,准确填写作业运行时间能在很大程度上提升作业调度效率。现有的研究通常使用机器学习的预测方式,在预测精度和实用性上还存在一定的提升空间。为了进一步提高集群作业运行时间预测的准确率,考虑先对集群作业日志进行聚类,将作业类别信息添加到作业特征中,再使用基于注意力机制的NR-Transformer网络对作业日志数据建模和预测。在数据处理上,根据与预测目标的相关性、特征的完整性和数据的有效性,从历史日志数据集中筛选出7维特征,并按作业运行时间的长度将其划分为多个作业集,再对各作业集分别进行训练和预测。实验结果表明,相比于传统机器学习和BP神经网络,时序神经网络结构有更好的预测性能,其中NR-Transformer在各作业集上都有较好的性能。 相似文献
18.
基于PBS的机群任务调度管理中间件的设计与实现 总被引:1,自引:0,他引:1
介绍了基于PBS的机群任务调度管理中间件,是基于现在比较流行的调度系统PBS进行开发和封装,对上层提供了统一的接口.同时在该中间件中还封装了用户管理模块、配置模块和任务调度模块,采用基于XML的通信协议.该中间件具有很强的扩展性,可以扩展应用于LSF等多种流行的机群任务调度系统.最后,在该中间件之上,使用Java开发了前台图形界面,实现了一整套完备的具有实时监控和远程管理能力的机群任务管理系统. 相似文献
19.
LUNF--基于节点失效特征的机群作业调度策略 总被引:1,自引:0,他引:1
良好的可扩展性使得人们可通过扩大机群系统的规模来达到所需要的计算能力,但随着机群系统节点数目的增多,节点失效对机群系统性能的影响已经成为大规模机群系统使用过程中一个不可回避的问题.机群作业调度作为机群操作系统软件的重要组成部分,完成高效资源管理与合理作业调度,机群作业调度系统功能上可分为作业选取策略和节点分配策略两部分.结合机群系统节点失效的特征,提出了正常运行时间最长节点优先(longest uptime node first,LUNF)的节点分配策略.仿真结果表明,相对于节点随机分配策略,LUNF策略的作业平均响应时间与作业平均slowdown降低10%左右. 相似文献