首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一、引言在当前的高性能计算研究中,网络并行超级计算系统(集群式计算系统,又称cluster是国内外研究的热点。网络并行超级计算可以以很低的价格提供高性能计算,能满足大多数用户的要求,特别适合在国内推广和使用。目前对高性能应用的需求要求越来越高,仅靠一台高性能计算机已经无法完成某些超大规模应用问题。这就需要将分布在不同地区、不同体系结构的高性能计算机通过高速网  相似文献   

2.
孙家昶  李会元 《软件学报》2021,32(8):2287-2288
中国科学院首个 C 类战略性先导科技专项“国产安全可控先进计算系统研制”(419 专项)主要目标已经达到.在数值软件层面,该专项第 1 阶段的主要任务是在国产复杂异构先进计算系统上研制高水平的基准测试软件HPL(high performance Linpack)与HPCG(high performance conjugate gradient). HPL 与 HPCG 是国际上最受关注的用于评测高性能计算机浮点运算性能的两款基准测试软件.HPL 通过高斯消去法求解稠密线性代数方程组来评测高性能计算机浮点性能的实际持续峰值,是目前全球超级计算机TOP 500 以及中国高性能计算机TOP 100 排行榜的依据.HPCG 是求解稀疏代数方程组的一种迭代算法.HPCG基准测试在国际上受到广泛关注,与HPL 相比,在一定程度上更能真实反映高性能计算机的实际应用性能.全球超级计算机 TOP 500 以及中国高性能计算机 TOP 100 均提供 HPCG 性能排行榜.如今,以计算速度为目标的HPL 与 HPCG 基准测试,不仅为高性能计算机性能排名提供一种依据,更已成为一种被高性能计算提供商、研究机构与应用部门广为接受的工业标准. 419 专项先后两次开展了HPL 与HPCG 基准测试.2019 年5 月在北京完成419 专项曙光7000 超级计算机基准测试,HPL 与HPCG 实测性能均一举超过全球超级计算机TOP 500 排名第一的超级计算机Summit,成为事实上的卫冕之王.2019 年11 月在江苏昆山再次完成曙光7000 超级计算机基准测试,HPL 与HPCG 实测性能分别达到TOP 500 蝉联第一的Summit 的1.68 倍和2.06 倍,其中,HPL 效率超过65%,HPCG 整机弱可扩展性并行效率达到93%.据此,419 专项顺利通过中国高性能计算机性能TOP 100 排行榜专家组的鉴定以及中国计算机协会专家组的肯定. 为此,《软件学报》编辑部特开设“国产复杂异构高性能数值软件的研制与测试”专题.专题拟聚焦国产复杂异构先进计算系统下的高性能计算软件、算法与测试技术,探讨软硬件总体结构与软件在先进计算系统中的地位与作用.专题定向邀请中科曙光、中国科学院计算技术研究所、中国科学院软件研究所、中国科学院计算机网络信息中心、中科海光等直接参与419 专项的相关研究团队,从学术层面交流复杂异构系统下的高性能计算基础软件的研制和优化的各种关键技术,总结高性能计算软件和应用研究中的挑战与对策.内容重点涵盖先进计算系统基准评测软件HPL、HPCG 等的研制、调优与测试及相应基础代数库BLAS/BLIS/ROCBLAS 等软件库的优化,也包含了若干高性能应用算法与软件的研制进展. 专题收到8篇投稿,先后邀请了十几位领域专家参与审稿,每篇稿件都由3 位专家历经2轮或3轮审稿,最终有7 篇论文入选本专题.  相似文献   

3.
在当前主流的众核异构高性能计算机平台上开展超大规模计算流体力学(computational fluid dynamics ,CFD)应用的高效并行数值模拟仍然面临着一系列挑战性技术问题,也是该领域的热点研究问题之一.面向天河2高性能异构并行计算平台,针对高阶精度C FD流场数值模拟程序的高效并行进行了探索,重点讨论了C FD应用特点与众核异构高性能计算机平台特征相适应的性能优化策略,从任务分解、并行度挖掘、多线程优化、SIMD向量化、CPU与加速器协同优化等方面,提出一系列性能提升技术.通过在天河2高性能异构并行计算平台上进行了多个算例的数值模拟,模拟的最大C FD规模达到1228亿个网格点,共使用约59万C P U+M IC处理器核,测试结果表明移植优化后的程序性能提高2.6倍左右,且具有良好的可扩展性.  相似文献   

4.
王桂彬  杨学军  唐滔  徐新海 《软件学报》2012,23(6):1382-1396
随着处理器功耗不断增大,功耗问题逐渐成为高性能计算机系统设计与实现的首要问题.当前,异构系统已成为高性能计算机的发展趋势之一.与传统同构体系结构相比,异构体系结构具有更高的理论峰值性能和能效,但是如何在满足应用性能的条件下充分发掘异构系统的能效优势,仍是一个挑战性问题.通过将应用程序抽象为由串行段和并行段组成的一般程序模型,建立了异构并行系统能耗优化模型通过分析方法依次给出并行段以及全程序(多程序段)能耗最优时处理器间满足的关系,分别给出了时间约束下能耗最优的处理器频率选择算法.最后,以CPU-GPU异构系统为平台,通过8个典型应用程序验证了方法的有效性.  相似文献   

5.
步入大数据时代之后,致力于解决大规模科学计算问题的高性能计算,得到越来越广泛的关注与应用。随着高性能计算机制造产业蓬勃发展,具有每秒上亿亿次浮点运算速度的高性能计算集群对高性能计算环境中间件的性能提出了更高的要求。现有的高性能计算环境中间件中,资源信息服务无法满足海量信息快速更新的需求。为了提高高性能计算环境中间件的性能,通过借鉴ETL技术,将资源信息传输方式优化为信息同步模式。优化后的信息同步模式在处理2000条作业状态更新时,延迟时间缩短90%、系统负载降低98%、网络连接数减少90%,为系统维护人员、环境用户带来更好的用户体验。  相似文献   

6.
陈少虎  张云泉  张先轶  程豪 《软件学报》2010,21(Z1):214-223
BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS 的多核并行性能已经变得比与体系结构相关的单核性能更加重要.实验以流行于高性能计算的Xeon、Opteron 系列多核X86 处理器为例,全面测试了GotoBLAS、Atlas、MKL 和ACML 四种主流的BLAS 库的所有1,2,3 级函数,并覆盖了不同计算规模和多核并行方面的测试.通过测试结果,分析源代码、BLAS 库资料和论文的方式,分析BLAS 有效的优化和并行方法,以及它们所适合的平台.为BLAS 的优化、使用,甚至高性能处理器的发展上提供有益的建议.实验结果表明,比起一个逻辑处理强大但是复杂的处理器,一个cache 更大、性能更好,内存带宽更宽、延迟更小,主频更高的处理器往往能在高性能计算中取得更好的性能.同时,X86 平台上的状况对其他体系结构也有巨大的借鉴意义.  相似文献   

7.
多核环境下AREM模式混合并行计算研究   总被引:1,自引:1,他引:0       下载免费PDF全文
使用多核处理器已成为构建高性能计算机系统的主流方式。结合多核高性能计算机系统集共享内存结构和分布式内存结构于一体的体系结构特点,对AREM模式开展MPI/OpenMP混合并行计算研究与实现。性能测试结果表明,使用MPI/OpenMP混合并行计算可以将并行应用扩展至更大处理机规模,缩短计算时间,不对原程序结构做大的改动、以增量方式和较小的并行化代价,取得比较好的并行计算效果。  相似文献   

8.
大规模并行处理技术是构建高性能计算的重要途径。该文论述了大规模并行处理技术的技术要点,并讨论了该技术在高性能计算机、高性能处理器及高性能系统芯片设计中的应用。  相似文献   

9.
功耗问题已经成为高性能计算机系统设计的重要问题。并行存储系统是高性能计算机系统的重要组成部分,降低其功耗对于降低整个并行系统功耗具有重要意义。并行存储系统由存储结点组成,降低存储结点功耗是降低并行存储系统功耗的重要部分。本文针对存储结点的处理器提出了功耗优化方法,根据利用率信息调节处理器电压/频率,并通过元数据服务器指导的频率预调节算法缓解因调频所引发的响应时间滞后问题。分析表明,该方法可以有效降低存储结点功耗,实现并行存储系统的功耗优化。  相似文献   

10.
2010年6月1日,对于中国高性能产业界来讲,是一个值得铭记日子,中国首台实测性能超千万亿次的超级计算机——曙光"星云"高性能计算机系统于北京国家会议中心正式发布,超千万亿次的计算能力再次刷新了中国高性能计算的最高速度。在德国时间2010年5月31日公布的第35届全球超级计算机TOP500排行榜中排名第二,创造了中国高性能计算机全球排名的最好成绩。  相似文献   

11.
为提高大型结构振动分析的规模、精度和效率,基于面向对象有限元并行计算框架PANDA和高性能矩阵特征问题并行求解算法,开发出适用于大规模结构振动问题计算的并行有限元模态分析程序;在超级计算机银河YH和曙光5000A上,通过不同算例验证该程序的正确性和可靠性.以某靶室结构为研究对象演示该程序的应用,指出实际应用时需注意加速...  相似文献   

12.
如果说之前大学还对CUP+GPU架构在高性能计算机领域的能力有所质疑,那么现在豪无疑问的是,未来的超级计算机和高性能计算机将由CPU+GPU的架构构成。什么是超级计算机和高性能计算?  相似文献   

13.
高性能计算是气象业务及科研应用的重要的基础平台,中国气象局 (China Meteorological Administration,CMA) 近年来相继引进多套高性能计算机系统,随着气象业务和应用能力的不断提高,系统利用率稳步上升,用户数也逐月增加,截止到 2012 年底,用户总数超过 600 人。用户数的增加、用户的变动导致系统中的用户信息不完整、错误以及无法更新,以至出现问题时无法及时联系到相关用户,对系统的维护管理及用户支持造成了一定的困难。本文介绍了对 CMA 多套高性能计算机系统上的用户信息进行统一管理的设计思路和具体实现,相关工作的完成有助于减少管理和维护成本,更好的为用户提供优质的支持和服务。  相似文献   

14.
三维地震声波理论与计算方法是地质勘探研究的基础,通过分析不同介质中声波的传播特性,完成三维地震声波正演模拟。针对三维地震声波有限差分交错网格方程正演过程中存在数值计算大、内存消耗大等实际问题,提出了基于神威·太湖之光超级计算机系统中国产异构众核处理器(申威26010)的三维地震声波正演模拟编程模型,完成了基于处理器间的进程级并行基于计算核心间的线程级并行优化策略。研究了DMA(直接内存读取)通信方式,提出2.5D流水线任务划分、通信与计算的相互掩盖的多角度优化策略。实验结果表明,该策略有效缓解了带宽瓶颈,发挥了处理器强大的计算能力,解决了程序在申威26010异构众核处理器处理有限差分问题时,并行效率过低的问题。在大规模测试下,使用266240个计算核心,程序仍能够保持稳定的计算性能,达到5.5 GFlops的场值更新。  相似文献   

15.
一种面向异构众核处理器的并行编译框架   总被引:1,自引:0,他引:1  
异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主要包括4个模块:任务划分模块用来识别适合进行加速计算的程序段,实现了嵌套循环的多维并行识别方法;数据布局模块完成数据在主存和SPM之间的布局,实现了数组边界分析和指针范围分析;传输优化模块实现了数据传输合并、传输外提、打包传输、数组转置等多种数据传输优化方法;收益评估模块在构建代价模型的基础上实现了一种动静结合的收益评估方法.并且,基于SW26010处理器,对该编译框架进行了实现,测试结果表明,该编译框架能够实现一些程序以面向异构众核结构的并行变换,且获得较好的加速效果.  相似文献   

16.
高性能计算机是一个国家信息技术水平的综合体现,高性能计算机主要针对两个应用方向:科学计算也即浮点运算、商务计算也即信息服务。科学计算对国家的科学技术研究水平的提高起着重要作用,然而相比较商务计算,后者对国民经济发展起到的推动作用更大。 目前,我国正处于高性能计算机整体突破的阶段,特别是高性能科学计算方面。2002年8月,联想率先研制成功了国内首台秒钟浮点运算突破万亿次的超级计算机,该机器在去年11月公布的全球高性能计算机TOP500排行榜中位列第43位,标志  相似文献   

17.
面对日益复杂的智能移动应用,多核处理器已成为高性能移动计算的一个有效解决方案。对于多核系统中的应用软件性能优化也是其中的研究重点。本文研究了并行程序设计算法和并行程序性能优化技术。通过对程序进行优化,可以使它充分的发挥多核的计算能力,其方法包括增加任务数量改善负载均衡,选择最优的线程与处理核之间关联策略,从而能够大幅提高系统的整体性能。  相似文献   

18.
高效能计算机系统虚拟化技术研究   总被引:1,自引:0,他引:1       下载免费PDF全文
高效能计算机对系统的性能、安全性、可靠性和易用性等方面提出了更高的要求。虚拟机技术由于具有安全性好、配置和管理灵活等特点,已广泛应用于服务整合和安全管理等领域。但是,由于虚拟机技术在性能、管理和体系结构适用性等方面原因,在高性能并行计算机系统上尚未真正实用。我们提出了一种面向高性能并行计算机的虚拟化技术:高性能虚拟计算域(HPVZ)。HPVZ技术在保证系统性能的前提下,提供了具有用户独立可定制运行环境、服务质量管理、安全隔离和动态迁移的虚拟化高性能计算环境。测试表明,HPVZ在保证用户可以获得高性能计算机的原始计算能力的基础上,方便了用户使用,并改变了高性能计算机的传统使用模式。  相似文献   

19.
陈虎  周鹏灵 《计算机应用》2023,(11):3517-3526
在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一方面基于消息队列机制开发国产高性能众核处理器的线程级并行机制;另一方面基于单指令多数据流(SIMD)编程模型开发从核上的数据级并行性。首先,对国产高性能众核处理器体系结构进行抽象;其次,设计模型的消息队列机制,并为程序员提供一套异构并行编程接口,如系统参数接口、从核线程控制接口、消息队列接口、SIMD抽象接口;最后,在上述基础上形成全新的高性能计算软件开发模型和方法,方便用户开发基于国产高性能众核处理器的并行计算软件。性能传输测试结果表明,在国产众核处理器上,当启动核数较少时,所提模型的传输带宽普遍达到了峰值直接内存访问(DMA)带宽的90%;当启动的核数较多时,消息队列模型的传输带宽普遍达到了峰值DMA带宽的70%。在矩阵乘法实验中,与系统原语传输矩阵并计算的性能相比,所提模型的性能达到前者的90%;在口令猜测系统中,所提模型的代码性能与直接使用最底层的接口开发的代...  相似文献   

20.
磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但都是在同构的超级计算机而不是目前主流的异构众核系统上进行计算.论文面向国产神威"太湖之光"超级计算机,开展面向磁流体动力学方程组的异构众核全隐求解器研究.针对Newton-Krylov这类全隐求解器,提出了面向申威26010众核处理器的异构众核并行算法,并对其核心函数开展了众核并行和优化.对核心函数稀疏矩阵向量乘采用Matrix Free的方法来提升性能,对稀疏三角求解采用基于几何信息的异构众核并行算法,针对其访存密集的特点提出了存储格式、数据读取与计算依赖分离、核间寄存器通信等多种优化方法,对非线性残差计算等stencil类计算及10多个向量函数进行了异构众核并行,该异构众核并行算法可被其它应用软件重用.论文采用二维磁场重联问题进行测试,实验结果表明16进程时加速比可达13.6倍,能够支持高分辨率长时间模拟,并准确捕捉磁场重联现象.另外整体并行扩展性已经达到53万核,强可扩展性并行效率达到了33.8%,弱可扩展性并行效率达到了80.7%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号