期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王文浩姜金荣王玉柱迟学斌《数据与计算发展前沿》2015,6(3):60-67

LICOM是中国科学院大气物理研究所开发的全球海洋环流模式,广泛应用于海洋研究和气候预测。随着分辨率的提高,LICOM对计算的要求呈几何级数的增长。多核或众核已成为当前主流的高性能计算体系结构,原LICOM程序只使用了MPI并行,无法发挥混合架构的高性能。本文介绍了如何在分析LICOM特征基础之上,应用OpenMP及其它优化手段对LICOM进行MIC移植和并行优化,详细介绍了模式优化的实现过程。并通过数值试验证明了优化前后的计算效果有一定提高。相似文献

2.

FGOALS性能优化技术研究

《计算机应用与软件》2013,(5)

中国科学院大气物理研究所气候系统模式FGOALS是一个灵活的全球"海洋-大气-陆面-海冰"完全耦合的、"非通量订正"的环流模式。通过对FGOALS的性能分析数据,研究提高数据访问局部性、增加程序向量化率、消除冗余计算以及并行通信优化等优化方法。实验结果表明,优化后模式在神威高性能计算机系统上部分核心函数性能加速1.2-1.8倍,部分通信函数性能加速3-3.3倍。相似文献

3.

GPU在海洋环流模式POP中的应用 总被引：1，自引：0，他引：1

宋振亚刘海行雷晓燕赵伟《计算机应用与软件》2010,27(10)

在CUDA(Compute Unified Device Architecture)架构下将GPU(Graphic Processing Unit)计算首次应用到海洋环流模式POP(Parallel Ocean Program)中.测试结果表明:无论高分辨率还是低分辨率,GPU都能够提高海洋环流数值模式POP的计算速度,GPU加速比最低都在1.5倍以上,最高可以超过2.2倍;并且随着模式使用线程数目的增多,GPU的加速比在降低,但是GPU利用效率在增长. 相似文献

4.

大气环流模式性能特点分析

张诚刘利李锐喆杨广文《计算机工程与应用》2016,52(14):1-6

地球系统模式是模拟气候系统行为和变化的重要工具,在气候研究中扮演着重要的角色。大气环流模式是地球系统模式的一个重要部分。地球科学的快速发展对大气环流模式的分辨率提出越来越高的要求。高性能计算机的发展为更高分辨率大气环流模式的研究提供必要的硬件环境。但是当前并没有针对大气环流模式的高性能计算的特征和需求等方面的研究。中科院大气所（LASG）发展的格点大气环流模式（GAMIL）被选为代表,分析大气环流模式的性能特点,并且建立了性能模型。这些分析和性能模型将为预测未来大气环流模式的性能特征和提升性能提供帮助。相似文献

5.

大规模海洋数据同化的并行优化

蔡迪洪学海肖俊敏谭光明《计算机研究与发展》2023,(5):1177-1190

海洋数据同化是一种同时利用海洋观测资料和海洋数值模式对海洋数据进行修正的有效方法，经过处理的海洋数据更加接近海洋的真实情况.在高分辨率下，基于中国科学院大气物理研究所（Institute of Atmospheric Physics,Chinese Academy of Sciences,IAP）和大气科学和地球流体力学数值模拟国家重点实验室（State Key Laboratory Modelling for Atmospheric Sciences and Geophysical Fluid Dynamics,LASG）发展的LASG/IAP气候系统海洋模式（LASG/IAP climate ocean model,LICOM）的同化并行程序往往涉及大量的文件读取、通信和计算，以往的研究虽然对这些方面进行了优化，但是由于优化只是停留在上层算法层面，没有考虑底层的文件系统以及超算集群的架构，因此优化的效果不太明显.针对以往研究存在的问题，进一步将海洋数据同化的数据特性、计算特性与所使用的超算平台的架构特性相结合，在此基础上结合时间局部性和空间局部性，提出了基于计算拓扑图的负载均衡策略... 相似文献

6.

海洋环流数值模式POP的GPU并行优化

郭松窦勇雷元武《计算机工程与科学》2012,34(8):147-153

POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU平台上,并采用了网格块间并行和网格块内并行相结合的多层次并行实现全局存储器合并访问,减少局部存储器的使用,利用寄存器提高数据重用度和增大GPU端代码以减少CPU与GPU间的通信等优化策略。实验结果表明,与运行在Intel Xeon X56756核处理器上的串行程序和6进程并行程序相比,GPUPOP可以分别获得8.47倍和1.5倍的加速效果。相似文献

7.

全球涡分辨率并行海洋模式POP在神威蓝光上的移植和应用 总被引：1，自引：0，他引：1

赵伟雷晓燕陈德训等《计算机应用与软件》2014,(5):42-45

基于中国自行研制的超大规模并行计算机神威蓝光平台,对海洋环流模式POP进行移植和进一步优化,并进行模式和机器的并行测试。测试结果表明:0.1度分辨率在5 000核以内达到了线性加速比,随着使用线程数目的增多,虽然加速比依然增加,但是加速效率在降低,当线程数目达到24 000的时候加速比出现降低,加速效率只有12.6%;0.05度分辨率可在12 000核以内达到了线性加速比,同样随着线程数目的增多加速在增多但加速效率在降低,当线程数目达到32 000的时候加速比出现降低,加速效率只有25.7%。经过优化后的海洋环流模式POP在神威蓝光并行计算机系统上具有良好的兼容性,并行效率较高,而且具有很强的可扩展性,可用来开展超大规模的并行计算。对测试结果的进一步分析发现,发展并行性良好的线性方程组求解方案、快速高效的计算网络协议等问题是未来发展高分辨率模式中需解决的问题。相似文献

8.

一种新的自适应并行预取算法

毛友发杨明福《计算机工程》2004,30(18):33-34,121

研究了并行存储预取优化算法，根据并行存储的主要访问模式，提出要同时对文件内数据块访问和文件间访问进行建模，并对文件内数据块访问和文件间访问建模分别提出了E_IS_PPM算法和Last_N_Successor算法。最后将两个算法结合起来，提出了文件预取综合算法，算法根据计算和存储的可重叠程度以及文件预取页面的可获得性，自适应地决定预取深度。相似文献

9.

云计算环境下格陵兰海盐度数据提取算法研究

《计算机应用与软件》2016,(7)

海洋盐度与海洋浮游植物和海洋温度具有紧密联系,是研究海洋环流和海洋对气候影响的重要参量。以美国NOAA全球海洋信息数据库为数据来源,以经度65°N-85°N、维度20°W-10°E之间的北极格陵兰海地区为研究区域,详细讨论盐度数据的提取,提出时间复杂度为O(n)的盐度数据分步归并算法。利用微软Azure公有云按需付费、动态扩展的特点,获取廉价、便捷的计算资源,大大提升了计算效率。该算法具有很强的可扩展性,可以根据实际计算需求动态调整所需的计算资源,从而能满足不同计算规模的需求。实验结果表明,该算法可以对海量原始盐度数据进行快速分析和归并,生成经纬度、时间、盐度三个维度上的数据。相似文献

10.

网络计算中计算与数据存储的可扩展结构研究 总被引：1，自引：0，他引：1

曾碧卿陈志刚吕西红《电脑与信息技术》2005,13(1):8-11

在分析网络计算中数据存储新特点和传统存储方式缺陷的基础上,提出了一种信息存储与数据计算相分离的具有可扩展性的数据存储新结构,讨论了存储与计算相分离的可实现性,它包括：存储与计算的差异、系统分离的可能性及必要性,提出了存储与计算分离后的实现模式,指出了网络计算环境中数据存储的发展方向。相似文献

11.

面向多机群网格的通信模型

陈庆奎那丽春《计算机工程与应用》2006,42(27):103-105,120

在由多计算机机群构成的数据密集型网格环境下,为了解决通信峰值阶段的通信冲突问题,提出了一个基于能力优化机制的通信模型;给出了由多机群组成的数据密集型网格数据节点(DGDN)等形式化定义。利用计算节点通信能力、机群网络通信能力、主被动队列和分组优化策略、反向流压控制机制,研究了单个机群内的通信模型,并描述了网格上的通信模型。理论分析和实践表明,该模型有效地解决了数据密集型网格环境下通信峰值所造成的并行计算效率低下的问题。该模型适合于基于网格的数据密集型并行计算。相似文献

12.

国产SW26010-Pro处理器上3级BLAS函数众核并行优化

胡怡陈道琨杨超马文静刘芳芳宋超博孙强史俊达《软件学报》2024,35(3):1569-1584

BLAS (basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外, BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access, RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access, DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术... 相似文献

13.

基于能力优化机制的网格分组通信模型

那丽春陈庆奎席与亨《计算机应用与软件》2006,23(8):17-18,144

在由多计算机集群构成的数据密集型网格环境下，为了解决通信峰值阶段的通信冲突问题，在GCA模型的基础上，提出了一个基于能力优化机制的分组通信模型OGCM（Optimizing Group Communication Model）。实践表明，该模型有效地解决了数据密集型网格环境下通信峰值所造成的并行计算效率低下的问题。该模型适合于基于网格的数据密集型并行计算。相似文献

14.

MPI并行调试与优化策略在三维绕流气体运动论数值模拟中的应用

徐金秀李志辉尹万旺《计算机科学》2012,39(5):300-303

从求解三维绕流问题的Boltzmann模型方程的数值模拟程序出发,通过研究区域分解并行计算策略,引入输入/输出、通信与CACHE等优化策略,对数值模拟程序进行MPI并行化移植与高性能计算调试。以高空稀薄过渡流区飞行器绕流状态为算例,进行了MPI大规模并行计算测试,证实了所发展的MPI并行化区域分解策略及程序优化途径的正确性。研究表明开展的并行化实现能明显地缩短模式计算时间,并取得较好的效果。相似文献

15.

基于Spark框架和PSO优化算法的电力通信网络安全态势预测

金鑫李龙威苏国华刘晓蕾季佳男《计算机科学》2017,44(Z6):366-371

随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spark内存计算框架的并行PSO优化神经网络算法对电力通信网络的安全态势进行预测。本研究首先引入Spark计算框架,Spark框架具有内存计算以及准实时处理的特点,符合电力通信大数据处理的要求。然后提出PSO优化算法对神经网络的权值进行修正,以增加神经网络的学习效率和准确性。之后结合RDD的并行特点,提出了一种并行PSO优化神经网络算法。最后通过实验比较可以看出,基于Spark框架的PSO优化神经网络算法的准确度高,且相较于传统基于Hadoop的预测方法在处理速度上有显著提高。相似文献

16.

GRAPES动力框架中大规模稀疏线性系统并行求解及优化

张琨贾金芳严文昕黄建强王晓英《计算机工程》2022,48(1):149-154+162

赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子（ILU）优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。相似文献

17.

GPU矩阵乘法的性能定量分析模型

尹孟嘉许先斌熊曾刚张涛《计算机科学》2015,42(12):13-17, 22

性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基本组成部分,是一种具有计算和访存密集特点的典型应用,其性能是GPU高性能计算的一个重要指标。性能模型作为并行系统性能评价的新的技术解决方案,具有许多其它性能评价方法无法比拟的优势。建立了一个性能模型,模型通过对指令流水线、共享存储器访存、全局存储器访存进行定量分析,找到了程序运行瓶颈,提高了执行速度。实验证明,该模型具有实用性,并有效地实现了矩阵乘法的优化。相似文献

18.

Spark并行计算框架的内存优化

廖旺坚黄永峰包从开《计算机工程与科学》2018,40(4):587-593

以Spark为代表的集群并行计算框架在大数据、云计算浪潮中广泛应用,其运行性能优化是应用的关键。为提高运行性能,分析了Spark框架执行流程、内存管理机制,结合Spark和JVM两个层面内存管理的特点,提出3条优化策略：(1)通过序列化和压缩方式减少缓存数据大小,使得GC消耗降低,提升性能;(2)在一定范围内减少运行内存大小,用重算代替缓存,可以提升性能;(3)配置适当的JVM新生代和老生代的比例、Spark计算与缓存空间比例等内存分配参数,能够较大程度地提升性能。实验结果表明,序列化和压缩能够减少缓存占用空间42%;提交运行内存由1 000 MB减少到800 MB时,性能增加21%;优化内存配比,性能比默认参数有10%～30%的提升。相似文献

19.

基于GPU的GRAPES数值预报系统中RRTM模块的并行化研究

郑芳许先斌向冬冬王卓薇徐鸣《计算机科学》2012,39(106):370-374

GRAPES(Global and Regional Assimilation and Prediction System)是由中国气象科学研究院自主研究开发的中国新一代数值天气预报系统,由于其处理的数据量非常庞大以及对实时性的要求较高,因此一直是并行计算领域研究的热点。首次运用GPU(图形处理器)通用计算及CUDA技术对CRAPES_Meso。模式中物理过程的RRTM(快速辐射传输模式)长波辐射模块进行并行化处理。在性能分析的基础上,针对GPU体系结构的特点,从代码优化、存储器优化、编译选项等方面对程序性能进行优化,并取得了14X倍的加速比。经过测试表明,长波辐射RRTM模块在GPU上并行计算过程正确、稳定而且有效,并为GRAPES系统未来在GPU平台上的并行化发展奠定了一定的基础。相似文献