期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李俊醅庄子波《微机发展》2012,(7):5-8

WRF气象模式是高性能的并行计算,一般需要大型机进行并行计算和处理,文中将WRF系统构建在32核LINUX集群系统上,进行并行计算试验并确定出了该系统的合理的并行计算方式。选取了WRF个例分别对运算时间、加速比和并行效率做了性能测试。结果表明：处理器个数逐步增加至16时,WRF系统运算的总时间随个数单调减小,从16增加到26。系统运算的总时间变化总体趋势在减小,但变化不明显,存在一定的起伏,从26到32,总体上有增加的趋势。实验构建的集群系统具有较好的并行计算效率和加速比,当处理器个数为26时可以达到最大的加速比12．5,且并行效率达到48％,能够达到较好的并行运算效果。相似文献

2.

构建基于Windows和MPI的Beowulf并行计算系统 总被引：7，自引：0，他引：7

陈星黄卡玛《计算机工程与应用》2003,39(4):59-61

利用普通微机构建并行计算集群(常称为Beowulf系统),能够以低廉的价格获得强大的计算能力。文章介绍了利用16台微机构建一套Beowulf并行计算系统,节点微机上运行Windows2000操作系统,采用MPI(Message-Passing-Interface)的MPICH最新版本:MPICH.NT1.2.3作为并行计算的支撑环境,并以100Mbps高速交换式以太网作为互连网络。通过编制的并行计算程序对该Beowulf系统进行了并行效率的实际测试,测试结果表明该Beowulf系统能够达到非常高的并行加速比和并行效率。相似文献

3.

WRF数值气象预报模式系统在深腾6800上的移植与测试

高晋芳迟学斌姜金荣《计算机应用研究》2007,24(6):245-247,250

介绍了WRF中尺度数值气象预报模式与联想深腾6800高性能计算机系统;概述WRF模式在联想深腾6800上的移植与测试过程.采用3D数据集em_quarter_ss进行性能分析与正确性测试,并绘制气象图.分析串、并行状态的运算加速比与处理器个数间的关系,发现并行效率相当好,非常适用于机群系统.WRF在深腾6800上的成功移植与测试,也为进一步将WRF应用于中国国家网格奠定了研究基础. 相似文献

4.

WRF数值气象预报模式系统在深腾6800上的移植与测试*

高晋芳迟学斌姜金荣《计算机应用研究》2007,24(6):245-247

介绍了WRF中尺度数值气象预报模式与联想深腾6800高性能计算机系统;概述WRF模式在联想深腾6800上的移植与测试过程。采用3D数据集em_quarter_ss进行性能分析与正确性测试,并绘制气象图。分析串、并行状态的运算加速比与处理器个数间的关系,发现并行效率相当好,非常适用于机群系统。WRF在深腾6800上的成功移植与测试,也为进一步将WRF应用于中国国家网格奠定了研究基础。相似文献

5.

并行计算在弧形翼弹数值仿真中的应用

郑健周长省张磊《计算机仿真》2008,25(4):69-72

在以MPICH技术构建的局域网集群系统下,利用并行计算程序进行了超声速弧形翼-身组合体的三维绕流流场数值仿真,得到了弧形翼射弹的流场信息;并且通过对不同数量网格在集群不同结点数目下的计算结果进行分析比较,得出了加速比和并行效率随结点数目变化的规律,发现大规模网格在加速比和并行效率方面性能优越,更适合集群系统的并行计算,同时验证了此集群系统在数值仿真应用中的有效性和优越性,为进行大规模科学工程计算提供了技术支持. 相似文献

6.

在MPICH集群分布系统下复杂分子动力学的并行计算 总被引：1，自引：1，他引：0

李佳刘信安《计算机与应用化学》2005,22(11):963-966

在以MPICH技术构建的局域网集群系统下,利用分子动力学并行计算软件Protomol和三维分子模拟软件VMD构建大规模并行计算平台,完成若干复杂分子动力学典型实例的仿真运算。计算结果表明：采用并行计算能持续有效地利用现有计算机资源,同时大幅度提高计算效率,在现有并行集群系统下可以获得3倍以上的加速比,为实现复杂分子动力学的深入研究提供了可行方案。相似文献

7.

一个调度Fork-Join任务图的最优算法 总被引：5，自引：0，他引：5

李庆华阮幼林刘干蒋盛益杨世达《软件学报》2005,16(5):684-690

Fork-Join任务图是一种并行处理的基本结构.虽然许多算法在任务满足某些条件时能产生最优调度,但往往没有考虑节省处理器个数和减少任务集的总完成时间,从而降低算法的加速比和效率.因此,提出一种基于任务复制的平衡调度算法,其时间复杂度为O(vq+vlogv),v和q分别表示任务集中任务的个数和使用的处理器个数.通过分析已用处理器的负载和空闲时间段,把任务尽量分配到已用的处理器上以均衡负载,从而提高其利用率.实验结果表明,该算法的加速比和总体效率优于其他算法.因此,该算法对于高性能应用程序的调度是一个较好的选择. 相似文献

8.

一种求解线性方程组的SOR并行算法

下载免费PDF全文

张云周华民崔树标李德群《计算机工程与科学》2010,32(10):80-84

逐次松弛迭代算法(SOR)是求解线性方程组的一种常用迭代算法,当系数矩阵正定时,它具有较快的收敛速度。但是,由于每个迭代步内存在数据相关,它难以实现并行计算。目前的SOR并行算法采用数据分解的方法,但由于该法并行区域过小,同步通讯代价大,并行效率低。本文提出了SOR的一种新型并行算法,该算法与传统SOR方法等价,具有相同的收敛性和迭代结果。该并行算法通过矩阵分块增大了可并行计算的区域,并引入流水线技术,利用各处理器间通讯与计算时间的重叠,获得较理想的并行加速效率。通过多核微机以及小规模集群上的数值实验证明,本文提出的SOR并行算法在求解大型稠密线性方程组时具有较好的并行效率。相似文献

9.

Linux下集群系统的设计与实现

杨振宇《现代计算机》2010,(3):174-176

并行计算广泛地应用到各个领域,基于Liux集群的MPI并行环境是一个廉价而高效的并行计算系统.对网络文件系统NFS、Secure Shell(SSH)、消息传递接口MPI和集群系统作简单的介绍.详细记录配置NFS、SSH、MPI等软件的实现过程,并对设计的集群系统并行运算环境进行测试,测试结果说明这种并行计算环境具有良好的性能. 相似文献

10.

大整数Comba和Karatsuba乘法的多核并行化研究

蒋丽娟刘芳芳赵玉文杨超蔡颖《计算机系统应用》2016,25(11):232-236

大整数运算广泛地应用于公钥加密算法、大规模科学计算中高精度浮点数运算类以及构建大特征值等领域,然而其大部分算法空间和时间开销都很大,尤其对于核心运算之一的大整数乘法,当数据达到一定规模时,超长的串行计算时间已成为制约算法应用的巨大瓶颈.近几年来,伴随着多核、众核芯片的迅猛发展,通过充分挖掘算法本身的并行度以利用并行处理器的强大计算能力,进而高效地提升算法性能,成为一种研究趋势.本文基于通用多核并行计算平台,研究了大整数乘法Comba及Karatsuba快速算法的并行化,提出了高效的多核并行算法.在算法实现及性能优化上,采用了OpenMP+SIMD的多级并行技术,使性能获得巨大提升.在性能测试上,我们使用优化的并行算法与原始串行算法进行对比试验,结果显示,8线程并行Comba算法和Karatsuba算法相比串行对应算法分别实现了5.85倍以及6.14倍的性能加速比提升. 相似文献

11.

Beowulf并行计算系统的研究与实现

祝永志王国仁《计算机工程》2006,32(11):242-244

由高档微机或RISC工作站通过高速局域网连接呵成的集群系统的实现，使高性能计算机从研究与应用领域走进普通领域。该文介绍了如何在Linux操作系统下基于分布式存储结构构造一个由普通微机组成的Beowulf并行计算系统的方法。通过编制的并行计算算法对该Beowulf系统进行了并行效率的实际测试，测试结果表明该Beowulf系统具有很高的并行计算效率和并行加速比。相似文献

12.

PC集群环境下大规模矩阵乘法算法的研究

夏丽华张丽晓《计算机工程与设计》2007,28(19):4603-4605,4615

开发适合集群系统的并行数值算法,可以解决更多的科学与工程计算问题.在PC集群环境下,提出对Cannon算法的改进方案,采用重叠技术,使数据的计算和通信在时间上重叠,达到时延隐藏的目的,克服了网络传输的通信瓶颈问题;还提出一种自适应负载反馈平衡策略,很好地解决了集群负载平衡.该算法在PC集群系统环境下测试,取得了较好的并行效率,在4个结点上和8个结点上,加速比分别达到3.77和7.93. 相似文献

13.

基于时间分解求解时间依赖问题的并行算法研究

李永刚欧阳洁肖曼玉《数值计算与计算机应用》2007,28(1):27-37

基于Lions等建立的Parareal模型,提出了改进的时间分解并行算法,并给出收敛性证明．采用主从模式构造了通用的MPI算法流程,通过分析算法的并行加速比给出了最佳的粗细网格步长之比．在集群系统下分别对热传导方程和对流扩散方程进行并行计算,证明了算法无论对线性还是非线性的问题均具有良好的适应性和扩展性．数值模拟结果表明:时间分解并行算法仅需极少的迭代次数即能取得很高的计算精度,且具有较好的并行加速比和并行效率．相似文献

14.

GPU并行计算集群上的LAMMPS分子动力学模拟性能测试

李伯杨聂峰光李晓霞郭力《计算机与应用化学》2011,28(10)

近年来GPU作为一种具有极强运算能力的多核处理器,得到了快速的发展,成为高性能计算领域的主要发展方向。各种分子动力学模拟的主流软件也纷纷使用GPU技术,其中LAMMPS较早地开发出了通用的并行GPU版本。本文利用nVIDIA公司最新Femi架构的Tesla C2050 GPU搭建了小型的基于LAMMPS的分子动力学模拟GPU并行计算集群,通过氩原子熔化的算例对集群性能进行了测试,测试的内容包括CPU集群、单节点单GPU、单节点多GPU以及多节点GPU集群。比较了各种情况的加速倍数并对造成性能改变的原因进行了讨论,分析了用于MD模拟的GPU并行计算集群性能的瓶颈所在,提出可能的解决方法,搭建集群时,充分考虑PCI总线的承受能力,对于集群效率的提高有很大好处。测试结果表明,集群的性能较高,相对于以往的单机以及CPU集群,计算的规模大大提高了,加速比也在20倍以上。可以预测,在未来一段时间内,多GPU并行是分子动力学模拟的发展方向。相似文献

15.

OpenMP多核技术在颗粒流体力学方法GHM中的应用

魏朝磊闫民赵方《计算机工程与科学》2017,39(7):1234-1240

为了达到提高颗粒流体动力学方法 GHM计算效率的目标,分析了GHM模型的主要计算模块,抽取其中的可并行计算模块,基于多核计算机的硬件环境,应用OpenMP多线程并行计算模型,对采用数值积分方法求解颗粒运动方程的部分,实现求解过程的并行计算。最后通过多次实验验证程序的正确性及算法性能。实验结果表明,在Windows 7系统4核8线程处理器的计算机上,并行程序的并行加速比最高达到了2.5,说明OpenMP多核并行技术能较显著地提高GHM方法的计算性能。相似文献

16.

主流大数据并行计算系统性能优化研究

吕亚荣《自动化与仪器仪表》2023,(8):100-104

为进一步提高大数据并行计算系统的性能，提出一种异步并行的计算部署方式。首先，改变以往的大数据节点主从结构，通过Ring-All Reduce对集群计算设备进行互联；然后提出该计算结构下的加速方式，并对异步并行中的梯度更新和异步通信进行设计。结果表明，在CPU的并行化技术和OpenBl AS库实验环境下，通过Cifar10数据集进行系统测试后，采用提出的方法很大程度上缩短了系统运行和训练的时间，也提高了并行计算的加速度和准确率。实际应用发现，将YOLOV4目标检测算法进行并行部署，其训练时间仅为6 138 s,明显低于正常训练的26 874 s,准确率和加速比也较正常训练高。由此说明，提出的主流大数据并行计算系统性能优化方法具备可行性。相似文献

17.

TBB多核编程及其混合编程模型的研究 总被引：7，自引：0，他引：7

胡斌袁道华《计算机技术与发展》2009,19(2)

多核处理器越来越普及,如何通过软件技术最大提升CPU每个核心的使用率,成为热点问题.引入多核并行编程模型Threading Building Blocks,并与raw threads、OpenMP进行各方面详细比较,分析了其优劣.并研究了TBB结合MPI在SMP集群系统上实现高效的混合并行计算应用的方法.最终发现TBB在多核编程方面有显著的优势.TTB和MPI的结合,又为多核处理器结点集群提供了并行层次化结构,大大优化集群的性能. 相似文献

18.

多核并行技术在分子动力学模拟中的应用 总被引：1，自引：0，他引：1

刘青昆滕人达刘凤宫利东张建强《计算机工程与设计》2011,32(10):3395-3398

为了充分利用多核处理器资源,研究了一种用于分子动力学模拟中的多核并行技术。在多核处理器上利用OpenMP技术实现多线程创建与同步、动态设置子线程的调度运行方式以及负载均衡以减少子线程执行等待时间。通过对不同分子体系结构下的动力学模型测试,得出在不同子线程下并行计算的时间,并且得到了良好的性能加速比。实验结果表明,采用OpenMP并行技术可有效地提高电荷求解过程在分子动力学模拟运算中的时间效率,以及多核计算机资源的利用率。相似文献

19.

全球涡分辨率并行海洋模式POP在神威蓝光上的移植和应用 总被引：1，自引：0，他引：1

赵伟雷晓燕陈德训等《计算机应用与软件》2014,(5):42-45

基于中国自行研制的超大规模并行计算机神威蓝光平台,对海洋环流模式POP进行移植和进一步优化,并进行模式和机器的并行测试。测试结果表明:0.1度分辨率在5 000核以内达到了线性加速比,随着使用线程数目的增多,虽然加速比依然增加,但是加速效率在降低,当线程数目达到24 000的时候加速比出现降低,加速效率只有12.6%;0.05度分辨率可在12 000核以内达到了线性加速比,同样随着线程数目的增多加速在增多但加速效率在降低,当线程数目达到32 000的时候加速比出现降低,加速效率只有25.7%。经过优化后的海洋环流模式POP在神威蓝光并行计算机系统上具有良好的兼容性,并行效率较高,而且具有很强的可扩展性,可用来开展超大规模的并行计算。对测试结果的进一步分析发现,发展并行性良好的线性方程组求解方案、快速高效的计算网络协议等问题是未来发展高分辨率模式中需解决的问题。相似文献

20.

高阶平滑表面提取算法的CUDA并行实现

袁红星吴少群郭立朱仁祥《计算机科学》2013,40(6):29-31

高阶平滑表面提取算法可有效抑制传统步进立方体算法存在的鳞状失真现象,但引入了较复杂的最优化运算,降低了表面提取的效率.针对该问题,提出基于图形处理器的并行加速优化方法.首先将算法分解成分界区域、窄带区域、嵌入函数边界值、嵌入函数值最优化和三角面网格提取5个计算步骤,其次根据每个处理步骤的运算特点进行任务分解.为便于图形处理器并行优化,将其中最耗时的嵌入函数值最优化计算,表示成矩阵运算形式,通过投影雅可比迭代估计最优解.实验结果表明,在GeForce GT 240M显卡上并行优化后平均加速比可达到9以上. 相似文献