期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

江树刚张玉赵勋旺《数据与计算发展前沿》2015,6(4):29-38

基于我国超级计算机平台,开展了大规模并行时域有限差分法(Finite-Difference Time-DomainFDTD)的性能和应用研究。在我国首台百万亿次"魔方"超级计算机、具有国产CPU的"神威蓝光"超级计算机和当前排名世界第一的"天河二号"超级计算机上就并行FDTD方法的并行性能进行了测试,并分别突破了10000 CPU核,100000 CPU核和300000 CPU核的并行规模。在不同测试规模下,该算法的并行效率均达到了50%以上,表明了本文并行算法具有良好的可扩展性。通过仿真分析多个微带天线阵的辐射特性和某大型飞机的散射特性,表明本文方法可以在不同架构的超级计算机上对复杂电磁问题进行精确高效电磁仿真。相似文献

2.

旋转对称矩量法高阶算法研究

朱治虹陈明生吴先良杨梅王时文《计算机技术与发展》2014,(11):51-53

直接应用三维矩量法求解旋转对称目标的电磁散射特性计算效率较低,计算机内存耗费大,利用其结构特点可降维获得一种更为有效的计算方式。然而对于电大目标,这种改进依然是不够的。文中根据旋转对称目标矩量法（ BOR-MOM）中电流的分解特征,构建了一种基于切比雪夫近似的高阶基函数,将电流的切向分量和方位角分量分别以该高阶基函数展开后应用矩量法求解。实验结果表明：高阶BOR-MOM算法在低剖分下,具有很高的计算精度,计算效率和存储耗费得到了较大改善。相似文献

3.

电大尺寸复杂目标散射问题的并行矩量法分析

韩星星《自动化技术与应用》2021,40(2):69-73

目前飞机和导弹等电大尺寸复杂目标的电磁散射特性采用高频分析法精度较低,本文研究在PC集群环境下三维导体散射问题矩量法的并行化,并应用于复杂目标的RCS计算。本文使用混合积分方程,再用RWG基函数进行离散,阻抗矩阵元素按行分解,并行共轭梯度法进行求解,通过MPI通信库实现。最后使用基准目标NASA杏仁核验证了该并行计算的准确性。相似文献

4.

面向高阶精度CFD的JFNK算法及其并行计算

《计算机科学与探索》2017,(1):61-69

目前计算效率低是限制计算流体力学(computational fluid dynamics,CFD)高阶精度格式方法的重要因素之一。由于高阶精度格式计算模板相对复杂,很难精确计算其Jacobian矩阵,从而影响传统LU-SGS(lowerupper symmetric Gauss-Seidel)等算法的收敛效率。JFNK(Jacobian-free Newton-Krylov)算法是Krylov子空间方法与非精确牛顿方法的结合,拥有较好的迭代收敛效率,采用无矩阵思想,只计算Jacobian矩阵与矢量的乘积,从而有效避免Jacobian矩阵的计算和存储。在真实高精度结构网格CFD应用程序中,设计并实现了JFNK时间求解算法。在有粘低速圆柱绕流的算例测试中,和传统LU-SGS算法相比,JFNK算法拥有更好的计算稳定性,同时可使迭代收敛效率提高2倍以上。以天河2号超级计算机为并行计算平台,对JFNK算法和传统的LU-SGS算法的并行强可扩展性进行了测试,二者均表现出良好的并行效率。相似文献

5.

参数可调的通用半正交图像矩模型

下载免费PDF全文

何冰崔江涛肖斌彭延国《中国图象图形学报》2019,24(10):1711-1727

目的为了提高以正交多项式为核函数构造的高阶矩数值的稳定性,增强低阶矩抗噪和滤波的能力,将仅具有全局描述能力的常规正交矩推广到可以局部化提取图像特征的矩模型,从频率特性分析的角度定义一种参数可调的通用半正交矩模型。方法首先,对传统正交矩的核函数进行合理的修正,以修正后的核函数（也称基函数）替代传统正交矩中的原核函数,使其成为修改后的特例之一。经过修正后的基函数可以有效消除图像矩数值不稳定现象。其次,采用时域的分析方法能够对图像的低阶矩作定量的分析,但无法对图像的高频部分（对应的高阶矩）作更合理的表述。因此提出一种时—频对应的方法来分析和增强不同阶矩的稳定性,通过对修正后核函数的频带宽度微调可以建立性能更优的不同阶矩。最后,利用构建的半正交—三角函数矩研究和分析了通用半正交矩模型的特点及性质。结果将三角函数为核函数的图像矩与现有的Zernike、伪Zernike、正交傅里叶—梅林矩及贝塞尔—傅里叶矩相比,由于核函数组成简单,且其值域恒定在[-1,1]区间,因此在图像识别领域具有更快的计算速度和更高的稳定性。结论理论分析和一系列相关图像的仿真实验表明,与传统的正交矩相比,在数值稳定性、图像重构、图像感兴趣区域（ROI）特征检测、噪声鲁棒性测试及不变性识别方面,通用的半正交矩性能及效果更优。相似文献

6.

基于申威众核处理器的圣维南求解程序的并行与优化

丁哲昭储根深胡长军李扬《计算机工程与科学》2021,43(5):820-829

圣维南方程组可用于描述明渠非恒定流的汇流过程,在大规模水文模拟软件中,求该方程组的数值解是制约程序运行时间的最大瓶颈。通过分析串行程序结构及其计算热点,挖掘计算密集型程序中单步模拟循环计算段和指令排列等的可并行性,针对“神威·太湖之光”超级计算机的异构众核架构设计主从核异步并行方案,基于MPI和athread库对求解程序进行移植、并行和加速,采用SIMD技术将从核计算段向量化,使用双缓冲等策略对通信瓶颈进行优化。测试表明,计算热点函数的性能较优化前平均可提高3倍以上,在百万控制单元规模内,众核级优化后的并行程序加速比可保持近线性增长,在神威多结点上具有很好的可扩展性。相似文献

7.

面向磁流体动力学方程组的异构众核全隐求解器研究

刘芳芳陈道琨杨超赵玉文《数值计算与计算机应用》2019,(1)

磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但都是在同构的超级计算机而不是目前主流的异构众核系统上进行计算.论文面向国产神威"太湖之光"超级计算机,开展面向磁流体动力学方程组的异构众核全隐求解器研究.针对Newton-Krylov这类全隐求解器,提出了面向申威26010众核处理器的异构众核并行算法,并对其核心函数开展了众核并行和优化.对核心函数稀疏矩阵向量乘采用Matrix Free的方法来提升性能,对稀疏三角求解采用基于几何信息的异构众核并行算法,针对其访存密集的特点提出了存储格式、数据读取与计算依赖分离、核间寄存器通信等多种优化方法,对非线性残差计算等stencil类计算及10多个向量函数进行了异构众核并行,该异构众核并行算法可被其它应用软件重用.论文采用二维磁场重联问题进行测试,实验结果表明16进程时加速比可达13.6倍,能够支持高分辨率长时间模拟,并准确捕捉磁场重联现象.另外整体并行扩展性已经达到53万核,强可扩展性并行效率达到了33.8%,弱可扩展性并行效率达到了80.7%. 相似文献

8.

基于神威众核处理器的排列熵算法并行加速方法

张浩花嵘《计算机应用研究》2020,37(7):2022-2026

随着嵌入维数的增大,排列熵（permutation entropy,PE）算法的运算规模将会成倍增加,对计算的时效性提出了更高的要求。针对国际上首台计算性能超过100P的神威·太湖之光异构众核超级计算机,提出一种针对排列熵算法移植和并行化方法,核组之间基于MPI对相空间矩阵进行数据划分,核组内部基于OpenACC实现划分区域内部并行;然后针对SW26010众核处理器结构特征,调整减少主从核通信次数和消除原子操作,将排列熵算法成功移植并加速;最后通过大坝震荡数据进行测试。测试结果表明,该方法能够很好地发挥SW26010众核处理器加速优势,单核组性能较主核版本最高可获得7.18倍加速,同时在神威·太湖之光大规模集群上进行强可扩展性分析,128核组时最高实现了85.6倍的性能提升。相似文献

9.

应用ACA算法快速分析导体目标电磁散射特性

聂文艳王仲根《计算机工程与应用》2015,51(4):232-234

提出了一种分析导体目标电磁散射特性的有效数值方法,该方法以矩量法为基础,将自适应交叉近似算法应用于远场组阻抗矩阵的低秩压缩计算,并且结合等效偶极子法加速抽取阻抗矩阵元素的填充。与传统矩量法相比,计算时间和内存消耗都得到了有效缩减,数值结果证明了该方法的精确性和有效性。相似文献

10.

一种针对GPU上的油藏数值模拟的高效SpMV

《数值计算与计算机应用》2016,(4)

油藏数值模拟和很多其他科学计算问题一样需要求解大型稀疏线性代数方程组.在求解稀疏线性代数方程组的迭代法中,稀疏矩阵向量乘法(SpMV)是影响计算效率的核心函数之一.随着计算机硬件架构异构化,科学计算从单核、多核CPU计算架构逐渐发展到多核CPU+众核加速卡(GPU卡或MIC等)的计算架构.SpMV的实现效率与稀疏矩阵的存储格式及硬件架构关系密切.本文针对油藏模拟中常见的Jacobian矩阵的稀疏模式,利用GPU核心的合并访问和并发计算等特点,结合油藏模拟线性解法器的算法要求,设计了一种BHYB矩阵存储格式及其对应的线程组并行策略.数值实验测得基于该存储格式的SpMV相对串行BCSR格式的SpMV的加速比可达19倍,比cuSPARSE库中效率最高的HYB格式的SpMV快30%到80%.此外,本文所提出的BHYB存储格式对块状矩阵在GPU上的存储以及线程组并行策略对其它GPU并行程序中内核函数的设计和优化能起到一定的借鉴作用. 相似文献

11.

融合遗传和蚁群算法并行求解最短公共超串

伍世刚钟诚《计算机应用》2014,34(7):1857-1861

依据各级缓存容量,将CPU主存中种群个体和蚂蚁个体数据划分存储到一级、二级和三级缓存中,以减少并行计算过程中数据在各级存储之间的传输开销,在CPU与GPU之间采取异步传送和不完全传送数据、GPU多个内核函数异步执行多个流的方法,设置GPU block线程数量为16的倍数、GPU共享存储器划分大小为32倍的bank,使用GPU常量存储器存储交叉概率、变异概率等需频繁访问的只读参数,将输入串矩阵和重叠部分长度矩阵只读大数据结构绑定到GPU纹理存储器,设计实现了一种多核CPU和GPU协同求解最短公共超串问题的计算、存储和通信高效的并行算法。求解多种规模的最短公共超串问题的实验结果表明,多核CPU与GPU协同并行算法比串行算法快70倍以上。相似文献

12.

高可扩展可容错的无网格/粒子程序petaPar及其测试

黎雷生田荣《数据与计算发展前沿》2013,4(5):3-9

petaPar 粒子模拟程序面向千万亿次级计算,在统一框架下实现两种广受关注的粒子模拟算法：光滑粒子流体动力学（Smoothed Particle Hydrodynamics,SPH）和物质点法（Material Point Method,MPM)。代码支持多种材料模型、强度模型和失效模型,适合模拟大变形、高应变率和流固耦合问题。支持纯 MPI 和 MPI+X 混合两种并行模型。系统具有可容错性,支持无人值守变进程重启。在Titan 上测试表明,petaPar 可线性扩展到 26 万 CPU 核,SPH 和 MPM 算法并行效率相对 8 192 核分别为 87% 和 90%。相似文献

13.

Investigation of the parallel efficiency of a PC cluster for the simulation of a CFD problem

S. Han Hyoung G. Choi 《Personal and Ubiquitous Computing》2014,18(6):1303-1314

Previously, large-scale fluid dynamics problem required supercomputers, such as the Cray, and took a long time to obtain a solution. Clustering technology has changed the world of the supercomputer and fluid dynamics. Affordable cluster computers have replaced the huge and expansive supercomputers in computational fluid dynamics (CFD) field in recent years. Even supercomputers are designed in the form of clusters based on high-performance servers. This paper describes the configuration of the affordable PC hardware cluster as well as the parallel computing performance using commercial CFD code in the developed cluster. A multi-core cluster using the Linux operating system was developed with affordable PC hardware and low-cost high-speed gigabit network switches instead of Myrinet or Infiniband. The PC cluster consisted of 52 cores and easily expandable up to 96 cores in the current configuration. For operating software, the Rock cluster package was installed in the master node to minimize the need for maintenance. This cluster was designed to solve large fluid dynamics and heat transfer problems in parallel. Using a commercial CFD package, the performance of the cluster was evaluated by changing the number of CPU cores involved in the computation. A forced convection problem around a linear cascade was solved using the CFX program, and the heat transfer coefficient along the surface of the turbine cascade was simulated. The mesh of the model CFD problem has 1.5 million nodes, and the steady computation was performed for 2,000 time-integrations. The computation results were compared with previously published heat transfer experimental results to check the reliability of the computation. A comparison of the simulation and experimental results showed good agreement. The performance of the designed PC cluster increased with increasing number of cores up to 16 cores The computation (elapsed) 16-core was approximately three times faster than that with a 4-core. 相似文献

14.

Resource-efficient utilization of CPU/GPU-based heterogeneous supercomputers for Bayesian phylogenetic inference

Jun Chai Huayou Su Mei Wen Xing Cai Nan Wu Chunyuan Zhang 《The Journal of supercomputing》2013,66(1):364-380

Bayesian inference is one of the most important methods for estimating phylogenetic trees in bioinformatics. Due to the potentially huge computational requirements, several parallel algorithms of Bayesian inference have been implemented to run on CPU-based clusters, multicore CPUs, or small clusters of CPUs and GPUs. To the best of our knowledge, however, none of the existing methods is able to simultaneously and fully utilize both CPUs and GPUs for the computations, leaving idle either the CPU part or the GPU part of modern heterogeneous supercomputers. Aiming at an optimized utilization of heterogeneous computing resources, which is a promising hardware architecture for future bioinformatics applications, we present a new hybrid parallel algorithm and implementation of Bayesian phylogenetic inference, which combines MPI, OpenMP, and CUDA programming. The novelty of our algorithm, denoted as oMC³, is its ability of using CPU cores simultaneously with GPUs for the computations, while ensuring a fair work division between the two types of hardware components. We have implemented oMC³ based on MrBayes, which is one of the most popular software packages for Bayesian phylogenetic inference. Numerical experiments show that oMC³ obtains 2.5× speedup over nMC³, which is a cutting-edge GPU implementation of MrBayes, on a single server consisting of two GPUs and sixteen CPU cores. Moreover, oMC³ scales nicely when 128 GPUs and 1536 CPU cores are in use. 相似文献

15.

层流扩散燃烧在GPU上的并行计算和数值分析

魏浩洋曾国荪丁春玲《计算机应用》2013,33(9):2428-2431

在实际工程应用中,使用传统的CPU串行计算来开展燃烧数值模拟往往难以满足对模拟速度的要求。利用GPU比CPU更强的计算能力,通过在交错网格上将燃烧物理方程离散化,使用预处理稳定双共轭梯度法(PBiCGSTAB)求解离散化方程,并且探索面向GPU编程的矩阵向量乘并行算法和逆矩阵向量乘并行算法,从而给出一种在GPU上数值求解层流扩散燃烧的可行方法。实验结果表明,GPU并行程序获得了相对串行CPU程序约10倍以上的加速效果,且计算结果与实际情况相符,因而所提方法是可行且高效的。相似文献

16.

基于OpenCL的尺度不变特征变换算法的并行设计与实现

许川佩王光《计算机应用》2016,36(7):1801-1806

针对尺度不变特征变换（SIFT）算法实时性差的问题,提出了利用开放式计算语言（OpenCL）并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结果能够完全在显存中完成交互;然后,采用复用全局内存对象、共享局部内存、优化内存读取等策略对原算法各步骤进行并行设计,提高数据读取效率,降低传输延时;最后,利用OpenCL语言在图形处理单元（GPU）上实现了SIFT算法的细粒度并行加速,并在中央处理器（CPU）上完成了移植。与原SIFT算法配准效果相近时,并行化的算法在GPU和CPU平台上特征提取速度分别提升了10.51～19.33和2.34～4.74倍。实验结果表明,利用OpenCL并行加速的SIFT算法能够有效提高图像配准的实时性,并能克服统一计算设备架构（CUDA）因移植困难而不能充分利用异构系统中多种计算核心的缺点。相似文献

17.

基于All-In-Roulette选择算法的GPU并行加速蚁群优化算法

付杰周国华《计算机与数字工程》2011,39(5):23-26

蚁群优化算法应用于复杂问题的求解是非常耗时的。文章在MATLAB环境下实现了一个基于GPU＋CPU的并行MAX-MIN蚁群系统,并将其应用于旅行商问题的求解。让全部蚂蚁共享一个伪随机数矩阵,一个信息素矩阵,一个禁忌矩阵和一个概率矩阵,并运用了一个全新的基于这些矩阵的随机选择算法—AIR（All-In-Roulette）。文章还介绍了如何使用这些矩阵来构造并行蚁群优化算法,并与相应串行算法进行了比较。计算结果表明新的并行算法比相应串行算法要高效很多。相似文献

18.

基于NUMECA FINE/Turbo的并行计算测试

董晶《计算机辅助工程》2014,23(6):108-110

为具体了解CFD软件NUMECA FINE/Turbo的并行计算性能,良好把握后续的科研工作进度,分别研究在激活超线程情况下单节点计算与多节点并行计算以及CPU在激活超线程前、后计算速度的差异.结果表明:在多节点并行计算时,计算速度与实际参加并行计算的CPU物理核心数量成正比;在激活超线程的情况下,并行计算节点数在超过实际物理核心数后明显降低计算速度的提升. 相似文献

19.

64位Linux并行计算大气模型效率优化研究* 总被引：3，自引：1，他引：2

朱云 LIN Che jen 陈春贻 JANG Carey 钟义龙《计算机应用研究》2009,26(6):2266-2269

研究了CMAQ大气模型在64位Linux操作系统上不同CPU核心数目并行计算模拟耗时以及结果的差异情况。研究结果表明,并行计算能大幅缩短CMAQ模拟耗时,以16个CPU核心并行处理为性价比最佳值;此时连续模拟中国区域37天空气质量状况（分辨率36 km、167行×97列、垂直14层）平均耗时小于16 min/d,而相同情况下单核模拟耗时大于2 h/d;多于16个核心并行处理时,随核心数量的增加模型性能提升的趋势减缓;操作系统和参与运算的核心数目对CMAQ模型模拟结果没有影响。相似文献