期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨子江张克龙刘倩徐顺孙鹏《计算机系统应用》2022,31(11):358-364

格点量子色动力学(格点QCD)是研究夸克、胶子等微观粒子间相互作用的重要理论和方法.通过将时空离散化为四维结构网格,并将量子色动力学的基本场量定义在网格上,让研究人员可以使用数值模拟方法,从第一性原理出发研究强子间相互作用和性质,但这个过程中的计算量极大,需要进行大规模并行计算.格点QCD计算的核心基础为格点QCD求解器,是程序运行主要的计算热点模块.本文研究在国产异构计算平台下格点QCD求解器的实现与优化,提出一套格点QCD求解器的设计实现,实现了BiCGSTAB求解器,显著降低了迭代次数;通过对奇偶预处理技术,降低了所求问题的计算规模;针对国产异构加速卡的特点,优化了Dslash模块的访存操作.实验测试表明,相比优化前的求解器获得了约30倍的加速比,为国产异构超算下格点QCD软件性能优化提供了有益的参考价值. 相似文献

2.

一类Stencil应用在众核NUMA架构的性能研究

高凌云勾文进刘夏真袁武张鉴陆忠华《数据与计算发展前沿》2023,(6):58-66

【应用背景】模板计算是CFD（计算流体动力学,Computational Fluid Dynamics）等科学计算的典型算法,其访存性能受到关注。NUMA架构因扩展性好,在以鲲鹏920处理器为代表的ARM架构上普遍被应用。【方法】使用性能分析工具和benchmark程序,对鲲鹏平台的访存和通信子系统进行性能测试。针对典型stencil应用软件CCFD V3.0开展热点分析和性能测试,并建立Roofline模型。【结果】鲲鹏920处理器依托其众核NUMA架构,单节点浮点性能、内存带宽峰值,以及通信时延均优于Intel Xeon E5-2680v2与一款国产处理器。单节点时,CCFD V3.0在鲲鹏平台的运行速度约是Intel平台的2～3倍,是国产处理器的1.5～2倍。【结论】基于ARM架构的鲲鹏平台应用移植简单,其NUMA架构对模板计算一类访存密集性应用具有优势。相似文献

3.

格点量子色动力学Grid数值模拟软件的并行计算特征分析

毕玉江周超吴郁非黎睿翔刘朝峰陈建海徐顺《计算机系统应用》2020,29(7):199-204

格点量子色动力学(QCD)是从第一原理出发求解QCD的非微扰方法, 通过在超立方格子上模拟胶子场和费米子场相互作用, 其计算结果被认为是对强相互作用现象的可靠描述, 格点计算对QCD理论研究意义重大. 但是, 格点QCD计算具有非常大的计算自由度导致计算效率难以提升, 通常对格子体系采用区域分解的方法实现并行计算的可扩展性, 但如何提升数据并行计算效率仍然是核心问题. 本文以格点QCD典型软件Grid为例, 研究格点QCD计算中的数据并行计算模式, 围绕格点QCD中的复杂张量计算和提升大规模并行计算效率的问题, 开展格点QCD方法中数据并行计算特征的理论分析, 之后针对Grid软件的SIMD和OpenMP等具体数据并行计算方式进行性能测试分析, 最后阐述数据并行计算模式对格点QCD计算应用的重要意义. 相似文献

4.

FPGA架构上面向稀疏矩阵求解的静态调度算法

王晞阳陈继林李猛刘首文《计算机工程》2022,48(7):199-205+213

在电力系统仿真中,大型稀疏矩阵的求解会消耗大量存储和计算资源,未有效利用矩阵的稀疏性将导致存储空间浪费以及计算效率低下的问题。当前关于稀疏矩阵求解算法的研究主要针对众核加速硬件,聚焦于挖掘层次集合的并行度以提升算法的并行效率,而在众核处理器架构上频繁地进行缓存判断及细粒度访问可能导致潜在的性能问题。针对基于现场可编程门阵列（FPGA）的下三角稀疏矩阵求解问题,在吴志勇等设计的FPGA稀疏矩阵求解器硬件结构的基础上,提出一种静态调度求解算法。通过对稀疏矩阵进行预处理,设计数据分布和指令排布流程,将下三角稀疏矩阵的求解过程静态映射到多个FPGA片上的处理单元,以实现下三角稀疏矩阵在FPGA上的并行高速求解。将串行算法中所有的隐式并行关系排布到缓冲中,使得所有计算单元都能实现计算、访存和单元间通信的高效并行,从而最大限度地利用FPGA的硬件资源。典型算例上的测试结果表明,相较传统的CPU/GPU求解算法,该算法能够实现5~10倍的加速效果。相似文献

5.

格点量子色动力学组态产生和胶球测量的大规模并行及性能优化

田英齐毕玉江贺雨晴马运恒刘朝峰徐顺《计算机系统应用》2019,28(9):25-32

格点量子色动力学（Lattice Quantum Chromo Dynamics,LQCD）是目前已知能系统研究夸克及胶子间低能强相互作用的非微扰计算方法.计算结果的统计和系统误差原则上都是可控的,并能逐步减少.基于格点QCD的基本原理,更大的格子体积意味着可以计算更大空间的物理过程,并且可以对空间进行更加精细的划分,从而得到更加精确的结果.因而大体系的格点计算对QCD理论研究有着重要意义,但对程序计算性能提出了更高要求.本文针对格点QCD组态生成和胶球测量的基本程序,进行了其大规模并行分析和性能优化的研究.基于格点QCD模拟采用的blocking和even-odd算法,我们设计了基于MPI和OpenMP的并行化算法,同时设计优化数据通信模块：针对复矩阵的矩阵乘等数值计算,提出了向量化的计算优化方法：针对组态文件输出瓶颈,提出了并行输出组态文件的实施方法.模拟程序分别在Intel KNL和“天河2号”超级计算机x86_64队列进行了测试分析,证实了相应的优化措施的有效性,并进行了相应的并行计算效率分析,最大测试规模达到了1728个节点（即41472 CPU核）. 相似文献

6.

基于ARMv8处理器的高性能图像处理算法实现与优化研究

韦存阳贾海鹏张云泉曲国远魏大洲张广婷《计算机工程与科学》2022,44(10):1711-1720

色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据算法的计算访存特征,将上述算法分为数据无关算法、数据共享算法及非规则访存算法3类,提出了不同类别算法在ARMv8计算平台上的优化方法体系,最终构建了一个基于ARMv8计算平台的高性能图像处理算法库,精度上对标Intel IPP库,并通过算法优化、访存优化、SIMD优化及汇编指令优化等一系列优化方法的应用,大幅提升了图像处理算法的性能。实验结果表明,在华为鲲鹏920计算平台上,重点优化的CvtColor、Filter和Resize模块性能较OpenCV算法库都有显著提升。相似文献

7.

一种基于PETSc的热传导方程大规模并行求解策略

程汤培王群《计算机科学》2009,36(11):160-164

提出了一种大规模热传导方程并行求解的策略,采用了分布式内存和压缩矩阵技术解决超大规模稀疏矩阵的存储及其计算,整合了多种Krylov子空间方法和预条件子技术来并行求解大规模线性方程组,基于面向对象设计实现了具体应用与算法的低耦合.在Linux机群系统上进行了性能测试,程序具有良好的加速比和计算性能. 相似文献

8.

一种基于GPU加速的细粒度并行蚁群算法 总被引：1，自引：0，他引：1

李建明胡祥培庞占龙钱昆明《控制与决策》2009,24(8)

为改善蚁群算法对大规模旅行商问题的求解性能,提出一种基于图形处理器(GPU)加速的细粒度并行蚁群算法.将并行蚁群算法求解过程转化为统一计算设备架构的线程块并行执行过程,使得蚁群算法在GPU中加速执行.实验结果表明,该算法能提高全局搜索能力,增大细粒度并行蚁群算法的蚂蚁规模,从而提高了算法的运算速度. 相似文献

9.

大规模稀疏线性方程组的GMRES-GPU快速求解算法

柳有权尹康学吴恩华《计算机辅助设计与图形学学报》2011,23(4)

重开始广义极小残量法(GMRES)是求解大规模线性方程组的常用算法之一,具有收敛速度快、稳定性好等优点.文中基于CUDA将GMRES算法在GPU上进行并行算法实现,尤其针对稀疏矩阵矢量乘法运算,通过合并访问和共享内存策略相结合的手段使得算法效率大幅度提升.对于大规模数据集,在GeForce GTX 260上的运行结果相对于Intel Core 2 Quad CPU Q9400@2.66GHz得到了平均40余倍的加速效果,相对于Intel Core i7 CPU 920@2.67 GHz也可得到平均20余倍的加速效果. 相似文献

10.

线性系统求解中迭代算法的GPU加速方法 总被引：1，自引：0，他引：1

葛振杨灿群吴强陈娟《计算机工程与科学》2009,31(Z1)

在求解线性系统时,迭代法是一种基本的方法,特别是在系数矩阵为大规模稀疏矩阵的情况下,高效地使用迭代法求解变得十分重要。本文通过分析迭代法的一般特点,提出了使用具有强大计算能力和存储带宽的GPU加速迭代法的一般方法。利用这些方法,在两种主流GPU平台上实现了一个经典的迭代法PQMRCGSTAB,并且针对不同的GPU平台特点提出了具体的优化方法。与AMD Opteron 2.4GHz 4核处理器相比,双精度版本的PQMRCGSTAB算法经NVIDIA Tesla S1070加速后性能提高31倍,经AMD Radeon HD 4870 X2加速后性能提高9倍。相似文献

11.

基于图形处理器的点云快速光顺

张连伟刘大学刘肖琳李焱徐昕贺汉根《计算机工程与科学》2011,33(4):86

点云数据光顺是点模型数字几何处理的一个重要研究内容。在海量数据规模应用中,不仅需要较高的光顺质量,而且需要有快速的处理速度。传统的基于CPU的光顺算法串行地处理每个采样点,导致巨大的时间开销。本文提出一种适应于图形处理器的点云快速光顺算法,将多个采样点处的协方差矩阵组织成一个大规模稀疏矩阵,以纹理图像的形式保存该稀疏矩阵,在像素程序中利用图形处理器强大的并行计算能力迭代求解协方差矩阵的最小特征值与特征向量,并据此计算光顺的速度和方向。实验在配有GeForce 8600GTS显卡的平台上进行。实验结果表明,基于GPU的点云光顺算法较之基于CPU的算法能够显著提高计算效率,从而为快速点云处理提供了良好的支持。相似文献

12.

一类大规模稀疏矩阵特征问题求解的并行算法

吴洋赵永华纪国良《数值计算与计算机应用》2013,34(2)

本文提出一种求解大规模稀疏矩阵特征问题的并行共轭梯度算法.为了提高算法的并行效率,设计了负载平衡的行划分方式,实现了计算和通信重叠的稀疏矩阵重排序方法,通过预处理减少计算过程中各进程间消息传递的通信量.另外,基于多核处理器高性能并行计算,实现了MPI和细粒度(线程级)OpenMP混合并行算法.在深腾7800并行计算机上对并行算法进行了测试,结果表明在进程数增多时并行算法可保持通信时间稳定性,在并行计算机上有很好的扩展性,适合大规模稀疏特征问题的求解. 相似文献

13.

大规模图处理研究

张慧玲宁立孟金涛魏彦杰冯圣中《微计算机应用》2014,(1):26-30

大数据研究领域的许多问题可以转换为图的问题。本文将阐述鲲鹏大数据系统计算引擎中有关大规模图处理的研究进展以及应用,具体包括高效子图匹配算法、面向图的稀疏数据存储结构和大规模图异步计算模型及其在基因拼接中的应用。相似文献

14.

利用坐标下降实现并行稀疏子空间聚类

吴杰祺李晓宇袁晓彤刘青山《计算机应用》2016,36(2):372-376

随着数据规模的不断扩大,稀疏子空间聚类问题面临计算上的巨大挑战。现有稀疏子空间聚类算法如交替方向乘子法(ADMM)往往基于串行实现,难以利用多核处理器提高处理大规模聚类问题的效率。针对这个问题,提出一种基于坐标下降的并行稀疏子空间聚类方法。该方法利用稀疏子空间聚类可以建模为求解一系列的样本自稀疏表达子问题的特点,使用坐标下降方法来求解每个子问题,具有参数少、收敛快的优点;同时结合自稀疏表达子问题独立的特点,在处理器的各个核心上同时求解不同样本对应的子问题,因此可以充分利用计算机资源,减少运行时间开销。在模拟数据和运动分割数据集Hopkins-155上与常用的ADMM算法进行对比实验,结果表明该算法在多核处理器上可以显著提升运行速度且聚类精度与ADMM相当。相似文献

15.

基于GPU的稀疏矩阵Cholesky分解

《计算机学报》2014,(7)

稀疏矩阵Cholesky分解是求解大规模稀疏线性方程组的核心算法,也是求解过程中最耗时的部分.近年来,一系列并行算法通过图形处理器(GPU)获得了显著的加速比,然而,由于访存的不规则性以及任务间的大量数据依赖关系,稀疏矩阵Cholesky分解算法在GPU上的计算效率很低.文中实现了一种新的基于GPU的稀疏矩阵Cholesky分解算法.在数据组织方面,改进了稀疏矩阵超节点数据结构,通过超节点合并和分块控制计算粒度;在计算调度方面,将稀疏矩阵Cholesky分解过程映射为一系列的数据块任务,并设计了相应的任务生成与调度算法,在满足数据依赖性的前提下提高任务的并行性.实验结果表明,该算法能够显著提高稀疏矩阵Cholesky分解算法在GPU上的实现效率,在单个GPU上获得了相对4核CPU平台2.69~3.88倍的加速比. 相似文献

16.

一种基于GPU加速的细粒度并行蚁群算法

李建明胡祥培庞占龙钱昆明《控制与决策》2009,24(8):1132-1136

为改善蚁群算法对大规模旅行商问题的求解性能,提出一种基于图形处理器(GPU)加速的细粒度并行蚁群算法.将并行蚁群算法求解过程转化为统一计算设备架构的线程块并行执行过程,使得蚁群算法在GPU 中加速执行.实验结果表明,该算法能提高全局搜索能力,增大细粒度并行蚁群算法的蚂蚁规模,从而提高了算法的运算速度.

相似文献

17.

基于ARM920T的AES算法实现方案

白茹雪刘鸿雁张新贺《计算机应用》2011,31(5):1295-1297

为了提高高级加密标准(AES)算法在ARM上执行的效率,提出AES算法在ARM处理器上的高效实现方案,并在ARM920T处理器上得以实现。密钥扩展采用一次性生成方式。在算法实现上,将字节替换和列混合定义成T表进行存储,可以提高运行速度。采用C语言编程,在ARM Develop v1.2平台上进行了仿真及调试。对算法的不同实现方式所占的存储空间和运算速度进行了比较,并给出了不同密钥长度算法的各种性能指标。实验表明,算法执行速度得到了明显提高。相似文献

18.

一种利用Screening加速技巧的Lasso算法

下载免费PDF全文

邱俊洋潘志松易磊陶蔚张梁梁《计算机工程与应用》2018,54(4):135-140

Lasso（Least absolute shrinkage and selection operator）是目前广为应用的一种稀疏特征选择算法。经典的Lasso算法通过对高维数据进行特征选择一定程度上降低了计算开销,然而,求解Lasso问题目前仍面临诸多困难与挑战,例如当特征维数和样本数量非常大时,甚至无法将数据矩阵加载到主存储器中。为了应对这一挑战,Screening加速技巧成为近年来研究的热点。Screening可以在问题优化求解之前将稀疏优化结果中系数必然为0的无效特征筛选出来并剔除,从而极大地降低数据维度,在不损失问题求解精度的前提下,加速稀疏优化问题的求解速度。首先推导了Lasso的对偶问题,根据对偶问题的特性得出基于对偶多面投影的Screening加速技巧,最后将Screening加速技巧引入Lasso特征选择算法,并在多个高维数据集上进行实验,通过加速比、识别率以及算法运行时间三个指标验证了Screening加速技巧在Lasso算法上的良好性能。相似文献

19.

基于神威平台的Floyd并行算法的实现和优化

何亚茹庞建民徐金龙朱雨陶小涵《计算机科学》2021,48(6):34-40

求解全源最短路径的Floyd算法是许多实际应用基础上的关键构建块,由于其时间复杂度较高,串行Floyd算法不适用于大规模输入图计算,针对不同平台的并行Floyd算法设计可为解决现实问题提供有效帮助.针对Floyd算法与国产自主研发处理器匹配滞后的问题,首次提出基于神威平台的Floyd并行算法的实现和优化.根据SW26010处理器主-从核架构的特点,采用主从加速编程模型进行并行实现,并分析了影响该算法性能的关键因素,通过算法优化、数组划分和双缓冲技术进行优化,逐步提升算法性能.测试结果表明,与主核上串行算法相比,基于神威平台的Floyd并行算法在单个SW26010处理器上可以获得106倍的最高加速. 相似文献

20.

基于计算与通信重叠的稀疏矩阵-向量乘积及其在AMG中的应用

《数值计算与计算机应用》2015,(3)

本文针对代数多重网格(algebraic multigrid,AMG)并行实现中的稀疏矩阵-向量乘,建立了稀疏矩阵新的分布和数据存储模式,提出了一类具有最小通信量以及隐藏通信的新稀疏矩阵-向量乘并行算法,并实现了基于K-循环迭代的求解阶段并行算法.针对现代多核处理器,结合细粒度的并行编程模型,实现了MPI+OpenMP混合编程并行算法.通过同hypre软件包测试比较,在深腾7000集群上求解三维Laplace方程并行规模达到512核心时,并行求解阶段运行时间较hypre(high performance preconditioners)软件包提高了56%,在元集群上提高了39%,验证了算法的有效性. 相似文献