期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张冰《计算机学报》2013,36(9)

提出了一个并行矩阵乘算法IPBPMM(Interconnected Processor-Based Parallel Matrix Multiplication).该算法运行在以五角形、Petersen图和Hoffman-Singleton图等直径为2的摩尔图(满足n=d2+1,n为节点数,d为度)为拓扑结构的由n个独立处理器构成的机群并行计算环境中.与基于二维环绕网孔阵列拓扑结构的Cannon和Fox等并行矩阵乘法算法相比较,IPBPMM算法通信开销较小,加速比更高,同时还具有矩阵分块可随机分布在各个节点中,无需事先按一定规律装入各节点中的特点.同时IPBPMM算法也能很好地扩充到由多个直径为2的摩尔图为拓扑结构组合构成的并行计算环境中,且随着网络的扩大,算法的并行加速比更高. 相似文献

2.

基于OpenMP的Winograd并行矩阵乘算法应用研究

阳光亮李鸿健豆育升唐红《计算机应用研究》2012,29(7):2435-2437

为了提高半经典分子动力学模拟中矩阵乘法效率,通过一种稀疏矩阵分解方法化简矩阵乘法,基于OpenMP实现矩阵相乘的Winograd并行算法。该算法将Winograd算法中各部分依次采用OpenMP并行计算,降低了数据通信。在16核服务器上测试表明,该方法能够显著提高半经典分子动力学模拟中矩阵乘法效率,并行加速比能够达到9.47,并具有良好的可扩展性,为大分子体系的模拟提供了可能。相似文献

3.

矩阵乘在一组规则WDM光网络上的波长分配

夏磊刘方爱《计算机工程与应用》2007,43(28):131-133

在光互连网络上实现并行算法的通信模式是当前一个颇受关注的研究领域。矩阵乘法是数值分析领域中一种常用的基本运算,许多数值代数中的计算问题最终会归结到矩阵乘法的计算。提出一种嵌入算法MRDR,在此基础上分析了在一组规则WDM光网络线性阵列、环、mesh、双环网上实现并行矩阵乘通信模式的波长分配问题,并给出了所需的最小波长数。相似文献

4.

一种基于De Bruijn网络结构的并行矩阵乘算法 总被引：1，自引：1，他引：0

蔡昭权魏文红王高才郑宗晖卢庆武《计算机应用》2009,29(3):880-883

在De Bruijn网络中进行并行矩阵乘法运算,算法简单,容易实现。首先介绍了De Bruijn网络结构,然后提出了一种基于De Bruijn网络结构的矩阵乘法的并行算法,分析了它的加速比、效率等性能及可扩展性,通过与Cannon算法的比较,证明它的时间复杂度等效于Cannon算法,最后通过实验验证了这个结论的正确性。相似文献

5.

基于PSO的反对称矩阵反问题的最小二乘解

郁金祥刘锦萍《计算机应用与软件》2010,27(8)

针对在反对称矩阵反问题的最小二乘解求解计算中,难以从问题的原始形式出发,构造出高效的迭代算法的计算难题,提出一种基于PSO算法的反对称矩阵反问题的最小二乘解的计算算法.该算法采用以带约束条件的反问题矩阵范数作为粒子群优化算法的适应度函数,建立起最小二乘解的计算模型.算例仿真结果显示,该算法是一种高效实用的求解算法. 相似文献

6.

大规模3D并行分层可扩展矩阵乘法的递阶优化方法

卢炼阳爱民《计算机应用研究》2017,34(6)

为进一步提高大规模平台上可扩展矩阵乘法的并行计算效率,提出一种并行分层可扩展矩阵乘法的递阶优化方法。首先,在可扩展矩阵乘法算法(SMM)算法枢轴行和枢轴列通信研究基础上,利用分层方式在更高等级上对网格进行矩形群划分,实现矩阵乘法的二维计算向三维计算转变,并设计对应的集群内通信和集群间通信过程,实现SMM乘法的递阶并行优化(HSMM);其次,对所提HSMM算法进行理论分析,分情况对其通信成本进行分析和预测,推导出最佳计算成本的集群数选取方式;最后,通过在Grid5000和BlueGene/P测试平台实验,验证了所提算法有效性和理论分析的正确性。相似文献

7.

基于MPSoC并行调度的矩阵乘法加速算法研究

杨飞马昱春侯金徐宁《计算机科学》2017,44(8):36-41

矩阵乘法是数值分析以及图形图像处理算法的基础,通用的矩阵乘法加速器设计一直是嵌入式系统设计的研究热点。但矩阵乘法由于计算复杂度高,处理效率低,常常成为嵌入式系统运算速度的瓶颈。为了在嵌入式领域更好地使用矩阵乘法,提出了基于MPSoC(MultiProcessor System-on-Chip)的软硬件协同加速的架构。在MPSoC的架构下,一方面,设计了面向硬件约束的矩阵分块方法,从而实现了通用的矩阵乘法加速器系统;另一方面,通过利用MPSoC下的多核架构,提出了相应的任务划分和负载平衡调度算法,提高了并行效率和整体系统加速比。实验结果表明,所提架构及算法实现了通用的矩阵乘法计算,并且通过软硬件协同设计实现的多核并行调度算法与传统单核设计相比在计算效率方面得到了显著的提高。相似文献

8.

细粒度任务并行GPU通用矩阵乘 总被引：1，自引：0，他引：1

下载免费PDF全文

张帅李涛王艺峰焦晓帆杨愚鲁《计算机工程与科学》2015,37(5):847-856

稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。相似文献

9.

3D-MMA:基于3D集成电路的矩阵乘加速结构

王吉军郝子宇李宏亮《计算机工程与科学》2019,41(12):2110-2118

脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题。因此,结合3D集成电路技术,提出了一种将平面脉动阵列结构映射到3D集成电路上的双精度浮点矩阵乘加速结构3D-MMA。首先,设计了针对该结构的分块映射调度算法,提升矩阵乘计算效率;其次,提出了基于3D-MMA的加速系统,构建了3D-MMA的性能模型,并对其设计空间进行探索;最后,评估了该结构实现代价,并同已有先进加速器进行对比分析。实验结果表明,访存带宽为160GB/s时,采用4层16×16脉动阵列的堆叠结构时,3D-MMA计算峰值性能达3TFLOPS,效率达99%,且实现代价小于二维实现。在相同工艺下,同线性阵列加速器及K40GPU相比,3D-MMA的性能是后者的1.36及1.92倍,而面积远小于后者。探索了3D集成电路在高性能矩阵乘加速器设计中的优势,对未来进一步提升高性能计算平台性能具有一定的参考价值。相似文献

10.

线性矩阵方程异类约束最小二乘解的迭代算法

刘晓敏张凯院李书连《计算机工程与科学》2012,34(6):38-43

多矩阵变量线性矩阵方程(LME)约束解的计算问题在参数识别、结构设计、振动理论、自动控制理论等领域都有广泛应用。本文借鉴求线性矩阵方程(LME)同类约束最小二乘解的迭代算法,通过构造等价的线性矩阵方程组,建立了求多矩阵变量LME的一种异类约束最小二乘解的迭代算法,并证明了该算法的收敛性。在不考虑舍入误差的情况下,利用该算法不仅可在有限步计算后得到LME的一组异类约束最小二乘解,而且选取特殊初始矩阵时,可求得LME的极小范数异类约束最小二乘解。另外,还可求得指定矩阵在该LME的异类约束最小二乘解集合中的最佳逼近解。算例表明,该算法是有效的。相似文献

11.

网络计算环境下并行算法及其可扩放性分析 总被引：4，自引：2，他引：4

计永昶卜添《计算机研究与发展》1997,34(11):844-849

并行算法的可扩放性是提其有效利用计算节点的能力，它可以预测算法在处理机数目变化时的性能，在网络环境下用ＰＶＭ实现了并行矩阵乘法及ＰＳＲＳ算法，分析了在网络计算环境下这两个算法的可扩放性，并利用试验数据进行了验证。相似文献

12.

基于瓦片算法的并行 QR 分解及其实现

曹冬冬赵永华赵莲《数据与计算发展前沿》2016,7(2):16-24

本文介绍了一种基于瓦片算法的稠密矩阵并行 QR 分解及其实现方法。瓦片算法的思想是将完整的矩阵分块,并使每个块内的数据连续存储。各个瓦片块先独立进行分解,其他块接收当前块分解产生的数据,来更新自身块内的矩阵。我们分别实现了串行瓦片算法和并行瓦片算法,采用基于 MPI 和 OpenMP 混合并行编程模型,在“元”超级计算机上验证了该并行算法,并与 PLASMA 软件包进行对比,程序效率和可扩展性优于 PLASMA。在多个节点上运行时,展现了良好的扩展性。相似文献

13.

面向异构架构的传递闭包并行算法

肖汉郭宝云李彩林周清雷《计算机工程》2021,47(8):131-139

传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言（OpenCL）框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器（GPU）的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。相似文献

14.

对称矩阵三对角化的有效并行块算法设计 总被引：1，自引：0，他引：1

赵永华迟学斌程强陈江赵涛《数值计算与计算机应用》2006,27(2):123-132

在矩阵数值计算中,块算法通常比非块算法更有效,但这也增加了并行算法设计和实现的难度．在广义稠密对称矩阵特征问题并行求解器中,并行块算法的构造可应用到正定对称矩阵的Choleski分解、对称矩阵的三对角化和回代转化(back-transiation)操作中．本文将并行块算法的讨论集中在具有代表性的对称矩阵三对角化上,给出在非块存储方式下对称矩阵三对角化的并行块算法设计方法．分析块算法大小同矩阵规模和处理器数量的关系．在深腾6800上的试验表明,我们的算法具有很好的性能,并得到了比ScaLAPACK更高的性能．相似文献

15.

SMP集群系统上矩阵特征问题并行求解器的有效算法 总被引：2，自引：0，他引：2

赵永华迟学斌程强《计算机研究与发展》2007,44(2):334-340

对称矩阵三对角化和三对角对称矩阵的特征值求解是稠密对称矩阵特征问题并行求解器的关键步 .针对SMP集群系统的多级体系结构,基于Householder变换的矩阵三对角化和三对角矩阵特征值问题的分而治之算法,给出了它们的MPI OpenMP混合并行算法 .算法研究集中在SMP集群系统环境下的负载平衡、通信开销和性能评价 .混合并行算法的设计结合了粗粒度线程并行模式和任务共享的动态调用方法,改善了MPI算法中的负载平衡问题、降低了通信开销 .在深腾6800上的实验表明,基于混合并行算法的求解器比纯MPI版本的求解器具有更好的性能和可扩展性 . 相似文献

16.

异构Beowulf系统负载均衡技术的研究与实现

李丙锋 ;祝永志 ;魏榕晖《微机发展》2008,(7):60-62

负载均衡技术是并行计算系统的关键技术之一,其主要思想是将计算任务合理分配到各节点,以避免由于某个节点的计算速度慢而导致的整个系统的性能瓶颈。为了使系统达到更优的结果,提出了一种基于MPICH的负载均衡模型,构建了一个异构Beawulf并行计算系统,并且用一个适合异构环境的矩阵分块相乘算法进行了性能测试。实验结果表明,此算法比使用传统的矩阵相乘算法执行效率更高。从而证明了系统能够把计算任务高效合理地分配到各个节点。相似文献

17.

求解大规模矩阵特征问题的并行算法研究

下载免费PDF全文

赵韬迟学斌陆忠华赵永华《计算机工程》2010,36(6):12-14

基于数据并行的重启动Arnoldi并行算法,基于使用数据并行模型的重启动Arnoldi并行算法,提出一个精化重启动Arnoldi并行算法。为了降低弱扩展性对并行性能的负面影响,该算法使用任务图模型并行计算精化向量,减少处理器进程之间的通信次数,有效地实现并行计算。在KD-50-I万亿次机上的测试结果表明,该算法具有较好的可扩展性和并行效率。相似文献