期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王吉军《计算机应用研究》2020,37(12):3671-3676,3680

在深亚微米工艺下,通过持续增大芯片规模来提升计算能力,会导致芯片工作频率降低、功耗剧增、计算效率下降等问题。因此,利用3D集成电路技术,提出并量化研究了一种将二维脉动阵列映射到3D集成电路上的卷积神经网络加速器3D-ACC,并设计了一种高效卷积映射计算方法,构建了其性能模型,量化分析了不同设计参数对3D-ACC性能和效率的影响。实验结果表明,当采用四层64×64脉动阵列的堆叠结构时,3D-ACC的峰值计算性能达32 TFLOPS,测试VGG-16、ResNet-50以及Inception V3模型时的实际计算效率可达47.4%、37.9%及40.9%。与相同计算单元规模的二维加速器2D-ACC相比,3D-ACC的计算效率及性能优势明显,实际计算性能分别是后者的1.51、1.69以及1.61倍。探索了3D集成电路在神经网络加速器设计的优势,对进一步提升神经网络加速器性能具有一定参考价值。相似文献

2.

矩阵乘协处理器上BLAS level-3运算的设计

贾迅钱磊原昊张昆吴东《计算机工程与科学》2020,42(11):1913-1921

BLAS level 3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level 3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level 3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比,最高提升了31%。相似文献

3.

3D透视校正纹理映射矩阵电路设计及实现

周珍艮郭立《电子技术应用》2007,33(12):48-50

3D图形硬件加速中,纹理映射属于像素处理阶段,透视校正中的纹理地址计算的特点是计算量大,且有实时性要求。本文设计了一个流水线脉动阵列结构来提高数据吞吐量。阵列的处理器单元(PE)为基于IEEE754单精度的32位浮点乘累加器,同时计算纹理坐标的除法电路也为单精度。相似文献

4.

针对SW26010众核处理器的单精度矩阵乘算法

武铮许乐安虹金旭文可《小型微型计算机系统》2023,(4):673-681

矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%. 相似文献

5.

基于FPGA的卷积神经网络加速器动态余数处理映射模型

赵小强姜晶菲许金伟窦勇《计算机工程与科学》2021,43(9):1521-1528

将卷积计算转化为矩阵乘法是FPGA上一种高效实现,而现有的转化方法无法根据卷积参数的不同动态调整,限制了卷积计算的并行度.提出一种新的动态余数处理映射模型.该映射模型包含有3个子模型:特征值映射模型,权值映射模型,和输出映射模型.特征值映射模型将特征值转化为特征值矩阵,权值映射模型将权值转化为权值矩阵,特征值矩阵和权值矩阵通过乘累加计算阵列得到卷积计算结果,由输出映射模型将卷积计算结果存储到内存中.在卷积计算过程中,卷积的输出通道数通常不是乘累加计算阵列行数的整数倍,3个子映射模型会根据产生的余数动态调整映射方法,提高乘累加计算阵列的利用率.通过实验表明,采用动态余数处理映射模型能够将余数并行度的倍数至多提高到卷积核大小,使整个加速器达到了更高的实际吞吐量和能量效率. 相似文献

6.

面向数据驱动处理器阵列的自动综合 总被引：1，自引：0，他引：1

邬贵明窦勇王淼《计算机工程与科学》2009,31(Z1)

本文提出了一种数据驱动处理器阵列结构,该结构能有效平衡存储和计算,适合用于在FPGA上实现高性能的算法加速,同时提出了一个面向该结构的自动综合框架,通过该框架可以将常规循环有效地映射到数据驱动处理器阵列上。实验结果表明了该自动综合框架的有效性,且生成的设计性能优于通用处理器。相似文献

7.

基于FPGA的细粒度并行K-means算法加速器的设计与实现

下载免费PDF全文

倪时策窦勇雷元武赵建勋《计算机工程与科学》2009,31(Z1)

本文在深入分析K-means算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行浮点K-means算法。设计采用了阵列多PE并行处理的任务划分策略,实现了处理单元间的负载平衡,采用数据驱动的流水线隐藏片外存储访问,设计了一种基于脉动阵列结构的主从多PE并行计算阵列,并在单片FPGA(XC5VLX330)上成功集成了4个PE。实验结果表明,我们提出的K-means算法加速器结构具备良好的可扩展性。通过实验测试,我们的实现方案相对于Pentium 4 2.66 GHz单处理器程序达到了15倍的加速比。相似文献

8.

素数域椭圆曲线密码加速器的VLSI实现

谢天艺黄凯修思文唐从学严晓浪《计算机工程与应用》2016,52(1):89-94

分析了素数域椭圆曲线密码（ECC）算法的软件效率,针对软件效率较低的问题,对密码系统进行软硬件划分,提出了一种适用于椭圆曲线密码SoC的硬件加速器设计,并设计了密码SoC的结构。硬件加速器实现了素数域的点乘和素数检测,以少量的面积为代价提升了系统性能。密码芯片实现了SM2商用密码标准规定的6种算法。加速器基于HJTC [0.11 μm] eFlash单元库,面积约为[0.6 mm2]。在50 MHz的频率下,192 bit非固定点乘运算性能为167次/s,256 bit非固定点乘运算性能为94次/s。实验结果表明,该加速器的单位面积性能高于其他同类设计。相似文献

9.

国产异构架构系统上HPL的优化与分析

水超洋于献智王银山谭光明《软件学报》2020,31(7)

随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过利用加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,本文基于新的国产处理器-国产加速器异构系统提出了一个新的HPL性能模型,设计了一种全新的多线程细粒度异构HPL算法.我们完成了一个轻量级跨平台异构加速框架HPCX用来实现跨平台的HPL算法.我们的性能模型能够准确的预测类似异构系统的HPL性能,我们的多线程细粒度异构HPL算法在NVIDIA GPU平台上性能超过目前NVIDIA平台上性能最好的NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512节点的规模上,我们的新HPL算法实现了2.3PFLOPS实测峰值性能和71.1%的浮点效率. 相似文献

10.

面向国产异构系统的HPL异构协同设计

甘新标孙燎原刘杰雄成伟黄嘉昆《计算机工程与科学》2018,40(1):10-14

HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。相似文献

11.

The design and time analysis of a systolic array with asynchronous protocols for matrix multiplication

Moon S. Jun 《Computers & Electrical Engineering》1989,15(3-4):107-120

In this paper, we present new techniques for designing systolic arrays and asynchronous arrays for recursive algorithms. More specifically, we propose a systolic array with simple local interconnections for matrix multiplication which achieves optimal performance without having undesirable features such as preloading input data or global broadcasting. An asynchronous array for matrix multiplication which can speed up the total computation time significantly is also presented. The key component of the asynchronous array is a communication protocol which controls input data flow properly and efficiently. Finally, performance of the arrays is analyzed and a simulation using Occam programmed in a Transputer network is reported. 相似文献

12.

一种矩阵块间提前切换的脉动阵列优化策略

鞠鑫曹亚松文梅汪志冯静《计算机工程与科学》2023,45(1):1-9

AI应用对硬件算力的需求逐年增加,驱使着AI加速器不断向更高的性能演化。研究表明,AI应用的主要运算形式可以转化为矩阵乘运算,脉动阵列因为在矩阵乘运算上的独特优势,使其成为了主流矩阵乘加速技术之一。然而,矩阵在注入和流出脉动阵列时存在一定的流水线启动和排空开销,特别是支持训练的浮点脉动阵列,其MAC延时往往大于1,矩阵块间切换不及时会导致PE利用率急剧下降。针对上述问题,基于典型应用场景进行理论分析,提出了一种矩阵块间提前切换策略,能够精确计算出各种情况下的矩阵块间最优切换时刻。同时,还实现了RTL设计。经过实验对比可知,优化后的脉动阵列增加的硬件开销微乎其微,但在所有场景中均能得到性能提升。相似文献

13.

GF（2m）域上快速模乘处理结构的研究与设计

下载免费PDF全文

姜晶菲倪晓强张民选《计算机工程与科学》2004,26(11):89-93

加速GF(2m)上的模乘运算是提高GF(2^m)上ECC算法性能的关键。在分析EC上点乘操作的基础上，我们构造了模乘运算在线性Systolic上实现的局部并行处理递推形式，并设计了Systolic阵列的具体单元结构和连接，给出了性能分析和模拟结果。实验证明，局部并行阵列结构能适应多种EC上的模乘处理。相似文献

14.

GF(2m)域上快速模乘处理局部并行结构

下载免费PDF全文

姜晶菲倪晓强张民选《计算机工程》2007,33(18):4-7

在分析EC上点乘操作的基础上，构造了MSB方式下局部并行线性systolic结构的模乘递推形式，设计了具体的单元结构，给出了性能分析和模拟比较结果。实验证明MSB方式下局部并行、域多项式可变的阵列结构能适应多种EC上模乘，实现灵活、高速的模乘处理，而局部并行、固定域多项式结构能在较优的硬件代价下高效实现特定EC上模乘，有效提高GF(2m)上ECC算法的性能。相似文献

15.

一种高效的稀疏卷积神经网络加速器的设计与实现

下载免费PDF全文

余成宇李志远毛文宇鲁华祥《智能系统学报》2020,15(2):323-333

针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。相似文献

16.

Random access schemes for efficient FPGA SpMV acceleration

《Microprocessors and Microsystems》2016

Utilizing hardware resources efficiently is vital to building the future generation of high-performance computing systems. The sparse matrix – dense vector multiplication (SpMV) kernel, which is notorious for its poor efficiency on conventional processors, is a key component in many scientific computing applications and increasing SpMV efficiency can contribute significantly to improving overall system efficiency. The major challenge in implementing SpMV efficiently is handling the input-dependent memory access patterns, and reconfigurable logic is a strong candidate for tackling this problem via memory system customization. In this work, we consider three schemes (all off-chip, all on-chip, caching) for servicing the irregular-access component of SpMV and investigate their effects on accelerator efficiency. To combine the strengths of on-chip and off-chip random accesses, we propose a hardware-software caching scheme named NCVCS that combines software preprocessing with a nonblocking cache to enable highly efficient SpMV accelerators with modest on-chip memory requirements. Our results from the comparison of the three schemes implemented as part of an FPGA SpMV accelerator show that our scheme effectively combines the high efficiency from on-chip accesses with the capability of working with large matrices from off-chip accesses. 相似文献

17.

Visualizing high-resolution accelerator physics

McCormick P.S. Ji Qiang Ryne R.D. 《Computer Graphics and Applications, IEEE》1999,19(5):11-13

Particle accelerators play an increasingly important role in basic and applied science. Several countries are involved in efforts aimed at developing accelerator-related technologies to support different application domains, including high-energy and nuclear physics, material science, biological science, and military use. The technological challenges associated with designing the next generation of accelerators will require numerical modeling capabilities far beyond those normally used within the accelerator community. In 1997 the US Department of Energy initiated a Grand Challenge in Computational Accelerator Physics, primarily to develop a new generation of high-performance accelerator modeling tools and apply them to projects of national importance. These tools will have a major impact on reducing the cost and technical risk of future projects, as well as maximizing the performance of present and future accelerators. In addition, they will enable the simulation of problems three to four orders of magnitude larger than ever done before. The use of algorithms and software optimized for high-performance computing will make it possible to obtain results quickly and with very high accuracy. This work is being done in collaboration between Los Alamos National Laboratory (LANL), Stanford Linear Accelerator Center, the National Energy Research Scientific Computing Center, Stanford University, and the University of California at Los Angeles. This article focuses on the accelerator simulation model and the current techniques used to visualize the project results 相似文献

18.

Implementing molecular dynamics on hybrid high performance computers – Particle–particle particle-mesh

W. Michael Brown Axel Kohlmeyer Steven J. Plimpton Arnold N. Tharrington 《Computer Physics Communications》2012,183(3):449-459

The use of accelerators such as graphics processing units (GPUs) has become popular in scientific computing applications due to their low cost, impressive floating-point capabilities, high memory bandwidth, and low electrical power requirements. Hybrid high-performance computers, machines with nodes containing more than one type of floating-point processor (e.g. CPU and GPU), are now becoming more prevalent due to these advantages. In this paper, we present a continuation of previous work implementing algorithms for using accelerators into the LAMMPS molecular dynamics software for distributed memory parallel hybrid machines. In our previous work, we focused on acceleration for short-range models with an approach intended to harness the processing power of both the accelerator and (multi-core) CPUs. To augment the existing implementations, we present an efficient implementation of long-range electrostatic force calculation for molecular dynamics. Specifically, we present an implementation of the particle–particle particle-mesh method based on the work by Harvey and De Fabritiis. We present benchmark results on the Keeneland InfiniBand GPU cluster. We provide a performance comparison of the same kernels compiled with both CUDA and OpenCL. We discuss limitations to parallel efficiency and future directions for improving performance on hybrid or heterogeneous computers. 相似文献

19.

基于BLACS的2.5D并行矩阵乘法

廖霞李胜国卢宇彤杨灿群《计算机学报》2021,44(5):1037-1050

并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作. 相似文献