期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

韦存阳贾海鹏张云泉曲国远魏大洲张广婷《计算机工程与科学》2022,44(10):1711-1720

色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据算法的计算访存特征,将上述算法分为数据无关算法、数据共享算法及非规则访存算法3类,提出了不同类别算法在ARMv8计算平台上的优化方法体系,最终构建了一个基于ARMv8计算平台的高性能图像处理算法库,精度上对标Intel IPP库,并通过算法优化、访存优化、SIMD优化及汇编指令优化等一系列优化方法的应用,大幅提升了图像处理算法的性能。实验结果表明,在华为鲲鹏920计算平台上,重点优化的CvtColor、Filter和Resize模块性能较OpenCV算法库都有显著提升。相似文献

2.

NUMA架构的龙芯3A板级设计及工程化技术研究

赵东阳刘瑞孟英谦《计算机工程与应用》2017,53(8):260-266

针对关键应用对信息处理能力提出的性能要求以及国产化需求,在分析龙芯3A处理器架构特点的基础上,设计了基于NUMA并行处理架构的龙芯3A高性能处理模块,并对抗恶劣环境的关键问题进行了分析和设计,解决了散热、电源监控及供电优化、启动速度等问题。通过测试验证,性能可以满足关键应用对信息处理能力的要求,从而有效解决了龙芯3A访存能力有限的问题。同时对SMP和NUMA架构下,龙芯3A处理器CPU数量的增加对访存性能的提升的关系进行了探讨。相似文献

3.

ARM处理器上的格点QCD计算与优化

孙玮毕玉江程耀东《计算机科学》2023,(6):52-57

格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一，相关研究通常需要消耗大量计算资源，核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器，研究了格点QCD的计算热点Dslash,并将其扩展到64个节点(6 144核),展示了格点QCD计算的线性扩展性。基于roofline性能分析模型，发现格点QCD是典型的内存限制应用，并通过将Dslash中的3×3复幺正矩阵根据对称性压缩，将其性能提升约22%。对于大规模稀疏线性方程的求解，在ARM处理器上探索了常用的Krylov子空间迭代算法BiCGStab,以及近年来发展起来的前沿的multigrid算法，发现即使考虑预处理时间，在实际物理计算中使用multigrid算法相比BiCGStab依然有几倍至一个数量级的加速。此外，还考虑了鲲鹏920处理器上的NEON向量化指令，发现将其用于multigrid计算时可以带来约20%的加速。因此，在ARM处理器上使用multigrid算法能极大地加速实际的物理研究。相似文献

4.

基于龙芯3A处理器的加固服务器设计与实现

王巍《工业控制计算机》2014,(12):69-70

该加固服务器采用VPX架构,利用双龙芯3A处理器实现NUMA架构服务节点,利用单龙芯3A处理器和双FPGA实现异构计算节点,结合高速交换模块、电源模块、数据装载模块、机箱等共同构建。依据模块化设计思想,该加固服务器模块可根据应用需求扩展配置,支持国产中标麒麟操作系统。相似文献

5.

基于ARM V8平台的向量算法库实现与优化

王晶张云泉梁军《计算机工程》2019,45(6):82-88

基于ARM V8架构的VecOp向量算法库,提出一种基础向量算法在ARM V8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARM V8平台上的性能,以实现VecOp算法库在ARM V8平台上的优化。实验结果表明,该方案在ARM V8计算平台上实现的向量算法库性能提升可达到10%～300%。相似文献

6.

基于神威·太湖之光的非结构网格计算加速算法

许乐安虹陈俊仕张鹏飞武铮《计算机工程》2022,48(12):45-53

在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。相似文献

7.

ARM计算环境下堆芯程序的移植

明平洲李治刚刘婷芦韡刘东曾辉余红星《计算机工程与科学》2021,43(4):681-688

为了论证国产芯片在堆芯数值计算领域的可行性,对多个堆芯程序在飞腾处理器的ARM通用计算环境中进行了移植,涉及堆芯燃料管理软件的扩散原型程序NACK-R、子通道分析程序CORTH、特征线输运程序OpenMOC和堆芯组件程序KYLIN2。移植过程在ARM计算环境中通过合理的程序代码修订,去除对商业函数库的依赖,且在移植过程中对KYLIN2的特征线循环扫描计算过程引入OpenMP多线程并行,论证单结点多个飞腾处理器核心的并行能力。参照对象Intel商用处理器的频率约为飞腾处理器频率的2倍,堆芯程序移植后的串行运行效率与在Intel计算环境中的串行运行效率差异保持在3~4倍,受限于所使用飞腾处理器型号的缓存大小,部分数据量较大例题的性能差异可能更大。KYLIN2完成多线程并行后计算效率接近在Intel处理器上的串行效率,证明单结点多个飞腾处理器核心能够替换部分堆芯数值计算既有的应用场景。移植结果也表明,混合不同处理器的异构设计,能够在计算资源紧张的情况下充分利用国产硬件,提升计算环境的整体利用效率。相似文献

8.

面向NUMA集群的代数多重网格算法优化

顾坚刘伟《计算机科学》2014,41(6):113-118

代数多重网格(AMG)是众多数值模拟应用的核心算法,在基于多核的NUMA架构的机群系统上,AMG的并行扩展性暴露了新的问题。通过设计感知NUMA架构的内存分配器,将划分给多个线程的数据分割并绑定到运行对应线程的CPU所属的NUMA存储节点上,从而改善了OpenMP多线程并行的数据局部性,使BoomerAMG程序在大规模多核计算平台上具有更好的并行扩展性。在单节点和小规模机群的测试中,使用NAAlloc分配器分别获得了最高16%和60%的性能提升。相似文献

9.

一种面向神威·太湖之光的通用并行卷积算法

舒嘉明安虹武铮陈俊仕《计算机工程》2019,45(12):153-159

神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重用和软件流水等方法降低从核访存开销,利用手动向量化的方法充分发挥从核浮点的计算能力。实验结果表明,与基础7层循环算法、gemm算法和Intel平台上的MKL-DNN算法相比,该算法的加速性能较好。相似文献

10.

一种加速访存地址计算的编译优化

高秀武姜军白书敬黄亮明《计算机工程》2023,49(1):173-180

在国产申威高性能多核服务器系统中,基础编译系统对应用程序中访存操作进行代码生成时,没有考虑国产处理器指令特征,导致编译器生成的访存地址计算代码效率较低,影响国产高性能处理器的性能。为充分发挥国产处理器高性能计算能力,提出一种加速访存地址计算的编译优化方法。加速访存地址计算编译优化基于处理器支持带扩展因子的运算指令,在编译器后端内存地址表达式合法性检查中,添加针对乘加模式的地址计算表达式合法性检查算法,自动识别地址表达式中存在的乘加运算并进行合法性检验,对符合条件的地址表达式在代码生成阶段匹配生成带扩展因子的运算指令来快速计算访存地址,从而加快访存指令的发射与执行以及应用程序中的访存地址生成,提升访存效率。使用行业标准性能测试集SPEC CPU2006对优化效果进行评测,结果表明,相比优化前SPECspeed Integer与SPECspeed Float Point两个子集,该优化方法平均性能分别提高了2.53%与1.50%。相似文献

11.

面向ARM64架构多核微处理器的模板计算性能优化研究

冯璐霞李春江黄亚斌《计算机工程与科学》2017,39(5):829-833

模板计算是一类重要的计算核心,广泛存在于图像和视频处理以及大规模科学和工程计算领域。但是,针对ARM64高性能处理器的模板计算性能的优化研究还很少。为了实现典型模板计算核心在ARM64架构多核微处理器上的并行化和性能优化,基于AMCC X-GENE2和飞腾FT-1500A多核微处理器特点,提出了基于两维度绑定的优化方法,该方法通过线程与CPU绑定以及线程与数据块绑定,减少了线程调度的并行开销,增加了Cache的命中率。实验结果表明,该方法提升了模板计算在ARM64架构多核微处理器上的性能,且在两种ARM64架构多核微处理器平台上都表现出较好的可扩展性。相似文献

12.

基于定制协处理器的基因重测序加速技术研究

汤文张春明谭光明张佩珩孙凝晖《计算机研究与发展》2014,51(9)

自2008年1月高通量测序技术应用以来,测序的通量和成本都在不断下降.然而基因数据的爆发式增长速度已经超过了摩尔定律,对海量数据的计算处理能力成为制约基因测序应用推广的瓶颈.以基于Hash索引的重测序算法为目标,对计算和访存行为进行分析,从而提出了一个现场可编程门阵列(field programmable gate array,FPGA)作为协处理器的架构,并在Convey公司的HC-1ex平台上进行了设计与实现.其基本处理单元内部采用全流水的设计及FIFO隔离计算模块和访存模块,可以完整执行重测序算法的核心流程.通过将基本处理单元和访存端口的一对一绑定,在4块Xilinx Virtex-6LX760上实现了64路并行处理流程,总平均读内存带宽可达22.59GBps.与8核Intel Xeon处理器相比,可以提升28.5倍的性能. 相似文献

13.

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 总被引：2，自引：0，他引：2

周永彬张军超张帅张浩《计算机学报》2008,31(11)

随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. 相似文献

14.

基于神威蓝光处理器的向量数学软件包

解庆春张云泉李焱逄仁波吴再龙鲁永泉高鹏东《软件学报》2014,25(S2):70-79

首先介绍了SIMD扩展技术,并分析了使用SIMD扩展的3种方式,认为通过调用特定目标平台优化的第三方库是应用领域软件开发者快速开发高效并行程序的较好的方式;其次,介绍了国产神威处理器SW-1600平台,并利用SIMD扩展和循环展开等技术开发了SW-VML(SW Vector Math Library),开发过程中提出了访存对界、简化向量条件分支的优化方法,解决了非对界访存、向量与标量数组转换影响性能的问题,并根据SW编译器对OpenMP的支持,开发了多线程OpenMp版;最后,在SW-1600平台上采用不同向量规模对SW-VML进行了测试,测试结果显示,SIMD向量化相对于串行程序加速比为2.08,4线程相对单线程平均加速比为2.26.SW-VML是在国产神威系列处理器上开发高效程序的向量函数软件包,也是在神威蓝光高性能计算平台单计算节点开发高性能程序的基础软件工具包. 相似文献

15.

异构处理器多操作系统协同技术研究

冯瑞青张激赵俊才《计算机系统应用》2018,27(12):90-95

随着嵌入式设备应用场景日趋复杂的变化,异构多核架构逐渐成为嵌入式处理器的主流架构.目前,多核处理器主要采用的单操作系统模式在实际应用中存在诸多局限性.为了充分发挥异构处理器的多核特性,针对异构处理器不同核部署相应的操作系统并实现多操作系统协同处理技术至关重要.本文对异构多核处理器（ARM+DSP）操作系统进行了研究,在异构多核平台上成功移植了嵌入式Linux和国产DSP实时操作系统ReWorks;为实现ReWorks与Linux操作系统协同处理,本文对核间通信的关键技术进行分析研究,并以TI公司的AM5718为例,设计了一系列多核异构通信组件.经测试,本文设计的异构通信组件实现了在ARM上对DSP核进行ReWorks操作系统和应用程序的动态加载、Linux与ReWorks核间消息收发、以及Linux与ReWorks的协同计算等功能. 相似文献

16.

面向国产申威26010众核处理器的SpMV实现与优化

刘芳芳杨超袁欣辉吴长茂敖玉龙《软件学报》2018,29(12):3921-3932

世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV（sparse matrix-vector multiplication）是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 相似文献

17.

携Ubum狙杀Atom ARM进军超便携电脑

Janlen 《微型计算机》2009,(13):150-155

作为嵌入平台的领导者,ARM在近期高调宣布将涉足超便携电脑市场,推出基于ARM平台的超便携电脑产品——相比x86体系Intel Atom．VIA C7M．ARM架构处理器具有非常最著的低功耗优势,在提供相近性能的前提下,ARM处理器的能耗可以只有x86芯片的十分之一．若超便携电脑采用ARM平台．无疑意味着可以轻松获得全天候的电池续航能力。相似文献

18.

面向国产加速器的CFD核心算法并行优化

曹义魁陆忠华张鉴刘夏真袁武梁姗《数据与计算发展前沿》2021,(4):93-103

[目的]为了加快国产CFD软件的计算速度,本文设计并实现了基于国产加速器的加速版本.[方法]基于CCFD V3.0版本,将软件的核心算法移植到国产加速器,并采用多种方法进行优化.[结果]使用128*128*128大小的网格进行实验,移植后的程序模拟结果与原CPU版本基本一致,单加速卡相比于单CPU核心,对流项计算部分取... 相似文献

19.

飞腾处理器与商用处理器性能比较

方建滨杜琦唐滔陈顼颢黄春杨灿群《计算机工程与科学》2019,41(1):1-8

深入分析了飞腾处理器FT 1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面，评测了两个平台能够达到的最大可获得性能（浮点性能、访存延迟和访存带宽）。在应用层面，选取一个典型的海洋预报数值模拟软件，研究了如何将一个开源代码移植到飞腾处理器和商用处理器上，探讨了该软件在两个平台上的单核性能与多核性能，分析了性能差异的原因并提出了相应的优化建议。认为FT 1500A已经有良好的生态基础（操作系统、编译器和工具链），使得移植典型科学计算程序简单可行，虽然跟商用平台相比，飞腾处理器在性能上存在着差距，但考虑到其在功耗上的优势，飞腾处理器将是一个非常具有应用前景的平台。相似文献

20.

基于神威·太湖之光的非结构网格众核优化技术

倪鸿刘鑫《计算机工程》2019,45(6):45-51

为解决高性能计算中的非结构网格离散访存问题,以神威·太湖之光国产超级计算机为平台,根据异构众核处理器SW26010的体系结构特点,提出一种基于排序思想的通用众核优化算法,以减少非结构网格计算中的随机访存。基于网格划分原理,在O(n)时间内对生成的稀疏矩阵非零元素进行并行重排序。采用一种内部映射方式对计算向量实现扩展或变换,将细粒度访存转化为无写冲突的粗粒度访存。对多个实际应用算例的通量计算进行众核优化,结果表明,相比主核上的串行算法,该算法能够获得平均10倍以上的加速效果。相似文献