期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

袁良张云泉白雪瑞张广婷《计算机科学》2020,47(1):7-16

大规模并行应用程序的性能优化和并行化的关键瓶颈之一在于多核CPU中越来越深和越来越复杂的存储层次。文中系统地分析和总结了当前主要多核CPU和并行程序设计语言中的局部性设计方法,提出了两种局部性,即横向局部性和纵向局部性,从这两种局部性的视角深入分析了当前的主要并行程序设计语言的局部性设计机制,进一步总结对比了其优缺点,并指出了新一代并行程序设计语言应具有的特点,重点提出了新语言应同时综合考虑两种局部性支持的设计机制的研究观点。相似文献

2.

基于ARM架构的中值滤波算法优化

牟明任贾海鹏张云泉邓明森曲国远魏大洲张广婷《计算机工程与科学》2022,44(10):1738-1746

中值滤波是图像处理中降低椒盐噪声的一种有效手段,其核心是计算当前滤波窗口内所有像素的中值。中值滤波具有稳定性,当一幅图像的像素点被改变时,即使改变的值很大,也不会影响中值滤波的计算结果。滤波窗口遍历整幅图像后,就完成了整幅图像的中值滤波计算。中值滤波算法的关键是定义最优中值算法,以在最短的时间内获取中值。对此,提出并实现了自适应中值算法,能够根据滤波窗口半径和数据类型,自动选择性能最佳的中值算法,并使用ARM NEON指令集进行优化加速。实验结果表明,提出的自适应中值滤波算法较OpenCV的中值滤波算法性能有显著提升,平均性能提升了20%。相似文献

3.

基于ARMv8处理器的高性能图像处理算法实现与优化研究

韦存阳贾海鹏张云泉曲国远魏大洲张广婷《计算机工程与科学》2022,44(10):1711-1720

色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据算法的计算访存特征,将上述算法分为数据无关算法、数据共享算法及非规则访存算法3类,提出了不同类别算法在ARMv8计算平台上的优化方法体系,最终构建了一个基于ARMv8计算平台的高性能图像处理算法库,精度上对标Intel IPP库,并通过算法优化、访存优化、SIMD优化及汇编指令优化等一系列优化方法的应用,大幅提升了图像处理算法的性能。实验结果表明,在华为鲲鹏920计算平台上,重点优化的CvtColor、Filter和Resize模块性能较OpenCV算法库都有显著提升。相似文献

4.

一种偶数基Cooley-Tukey FFT高性能实现方法

龚彤艳张广婷贾海鹏袁良《计算机科学》2020,47(1):31-39

快速傅里叶变换(Fast Fourier Transform,FFT)是最重要的基础算法之一,在科学计算、信号处理、图像处理等领域都有着广泛的应用。随着这些应用领域对实时性需求的进一步提高,FFT算法面临着越来越高的性能要求。在现有的FFT算法库中,FFT算法的求解速度和计算精度受到一定程度的限制,而且也少有研究者对偶数基Cooley-Tukey FFT的高性能实现提出相应的优化策略并对技术进行深入研究。基于此,文中提出了一套针对偶数基的Cooley-Tukey FFT的优化策略和方法。首先构建一个SIMD(Single Instruction Multiple Data)友好、支持混合基的蝶形网络,然后根据偶数基旋转因子特性最大限度地降低蝶形计算的复杂度,接着通过SIMD汇编优化、汇编指令重排及选择、寄存器分配策略制定、高性能矩阵转置算法等方法来优化应用,最后实现一个高性能的FFT算法库。目前,最流行、应用最广的FFT有FFTW和Intel MKL。实验结果表明,在X86计算平台上,新提出的这套针对偶数基Cooley-Tukey FFT的技术所实现的FFT算法库的性能全面优于MKL和FFTW。所提出的这套高性能算法优化和实现技术体系,可推广到除偶数基以外的其他基的实现和优化上,为进一步的研究开发工作奠定一定的基础,进而突破FFT算法在硬件平台上的性能瓶颈,实现一套针对特定平台的高性能FFT算法库。相似文献

5.

基于SIMD的三角函数高性能实现与优化

姚建宇张祎维张广婷贾海鹏《计算机科学》2021,48(12):29-35

作为基本的数学运算,三角函数的高性能实现对构建处理器的基础软件生态具有重要意义,特别是当前处理器都采用了SIMD架构,基于SIMD实现高性能三角函数具有重要的研究意义和应用价值.对此,文中采用数值分析的方法,对5个常用的三角函数sin,cos,tan,atan,atan2进行了高性能的实现与优化.首先通过分析浮点数IEEE754标准,设计了高效的三角函数算法;然后通过多项式逼近算法中的泰勒公式、帕德近似及雷米兹算法提升了算法精度;最后利用指令流水线与SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,所实现的三角函数,相较于libm算法库和ARM_M算法库,在ARM V8计算平台上都获得了较大的性能提升,其中相比libm算法库有1.77～6.26倍的时间性能提升,相比ARM_M算法库有1.34～1.5倍的时间性能提升. 相似文献

6.

原子动力学蒙特卡洛程序OpenKMC在反应堆压力容器钢缺陷损伤研究中的优化与应用

尚子豪商红慧王东杰张云泉贺新福陈泽华王栋张广婷《计算机工程与科学》2020,42(12):2151-2162

将具有体心立方结构的Fe-Cu二元合金作为RPV模型材料,分别采用基于Pair势和嵌入原子势(EAM)的动力学蒙特卡洛方法,以引入空位点缺陷的方式模拟了热时效下系统中富铜团簇的析出过程。同时对程序实现了计算优化,并验证了算法的正确性与有效性。利用高性能计算资源对优化后的程序进行了性能分析。数值实验结果表明,通过引入一定数量的空位点缺陷,体系内可以同时析出富铜团簇和铜-空位复合体团簇,并且这种复合体团簇更易成为体系内尺寸最大的团簇。增加体系内的空位数量可以加快沉淀的析出过程。另外,增加空位数量不会对体系总的团簇数量密度产生显著影响,但是能够促进团簇粗化,使其成长为尺寸更大的沉淀。相似文献

7.

一种基于空间密铺的星型Stencil并行算法

曹杭袁良黄珊张云泉徐勇军陆鹏起张广婷《计算机研究与发展》2020,57(12):2621-2634

相似文献

8.

基于ARMv8处理器的实数FFT实现与性能优化研究

赵翔贾海鹏张云泉邓明森张广婷郭金鑫《计算机学报》2023,(5):1003-1018

FFT(快速傅里叶变换)是离散傅里叶变换或其逆变换的一种常见快速算法,是高性能计算领域最重要的基础核心算法之一,在科学、工程和数学等领域的应用十分广泛.实数FFT算法,即输入或者输出为实数的FFT算法,其中包括R2C(Real-to-Complex)、C2R(Complex-to-Real)等变换类型.相比复数FFT算法,实数FFT算法在图形图像处理、数据压缩等领域有着不可替代的作用.传统实数FFT实现针对的是输入规模为偶数,一般转变为复数FFT进行运算.然而当前鲜有针对输入规模为奇数的实数FFT高效实现.对此,本文提出了一种实数FFT高效算法(DRFFT),并采用蝶形网络优化、蝶形计算优化、访存优化、SIMD优化以及数据转置等方法进行优化,大幅提升了实数FFT算法性能,最终构建了一种针对实数FFT的高性能算法库.实验结果表明,本文实现的DRFFT R2C变换在单双精度浮点数处理方面较FFTW库性能分别平均提升了37.6%和4.6%,较ARMPL库性能分别平均提升了67.6%和28.1%.DRFFT C2R变换在单双精度浮点数处理方面则较FFTW库性能分别平均提升了58.6%和10.8... 相似文献