期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵翔贾海鹏张云泉邓明森张广婷郭金鑫《计算机学报》2023,(5):1003-1018

FFT(快速傅里叶变换)是离散傅里叶变换或其逆变换的一种常见快速算法,是高性能计算领域最重要的基础核心算法之一,在科学、工程和数学等领域的应用十分广泛.实数FFT算法,即输入或者输出为实数的FFT算法,其中包括R2C(Real-to-Complex)、C2R(Complex-to-Real)等变换类型.相比复数FFT算法,实数FFT算法在图形图像处理、数据压缩等领域有着不可替代的作用.传统实数FFT实现针对的是输入规模为偶数,一般转变为复数FFT进行运算.然而当前鲜有针对输入规模为奇数的实数FFT高效实现.对此,本文提出了一种实数FFT高效算法(DRFFT),并采用蝶形网络优化、蝶形计算优化、访存优化、SIMD优化以及数据转置等方法进行优化,大幅提升了实数FFT算法性能,最终构建了一种针对实数FFT的高性能算法库.实验结果表明,本文实现的DRFFT R2C变换在单双精度浮点数处理方面较FFTW库性能分别平均提升了37.6%和4.6%,较ARMPL库性能分别平均提升了67.6%和28.1%.DRFFT C2R变换在单双精度浮点数处理方面则较FFTW库性能分别平均提升了58.6%和10.8... 相似文献

2.

基于RISC-V的FFmpeg多媒体算法库优化策略

张桢梁军贾海鹏张云泉李青《计算机工程》2023,(4):159-165+173

RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗时的算法进行指令加速和并行优化。在深入研究RISC-V开源架构的基础上,构建一个基于RISC-V开源架构的高性能FFmpeg算法库。针对不连续访存类算法、数据依赖类算法、数据快速转换类算法,从向量单元配置、向量化访存、汇编优化、指令流水优化4个方面出发,大幅提升FFmpeg算法库在RISC-V处理器上的性能。实验结果表明,采用以上优化策略后的FFmpeg算法库在基于RISC-V架构的XT-910芯片上的性能得到明显提升,其中的不连续访存类算法、数据依赖类算法、数据快速转换类算法的加速比分别为8.20、3.67、3.62。相似文献

3.

申威26010众核处理器上一维FFT实现与优化

赵玉文敖玉龙杨超刘芳芳尹万旺林蓉芬《软件学报》2020,31(10):3184-3196

根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%. 相似文献

4.

基于SIMD的三角函数高性能实现与优化

姚建宇张祎维张广婷贾海鹏《计算机科学》2021,48(12):29-35

作为基本的数学运算,三角函数的高性能实现对构建处理器的基础软件生态具有重要意义,特别是当前处理器都采用了SIMD架构,基于SIMD实现高性能三角函数具有重要的研究意义和应用价值.对此,文中采用数值分析的方法,对5个常用的三角函数sin,cos,tan,atan,atan2进行了高性能的实现与优化.首先通过分析浮点数IEEE754标准,设计了高效的三角函数算法;然后通过多项式逼近算法中的泰勒公式、帕德近似及雷米兹算法提升了算法精度;最后利用指令流水线与SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,所实现的三角函数,相较于libm算法库和ARM_M算法库,在ARM V8计算平台上都获得了较大的性能提升,其中相比libm算法库有1.77～6.26倍的时间性能提升,相比ARM_M算法库有1.34～1.5倍的时间性能提升. 相似文献

5.

基于Intel SIMD指令的二维FFT优化算法 总被引：1，自引：0，他引：1

李成军周卫峰朱重光《计算机工程与应用》2007,43(5):41-44

在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。相似文献

6.

基于ARMv8处理器的高性能图像处理算法实现与优化研究

韦存阳贾海鹏张云泉曲国远魏大洲张广婷《计算机工程与科学》2022,44(10):1711-1720

色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据算法的计算访存特征,将上述算法分为数据无关算法、数据共享算法及非规则访存算法3类,提出了不同类别算法在ARMv8计算平台上的优化方法体系,最终构建了一个基于ARMv8计算平台的高性能图像处理算法库,精度上对标Intel IPP库,并通过算法优化、访存优化、SIMD优化及汇编指令优化等一系列优化方法的应用,大幅提升了图像处理算法的性能。实验结果表明,在华为鲲鹏920计算平台上,重点优化的CvtColor、Filter和Resize模块性能较OpenCV算法库都有显著提升。相似文献

7.

高性能基4快速傅里叶变换处理器的设计 总被引：3，自引：1，他引：3

下载免费PDF全文

段小东顾立志《计算机工程》2008,34(24):238-240

研究并设计高性能基4快速傅里叶变换(FFT)处理器。采用基4算法、流水线结构的蝶形运算单元,提高了处理速度,使芯片能在更高的时钟频率上工作。运用溢出检测状态机对每个蝶形运算单元输出的数据进行块浮点检查,确保对溢出情况进行正确判断。验证与性能评估结果表明,该FFT处理器具有较高性能。相似文献

8.

基于SIMD的Square Root函数高性能实现与优化

赵永浩贾海鹏张云泉张思佳《计算机工程与科学》2021,43(4):662-669

在计算机图形学、积分计算和神经网络等应用场景中,平方根函数的高性能实现在构建处理器的基础软件生态中起到了十分重要的作用.随着A RM架构处理器得到广泛的使用,研究A RM架构下的函数快速算法实现变得更加关键.当前大量处理器都采用了SIMD架构,所以,研究基于SIMD实现高性能函数计算方法具有重要的研究意义和发展前景.因此,对平方根函数进行了高性能的实现与优化.通过分析IEEE 754标准的浮点数在内存中的存储格式,设计了高效的平方根函数算法;然后通过结合平方根倒数和泰勒公式算法,进一步提高了算法精度;最后通过SIMD优化进一步提升了算法性能.实验结果表明,在满足精度的前提下,相比于libm算法库,实现的平方根函数的,性能提高了约7倍,相比于A RM V8提供的计算平方根的指令在性能上提高了约3倍. 相似文献

9.

三维向量基快速傅立叶算法 总被引：1，自引：1，他引：0

吴云峰徐妮妮肖志涛侯正信《计算机应用》2009,29(2):618-621

给出了三维向量基快速傅立叶变换（3-D Vector Radix FFT）算法。对三维信号采用基2时域抽取,导出了该算法蝶形运算的一般形式。计算量比较结果显示,三维向量基FFT算法比基于行列分解的三维FFT算法计算量低,计算效率高。相似文献

10.

一种高速并行FFT处理器的VLSI结构设计 总被引：8，自引：1，他引：8

万红星陈禾韩月秋《电子技术应用》2005,31(5):45-48

在OFDM系统的实现中,高速FFT处理器是关键。在分析了基4按时域抽取快速傅立叶变换(FFT)算法特点的基础上,研究了一种高性能FFT处理器的硬件结构。此结构能同时从四个并行存储器中读取蝶形运算所需的4个操作数,极大地提高了处理速度。此结构控制单元简单,便于模块化设计。经硬件验证,达到设计要求。在系统时钟为100MHz时,1024点18位复数FFT的计算时间为13滋s。相似文献

11.

Memory Efficient Two-Pass 3D Coprocessor FFT Algorithm for Intel（R） Xeon Phi TM

下载免费PDF全文

刘益群 ;李焱 ;张云泉 ;张先轶《计算机科学技术学报》2014,29(6):989-1002

Equipped with 512-bit wide SIMD inst d large numbers of computing cores, the emerging x86-based Intel（R） Many Integrated Core （MIC） Architecture ot only high floating-point performance, but also substantial off-chip memory bandwidth. The 3D FFT （three-di fast Fourier transform） is a widely-studied algorithm; however, the conventional algorithm needs to traverse the three times. In each pass, it computes multiple 1D FFTs along one of three dimensions, giving rise to plenty of rided memory accesses. In this paper, we propose a two-pass 3D FFT algorithm, which mainly aims to reduce of explicit data transfer between the memory and the on-chip cache. The main idea is to split one dimension into ensions, and then combine the transform along each sub-dimension with one of the rest dimensions respectively erence in amount of TLB misses resulting from decomposition along different dimensions is analyzed in detail. el parallelism is leveraged on the many-core system for a high degree of parallelism and better data reuse of loc On top of this, a number of optimization techniques, such as memory padding, loop transformation and vectoriz employed in our implementation to further enhance the performance. We evaluate the algorithm on the Intel（R） PhiTM coprocessor 7110P, and achieve a maximum performance of 136 Gflops with 240 threads in offload mode, which ts the vendor-specific Intel（R）MKL library by a factor of up to 2.22X. 相似文献

12.

MPFFT: An Auto-Tuning FFT Library for OpenCL GPUs

下载免费PDF全文

李焱张云泉刘益群龙国平贾海鹏《计算机科学技术学报》2013,28(1):90-105

Fourier methods have revolutionized many fields of science and engineering,such as astronomy,medical imaging,seismology and spectroscopy,and the fast Fourier transform(FFT) is a computationally efficient method of generating a Fourier transform.The emerging class of high performance computing architectures,such as GPU,seeks to achieve much higher performance and efficiency by exposing a hierarchy of distinct memories to software.However,the complexity of GPU programming poses a significant challenge to developers.In this paper,we propose an automatic performance tuning framework for FFT on various OpenCL GPUs,and implement a high performance library named MPFFT based on this framework.For power-of-two length FFTs,our library substantially outperforms the clAmdFft library on AMD GPUs and achieves comparable performance as the CUFFT library on NVIDIA GPUs.Furthermore,our library also supports non-power-of-two size.For 3D non-power-of-two FFTs,our library delivers 1.5x to 28x faster than FFTW with 4 threads and 20.01x average speedup over CUFFT 4.0 on Tesla C2050. 相似文献

13.

可扩展的旋转因子表及FFT算法 总被引：1，自引：0，他引：1

李青王能超郑楚光《计算机学报》2002,25(4):392-396

该文提出了一个用于快速Fourier变换计算的反写码序的旋转因了表，这种旋转因子表具有可扩展性：本质上，这种旋转因子表的分量与变换的点数无关，当点数改变时，这种旋转因子表无须重新计算或者容易扩展；根据这种旋转因子表，该文设计了一个结构规整的基本基4计算2^n点FFT的算法及软件程序，该程序与FFTW软件包进行了对比实验，文中还以蛋白质序列相似性计算为例，对作者的算法与FFTW软件包中的相庆算法进行了对比实验，结果表明，采用该文的算法可节省计算时间约31．7％。相似文献

14.

龙芯3A处理器上FFT的高效实现

郭利财刘燕君《小型微型计算机系统》2012,33(3):594-597

FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右. 相似文献

15.

The scalability of FFT on parallel computers

Gupta A. Kumar V. 《Parallel and Distributed Systems, IEEE Transactions on》1993,4(8):922-932

The authors present the scalability analysis of a parallel fast Fourier transform (FFT) algorithm on mesh and hypercube connected multicomputers using the isoefficiency metric. The isoefficiency function of an algorithm architecture combination is defined as the rate at which the problem size should grow with the number of processors to maintain a fixed efficiency. It is shown that it is more cost-effective to implement the FFT algorithm on a hypercube rather than a mesh despite the fact that large scale meshes are cheaper to construct than large hypercubes. Although the scope of this work is limited to the Cooley-Tukey FFT algorithm on a few classes of architectures, the methodology can be used to study the performance of various FFT algorithms on a variety of architectures such as SIMD hypercube and mesh architectures and shared memory architecture 相似文献

16.

一种在多核嵌入式平台上实现FFT的快速并行算法

彭自然王国军《计算机应用研究》2017,34(11)

快速傅利叶变换（fast Fourier transform,FFT）算法是对实时数字信号进行快速分析处理的一个基本方法。针对多核嵌入式实时环境下并行FFT算法进行了研究,以有效提高实时信号处理的速度。提出了一种新的静态多项式FFT算法,充分利用静态多项式奇偶项的不同特点直接代入数据计算,免去了层层迭代的计算过程,减少了运算过程中的通信提高并行性能。对该算法思想本文在理论进行了严密论证,通过嵌入式实时平台上运行测试和仿真实验,证实了在数据分段较短的约束条件下,该多项式静态算法较经典的FFT并行算法在时间复杂度上有一定优势。本文结论:多项式静态FFT算法能够有效提高并行FFT运行速度。相似文献

17.

Fast hyperbolic Radon transform using chirp-z transform

《Digital Signal Processing》2019

The hyperbolic Radon transform plays an important role in seismic data processing for its ability to focus seismic events in the transform domain. Traditional algorithms based on direct implementations, however, are inefficient with limited applications for processing large data sets. A new algorithm is presented for fast computation of the hyperbolic Radon transform and its sparse calculations. It uses interpolation procedures to stretch the data along time axis and efficiently computes the summation paths in the new coordinates via the chirp-z transform which is carried out by fast Fourier transform (FFT). The proposed fast algorithm is then used within the deconvolutive form of the Radon transform and iterative sparse algorithms for effective decomposition of CMP gathers with an improved temporal resolution, compared to the traditional Radon transforms. The effectiveness of the new algorithm are confirmed on sparse velocity-stack inversion, primary and multiple separation, high-quality stacking, and automatic velocity model building. The tests show that sparse velocity-stack inversion using the new algorithm is even more efficient than the traditional velocity scan, both in resolution and speed. Furthermore, numerical tests show the superiority of the proposed algorithm over the state-of-the-art fast algorithms, based on butterfly scheme and log-polar convolutions, demanding less computational complexity. 相似文献