共查询到20条相似文献,搜索用时 984 毫秒
1.
2.
3.
4.
对非2次幂长度的海量数据FFT处理器设计,采用补零技术会造成巨大硬件资源的浪费,且影响算法性能.提出了一种适合于硬件实现,可处理数据长度为q×2“的FFT算法(q为非2质数)以及基于此算法的FFT处理器设计方法.提出的操作数地址映射方法充分利用了算法的同址特性,使得在最少的存储空间需求下,达到最大的数据并行性;设计的混合运算单元有效地统一了混合基和q点DFT运算,减少了运算部件的资源占用率,使得多个运算单元的并行成为可能.仿真结果表明,计算16位20480点DFT运算需要7181个时钟周期,系统频率达到了105MHz.不仅有效地扩展了FFT处理器的数据处理范围,同时满足SAR等实时系统对处理速度的要求. 相似文献
5.
对非2次幂长度的海量数据FFT处理器设计,采用补零技术会造成巨大硬件资源的浪费,且影响算法性能.提出了一种适合于硬件实现,可处理数据长度为q×2m的FFT算法(q为非2质数)以及基于此算法的FFT处理器设计方法.提出的操作数地址映射方法充分利用了算法的同址特性,使得在最少的存储空间需求下,达到最大的数据并行性;设计的混合运算单元有效地统一了混合基和q点DFT运算,减少了运算部件的资源占用率,使得多个运算单元的并行成为可能.仿真结果表明,计算16位20480点DFT运算需要7181个时钟周期,系统频率达到了105 MHz.不仅有效地扩展了FFT处理器的数据处理范围,同时满足SAR等实时系统对处理速度的要求. 相似文献
6.
快速傅里叶变换(FFT)在数字信号处理领域得到广泛应用,采用ASIC实现FFT变换可以实现系统高性能、低功耗、小型化。提出了FFT处理器芯片电路设计与实现方法。该芯片采用基4算法、流水线结构及16路并行运算等方法提高了处理速度,在系统时钟为80MHz的情况下,完成4096点复数FFT运算只需25μs。 相似文献
7.
8.
随着处理器和主存之间性能差距的不断增大,长延迟访存成为影响处理器性能的主要原因之一.存储级并行通过多个访存并行执行减少长延迟访存对处理器性能的影响.文中回顾了存储级并行出现的背景,介绍了存储级并行的概念及其与处理器性能模型之间的关系;分析了限制处理器存储级并行的主要因素;详细综述了提高处理器存储级并行的各种技术,进行了... 相似文献
9.
10.
VPP500向量并行处理机是一台高度并行的分布式存储器巨型计算机,性能范围是6.4 ̄355GFLOPS,主存容量为1 ̄222GB。该系统可支持4 ̄222个由高带宽交叉开关网络互连的处理器。VPP500与当前大规模并行系统截然不同的三个关键特征决定了其体系结构。第一,它的组成部件是1.6GFLOPS的向量处理器,比大规模并行处理机(MPP)中使用的处理器快一个数量级。这种极高的单处理器性能降低了系统 相似文献
11.
根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%. 相似文献
12.
介绍了使用二维RAM和128个蝶形运算模块并行处理实现高速FFT(快速傅立叶变换)算法的突破性技术。该处理器可以支持最大32K的点复数FFT变换(实部和虚部各16位),转换时间为70μs,技术指标居国际先进水平。 相似文献
13.
基于CORDIC算法的高速基-4FFT处理器设计 总被引:1,自引:0,他引:1
针对目前数字信号处理中对高速傅里叶变换(FFT)的要求,进行了FFT算法研究,采用基-4算法来实现FFT处理器;设计了对称乒乓RAM结构,提高了FFT处理器的连续运算能力和运算速度;采用CORDIC算法代替复数乘法器,用移位加法实现了复数乘法运算,减小了系统资源占用,提高了系统速度,设计了防溢出控制结构,在不增加系统延时的基础上,提高了运算精度;采用AL-TERA公司FPGA进行了验证,仿真结果表明该FFT处理器最大工作频率可达168.86 MHz,能满足高速实时处理的要求。 相似文献
14.
基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 总被引:2,自引:0,他引:2
随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. 相似文献
15.
A portable parallelization of the Cooley–Tukey FFT algorithm for MIMD multiprocessors is presented. The implementation uses the virtual machine for multiprocessors (VMMP) and PVM portable software packages. Since VMMP provides the same set of services on all target machines, a single version of the parallel FFT code was used for shared memory (25-processor Sequent Symmetry), shared bus (MOS-running distributed UNIX) and distributed memory multiprocessor (transputer network and 64-processor IBM SP2). It is accompanied with detailed performance analysis of the implementations. The algorithm achieved high efficiencies on all target machines. The analysis indicates that most overheads are caused by the target architecture and not by VMMP or PVM inefficiencies. The portability analysis of the FFT provides several important insights. On the message passing architecture, the parallel FFT algorithm can obtain linearly increasing speedup with respect to the number of processors with only a moderate increase in the problem size. The parallel FFT can be executed by any number of processors, but generally the number of processors is much less than the length of the input data. The results indicate that the parallel FFT is portable: it achieves very good speedups on either a shared memory multiprocessor with high memory bandwidth or on a message passing multiprocessor without any change in the programs. © 1998 John Wiley & Sons, Ltd. 相似文献
16.
17.
18.
19.
电能质量谐波分析中通常使用快速傅立叶变换算法(FFT),但在大数据量时其循环体执行效率低,实时性不高。针对上述问题,提出在多核处理器上采用TBB(Intel线程构建模块)并行实现复序列FFT的思路,提高谐波分析的速度,增强实时性。此外,与其他并行库改造程序的实验对比结果表明,TBB可以以更简单的手段,实现更高效的程序并行。 相似文献
20.
The Adapteva Epiphany many-core architecture comprises a 2D tiled mesh Network-on-Chip (NoC) of low-power RISC cores with minimal uncore functionality. It offers high computational energy efficiency for both integer and floating point calculations as well as parallel scalability. Yet despite the interesting architectural features, a compelling programming model has not been presented to date. This paper demonstrates an efficient parallel programming model for the Epiphany architecture based on the Message Passing Interface (MPI) standard. Using MPI exploits the similarities between the Epiphany architecture and a conventional parallel distributed cluster of serial cores. Our approach enables MPI codes to execute on the RISC array processor with little modification and achieve high performance. We report benchmark results for the threaded MPI implementation of four algorithms (dense matrix–matrix multiplication, N-body particle interaction, five-point 2D stencil update, and 2D FFT) and highlight the importance of fast inter-core communication for the architecture. 相似文献