期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张师群于敦山盛世敏《计算机技术与发展》2008,18(1):1-6

提出了一个应用于时频分析的短时傅里叶变换处理器.为了克服已有的离散短时傅里叶变换算法和结构的缺点,给出了一种基于快速傅里叶变换阵列的新结构.根据实际需要提出了一种新的高频域分辨率的SDF(Single-path Delay Feedback)结构FFT单元,和传统的SDF结构FFT单元相比,反馈FIFO的深度和蝶形单元的数量都有所降低.再加上开发窗函数的对称性和适当合并硬件资源,与原始设计相比处理器的功耗降低了20%.使用中芯国际0.18微米工艺实现之后,系统工作时钟可以达到200MHz,即该处理器可以满足同样频率的采样信号的实时时频分析需求. 相似文献

2.

基于FPGA的高速实时FFT处理器设计

付宜利王光国靳保《微计算机信息》2007,23(5):194-195

为满足机器人敏感皮肤实时信号处理的要求,系统采用FPGA来实现快速傅里叶变换(FFT)算法。本文在分析了基-2FFT算法的基础上,采用同步流水线结构,利用现场可编程门阵列(FPGA)完成256点16位复数点FFT。实验结果表明,使用FPGA实现FFT具有很好的实时性,能满足机器人敏感皮肤实时信号处理的要求。相似文献

3.

改进的多路基-24 FFT处理器设计 总被引：1，自引：1，他引：0

下载免费PDF全文

汪文义王琳凯周金元周晓方《计算机工程》2011,37(7):262-264

给出一种改进的基-24频域抽取FFT算法,基于该算法和SDF结构,提出改进的多路基-24 FFT处理器结构,通过复用常复系数乘法器,减少硬件消耗并维持吞吐率不变。基于改进结构设计2路256点FFT处理器,在SMIC 0.13 μm工艺下综合、布局和布线后的版图核心面积为1.12 mm2,最高工作频率为100 MHz。相似文献

4.

Implementation and evaluation of a microthread architecture

K. Bousias L. Guang C.R. Jesshope M. Lankamp 《Journal of Systems Architecture》2009,55(3):149-161

Future many-core processor systems require scalable solutions that conventional architectures currently do not provide. This paper presents a novel architecture that demonstrates the required scalability. It is based on a model of computation developed in the AETHER project to provide a safe and composable approach to concurrent programming. The model supports a dynamic approach to concurrency that enables self-adaptivity in any environment so the model is quite general. It is implemented here in the instruction set of a dynamically scheduled RISC processor and many such processors form a microgrid. Binary compatibility over arbitrary clusters of such processors and an inherent scalability in both area and performance with concurrency exploited make this a very promising development for the era of many-core chips. This paper introduces the model, the processor and chip architecture and its emulation on a range of computational kernels. It also estimates the area of the structures required to support this model in silicon. 相似文献

5.

一种高性能超长点数浮点FFT加速器设计

王谛石嵩吴铁彬刘亮谭弘兵郝子宇过锋李宏亮《计算机研究与发展》2021,58(6):1192-1203

快速傅里叶变换(fast Fourier transform, FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor, DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明：FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升. 相似文献

6.

基于FPGA的1024点高性能FFT处理器的设计 总被引：1，自引：0，他引：1

钟冠文卢亚伟付欣玮庞志勇陈弟虎《微计算机信息》2012,(8):66-67,111

为了提高FFT(Fast Fourier Transformation)处理数据的实时性,本文研究了16位1024点FFT并提出了几种有效的优化方案。在Xilinx公司Virtex-E系列FPGA上实现了工作频率50MHz以上、流水线型、基22单路径反馈结构(R22SDF)FFT处理器。仿真和性能评估结果表明本FFT处理器的有较高的性能。相似文献

7.

高性能基4快速傅里叶变换处理器的设计 总被引：3，自引：1，他引：3

下载免费PDF全文

段小东顾立志《计算机工程》2008,34(24):238-240

研究并设计高性能基4快速傅里叶变换(FFT)处理器。采用基4算法、流水线结构的蝶形运算单元,提高了处理速度,使芯片能在更高的时钟频率上工作。运用溢出检测状态机对每个蝶形运算单元输出的数据进行块浮点检查,确保对溢出情况进行正确判断。验证与性能评估结果表明,该FFT处理器具有较高性能。相似文献

8.

基-2 FFT处理器的FPGA实现

张辉张记龙《计算机与现代化》2009,(5)

针对当前数字信号处理领域对快速傅里叶变换应用的广泛需求,在对算法原理分析的基础上,给出了8点基-2按时间抽选FFT处理器的实现方案;并综合Xilinx xc3s1500系列芯片,通过Modelsim SE 6.0对程序进行仿真.实验结果表明,该处理器功能实现正确,并且具有较高的运算速度和精度. 相似文献

9.

适用于多核处理器的簇状片上网络设计 总被引：1，自引：1，他引：0

下载免费PDF全文

尤凯迪肖瑞瑾权衡虞志益《计算机工程》2011,37(21):211-213

提出一种新型簇状片上网络架构。该架构以二维网状拓扑结构连接各个簇单元,每个簇单元由3个处理器、1个直接访存单元和1个簇共享存储单元组成。基于该架构的多核处理器可以获得更高的通信效率及存储器利用率。在实验系统上实现3 780点的快速傅里叶变换,结果表明,在快速傅里叶变换应用中存储器的利用率能提升至79.5%。相似文献

10.

基于存储技术的高速嵌入式处理器的设计与实现 总被引：1，自引：0，他引：1

张钦韩承德《计算机学报》2007,30(5):831-837

SoPC(片上可编程系统,System on a Programmable Chip)在嵌入式系统中有着广泛的应用,通常用FPGA(现场可编程门阵列,Field Programmable Gate Array)实现.一类嵌入式处理器,例如小波变换处理器、压缩和解压缩处理器、FFT处理器,都可以采用基于存储技术的设计方法.FPGA的片内存储资源相对较少,如何有效地利用FPGA的片内存储资源实现高速的嵌入式处理器成为需要研究的问题.文中以FFT处理器为例说明这种方法的有效性,通过采用一种地址映射调度策略和两种无冲突操作数地址映射方式,减少了所使用的FPGA片内存储资源,提高了处理速度.该FFT处理器在实际系统中起到了关键作用. 相似文献

11.

高性能并行FFT处理器的设计与实现

下载免费PDF全文

石长振杨雪王贞松《计算机工程》2012,38(2):242-244

提出一种高性能并行快速傅里叶变换(FFT)处理器的设计方案,采用4个蝶形单元进行并行处理,利用改进的无冲突操作数地址映射方式,保证每个周期同时读取和写入16个数据。给出该处理器的FPGA实现,性能评测结果表明,与其他FFT处理器相比,该并行FFT处理器的性能较优,能满足实际应用需求。相似文献

12.

高效可配置FFT处理器的VLSI设计及其应用 总被引：2，自引：0，他引：2

肖昊向波陈赟曾晓洋《计算机辅助设计与图形学学报》2009,21(2)

针对正交频分复用通信系统中的快速傅里叶变换(FFT)处理器的硬件实现,提出一种高效可配置的VLSI结构. 在基于存储器的FFT架构基础上,采用一种双路并行处理的数据通路和一种有效的控制方案,节省了硬件面积并提高了系统运算的效率. 此外,对FFT的蝶形运算单元进行了优化,使其能处理多种运算模式.基于该结构的FFT处理器已应用于DVB-T/H系统中,并在SMIC 0.18 μm工艺下进行了逻辑综合、Layout以及功耗分析,等效逻辑门数为56 k,在20 MHz工作频率下功耗约为33.5 mW.与FFT结构相比,该结构有效地减少了硬件面积和功耗. 相似文献

13.

MDFT域参数立体声编码器设计与实现

曾敏涂卫平蔡旭芬《计算机工程与应用》2016,52(13):48-54

FFT域参数立体声编码器在立体声参数提取和主声道编码时采用不同的时频变换, 导致计算复杂度高。设计并实现了一种MDFT（Modified Discrete Fourier Transform,修正离散傅里叶变换）域参数立体声编码器,使得立体声参数提取和主声道编码部分能够复用MDCT（Modified Discrete Cosine Transform,修正离散余弦变换）变换,从而有效降低计算复杂度。与经典的FFT域参数立体声编码器相比,在保证音质相当的同时,编解码计算复杂度下降约33%。完善并验证了已有的MDFT域参数立体声编码理论。相似文献

14.

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 总被引：2，自引：0，他引：2

周永彬张军超张帅张浩《计算机学报》2008,31(11)

随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. 相似文献

15.

可扩展的旋转因子表及FFT算法 总被引：1，自引：0，他引：1

李青王能超郑楚光《计算机学报》2002,25(4):392-396

该文提出了一个用于快速Fourier变换计算的反写码序的旋转因了表，这种旋转因子表具有可扩展性：本质上，这种旋转因子表的分量与变换的点数无关，当点数改变时，这种旋转因子表无须重新计算或者容易扩展；根据这种旋转因子表，该文设计了一个结构规整的基本基4计算2^n点FFT的算法及软件程序，该程序与FFTW软件包进行了对比实验，文中还以蛋白质序列相似性计算为例，对作者的算法与FFTW软件包中的相庆算法进行了对比实验，结果表明，采用该文的算法可节省计算时间约31．7％。相似文献

16.

Reconfigurable Superconducting FFT Processor Using Bit-Slice Block Share Processing Unit

《Microprocessors and Microsystems》2020

We have proposed a reconfigurable high speed and very economical Rapid Single Flux Quantum (RSFQ) superconducting logic design based on the Fast Fourier Transform (FFT) Processor. We have designed a 256 – point FFT processor with the help of a bit-slicing block sharing unit. RSFQ is one of the superconducting device logics comprises of Josephson Junction. The computation complexity of this superconducting FFT is less when the number of points increased. We have proposed three different designs depending on the split radix FFT, the bit-serial radix 2 FFT, and the mixed radix FFT algorithms. The proposed design will slice the 256 – point FFT into eight 32 – point FFT each and each 32 – point FFT is divided into eight 4 – point FFT each for the reduction in hardware cost. For complex multiplication, the computation complexity of our design will be less than N/2 Log₂ N for the radix 2 algorithm based on the Block share processing Unit (BSPU) and further, it is reduced for split radix & mixed radix algorithms based on BSPU based RSFQ logic. Due to this, the speed of the processor is improvised compared to general FFT algorithm based semiconductor technology. we have computed and calculated the latency at 10 GHz for our designs. The main aim of this proposed design is to reduce the complex computation time and better performance of the processor with less hardware cost. This proposed design can furthermore continue to several N² – point by using synchronous clock tree. 相似文献

17.

混合CORDIC在分裂基FFT中的应用

下载免费PDF全文

万书芹阮园于宗光王国璋李天阳《计算机工程与应用》2010,46(11):73-76

提出了一个基于CORDIC的分裂基FFT/IFFT处理器来计算2048/4096/8192点DFT。蝶形处理器的算术单元和旋转因子产生器采用CORDIC算法实现,所有的控制信号在片内产生。相比于存储旋转因子所需的ROM,CORDIC旋转因子所用ROM尺寸更小。与传统的FFT实现相比功耗减少了25%。相似文献

18.

二维离散小波变换高效低存储VLSI架构设计*

王超《计算机应用研究》2010,27(9):3554-3557

通过改进二维离散小波变换(2D DWT)的提升算法,提出一种高效的硬件架构,可省去行列模块间的转置缓存,减少片内存储器需求,并可利用同一2D DWT架构实现JPEG 2000中的5/3和9/7 变换。对于N×N的图像（N为图像宽度）,进行5/3 变换仅需2N片内缓存,进行9/7变换仅需4N片内缓存,关键路径为一个乘法器的延时。与已有的2D DWT架构相比,本架构省去了行列模块间的转置缓存,并利用折叠技术和流水线技术降低了硬件开销,缩短了关键路径,有效提升了系统性能。相似文献

19.

An FFT Performance Model for Optimizing General-Purpose Processor Architecture

下载免费PDF全文

李玲陈云霁刘道福钱诚胡伟武《计算机科学技术学报》2011,26(5):875-889

General-purpose processor (GPP) is an important platform for fast Fourier transform (FFT),due to its flexibility,reliability and practicality.FFT is a representative application intensive in both computation and memory access,optimizing the FFT performance of a GPP also benefits the performances of many other applications.To facilitate the analysis of FFT,this paper proposes a theoretical model of the FFT processing.The model gives out a tight lower bound of the runtime of FFT on a GPP,and guides the architecture optimization for GPP as well.Based on the model,two theorems on optimization of architecture parameters are deduced,which refer to the lower bounds of register number and memory bandwidth.Experimental results on different processor architectures (including Intel Core i7 and Godson-3B) validate the performance model.The above investigations were adopted in the development of Godson-3B,which is an industrial GPP.The optimization techniques deduced from our performance model improve the FFT performance by about 40%,while incurring only 0.8% additional area cost.Consequently,Godson-3B solves the 1024-point single-precision complex FFT in 0.368 μs with about 40 Watt power consumption,and has the highest performance-per-watt in complex FFT among processors as far as we know.This work could benefit optimization of other GPPs as well. 相似文献

20.

一种基于并行计算的快速FFT IP核设计

李仕专李维涛姜全贤符天《计算机与数字工程》2010,38(4):139-141

介绍了使用二维RAM和128个蝶形运算模块并行处理实现高速FFT（快速傅立叶变换）算法的突破性技术。该处理器可以支持最大32K的点复数FFT变换（实部和虚部各16位）,转换时间为70μs,技术指标居国际先进水平。相似文献