首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
可配置高速高精度FFT的硬件实现   总被引:2,自引:1,他引:2  
邓波  戎蒙恬  汤晓峰 《计算机工程》2006,32(17):254-256
提出了一种高速、可变长点、混合基8/4/2、浮点的FFT硬件模块化设计方案。设计方案中,改进了基8/4/2混合基算法,能够处理可变长2N(3≤N≤12)采样点;提出了一种乒乓RAM结构和数据地址的组织,可以同时存、取和处理16个数据,保证处理实时性;采用了超长流水线浮点执行单元,提高了处理结果的精度。目前,该设计已在FPGA上实现,采样点长4k时处理能力为250MSPS。采用0.18μm CMOS工艺综合,4k点时处理能力可达到800MSPS。  相似文献   

2.
基于FPGA的通用FFT处理器的设计   总被引:1,自引:0,他引:1  
介绍了一种通用的可以在低端或是高端的FPGA上实现N(N=2M,M=2,3,4…)点FFT变换的方法。设计采用基4布斯编码算法和华莱士树算法设计完成了16X16位有符号数并行乘法器,并采用此并行乘法器为核心设计了FFT算法中的基-2蝶形运算单元,设计了串并转化模块、并串转换模块、移位选择模块、溢出检测模块和地址与控制模块等其它模块,并以这些模块和FPGA内部的双口RAM和ROM为基础组成了基-2FFT算法模块。整个模块采用基-2时域抽取,顺序输入,逆序输出的方法;利用Modelsim完成了FFT模块的前后仿真;利用Matlab编写了用于比较仿真结果和Matlab中FFT函数产生的结果的程序,从而验证了仿真结果的正确性。该模块最后能够在Cyclone EP1C6Q240C8型FPGA上稳定运行在60MHz。整个FFT模块能够在183μs左右完成1024点的16位定点复数FFT运算,能够满足一般工程的要求。该方法也可以用于实现更低点数或是更高点数的FFT运算。  相似文献   

3.
针对现有系统对谐波检测实时性差和精度低的问题,介绍一种基于傅立叶变换和FPGA硬件实现的谐波检测方法.分析了谐波检测中影响测量精度的关键因素,采用数字锁相环来同步被测信号,以减小由非同步采样所产生的误差.基-4FFT 处理器的硬件设计采用全并行的乘法运算单元结构和并行的存储分配方法,最大限度地提高谐波检测的速度.数字锁相环和基-4 FFT 算法用VHDL语言设计实现,并用MAX plus Ⅱ软件进行仿真,仿真结果表明,所设计的数字锁相环可以很好地跟踪被测信号,在180ms时,误差仅为0.01Hz,很好地消除了非同步采样所引起的测量误差;采用所设计的基-4FFT运算器对给定的谐波数据进行运算,得到的谐波幅值和相位误差小于0.05%,运算时间仅为8μs.  相似文献   

4.
介绍了一种64位子字并行整数乘法器,用相同的硬件可实现64bit×64bit的整数乘法操作操作,又可实现4个16bit×16bit的子字并行整数乘法操作.此乘法器采用了一种简单有效的修正算法,并在部分积累加之前合并了修正值.采用这种算法实现的子字并行乘法器总体结构与传统的乘法器结构不同.经过spice模拟,此乘法器达到了较优的延迟.  相似文献   

5.
针对在分析型联机分析处理(OLAP)应用中频繁出现的数据密集型操作符——分组聚集耗时较多的问题,提出Cache友好的分组聚集算法对该操作进行性能优化。首先,为充分发挥列存储在数据密集型计算方面的优势,采用基于开源的列存储查询执行引擎Supersonic,并在此之上设计Cache友好的分组聚集算法;其次,为加速查询的执行,使用并行技术,将单线程的分组聚集算法改为多线程并行的分组聚集算法。基于Supersonic设计并实现4种并行分组聚集算法:无共享Hash表并行分组聚集(NSHPGA)算法、表锁共享Hash表并行分组聚集(TLSHPGA)算法、桶锁共享Hash表并行分组聚集(BLSHPGA)算法、节点锁共享Hash表并行分组聚集(NLSHPGA)算法,且在不同的分组势集、不同的线程数的情况下,针对上述4种算法做了多组实验。通过对比3种不同粒度的共享Hash表并行分组聚集算法的加速比,得出NLSHPGA算法在加速比和并发度两方面表现最好,部分查询可达到10倍加速比;通过比较NSHPGA算法和NLSHPGA算法的加速比、Cache miss内存使用等情况,得出NLSHPGA算法在分组势集大于8时,加速比超过NSHPGA算法,并且Cache miss更低,使用的内存更少。  相似文献   

6.
前导1预测(Leading One Prediction,LOP)算法常被用在浮点数的加减运算中,它能与尾数加法器并行工作,从而加快了尾数加法器计算结果的规格化过程,同时,这种方法会带来最多1位的误差。根据对误差的处理方式不同,将预测算法分成了3类,并详细介绍了其中的串行纠错前导1预测算法的具体结构,对其关键的组成部分在算法上进行了选择和优化。它与并行纠错LOP以及传统前导1检测(Leading One Detector,LOD)的逻辑综合的实验结果表明,该算法取得了面积、功耗和延时之间的较好均衡。在实际的应用中,该算法成功地运用在了工作频率为1GHz的三站式双通路(Two-Path)浮点加法器中。  相似文献   

7.
针对现有的采用Booth算法与华莱士(Wallace)树结构设计的浮点乘法器运算速度慢、布局布线复杂等问题,设计了基于FPGA的流水线精度浮点数乘法器。该乘法器采用规则的Vedic算法结构,解决了布局布线复杂的问题;使用超前进位加法器(Carry Look-ahead Adder,CLA)将部分积并行相加,以减少路径延迟;并通过优化的4级流水线结构处理,在Xilinx~ISE 14.7软件开发平台上通过了编译、综合及仿真验证。结果证明,在相同的硬件条件下,本文所设计的浮点乘法器与基4-Booth算法浮点乘法器消耗时钟数的比值约为两者消耗硬件资源比值的1.56倍。  相似文献   

8.
基2×2FFT的地址映射算法   总被引:2,自引:0,他引:2  
谢应科  侯紫峰  韩承德 《计算机学报》2000,23(10):1051-1055
FFT处理器是根据 FFT运算特点来进行设计的 ,可以充分提高处理效率 ,达到平均每周期完成一个蝶式运算的处理能力 .在这类芯片中 ,需要并行无冲突的数据访问部件来提供蝶式运算所需的多个操作数 .文中对已有的一些算法进行了比较 ,并提出基 2× 2 FFT的并行数据访问算法 ,通过使用 4个存储体 ,它可以同时完成所需的 4个数据的读取或写入操作 .该算法易于用硬件实现 ,其操作数访问地址的产生速度快于已有的算法 .  相似文献   

9.
本文讨论了一种可在FPGA上实现的FFT结构.该结构采用基于流水线结构和快速并行乘法器的蝶形处理器.乘法器采用改进的Booth算法,简化了部分积符号扩展,使用Wallace树结构和4-2压缩器对部分积归约.以8点复点FFT为实例设计相应的控制电路.使用VHDL语言完成设计,并综合到FPGA中.从综合的结果看该结构可在XC4025E-2上以52MHz的时钟高速运行.在此基础上易于扩展为大点数FFT运算结构.  相似文献   

10.
针对地面数字视频广播(DVB-T)系统中高速FFT处理器的设计要求,提出了一种新的基16/8混合基算法及其实现结构。采用单个基16/8复用的蝶形运算单元顺序处理,并通过减少乘法器数目,有效降低了硬件消耗;运算单元内部采用“基4+基4/2”级联流水线方式,大大加快了运算速度;此外,应用对称乒乓RAM结构提高了蝶算单元的连续运算能力;并且使用改进的块浮点防溢出机制,以保证运算精度。仿真和实现结果表明该设计具有良好的性能,完全满足实际应用要求。  相似文献   

11.
This study presents a new radix-4 butterfly design for Viterbi decoders. The branch symmetry of the proposed radix-4 butterfly is exploited to design a low-complexity radix-4 butterfly module to simplify the implementation of the soft-decision Viterbi decoder. By exploiting the branch symmetry, only a half of branch metrics need to be computed, while other metrics can be derived from the computed branches. Therefore, the branch metric computation of the radix-4 butterfly can be reduced by a factor of 2. Considering the convolutional code in the DAB system as an example, experimental results indicate that the proposed radix-4 butterfly design can reduce the number of FPGA slices of the radix-4 butterfly module by 24% over the conventional design.  相似文献   

12.
基于基为4的Montgomery模乘算法和改进的流水线组织结构,文章提出了一种结构优化的可扩展模乘运算器结构。设计中采用了按字运算的模乘算法,使本设计具有很好的可扩展性,它可以完成任意位数的模乘运算。同时,因为模乘运算器的运算数据通路采用多级处理单元的流水线结构,所以设计时可以很方便进行配置,以达到模乘运算器硬件成本和运算性能的折衷。分析结果显示,文章提出的模乘运算器结构具有很高的效率和很好的可扩展性。  相似文献   

13.
We design a 3-bit adder or a radix-8 full adder (FA) in quantum-dot cellular automata (QCA), where the 3-bit carry propagation path can be accommodated in one clock-zone. To achieve this, we introduce group majority signals similar to group propagate and generate signals in parallel prefix computations, use them to reformulate the carry expressions of a previous radix-4 FA, and as such we could extend it to higher radix FAs. Applying the aforementioned new interpretation of carry expressions (via group majority signals) on 3-bit adders, results in that only a single clock cycle is required for 12-bit (vs. the previous 8-bit) carry propagation, across four radix-8 FAs. Based on the proposed radix-8 QCA-FA, we realized 8-, 16-, 32-, 64, and 128-bit QCA adders via QCADesigner. Comparison of these adders with the previous radix-4 experiment, showed 9–41% speed up, and 57–76% area saving, for 16–128-bit adders, respectively. On the other hand, compared to the best previous radix-2 design, for the same bit widths, we experienced 57–172% speed up, but at the cost of 138–4% area increase, except for the 64 and 128-bit cases, where we also experienced 19% and 41% area saving, respectively.  相似文献   

14.
In this paper a set of techniques for improving the performance of the fast Fourier transform (FFT) algorithm on modern vector-oriented supercomputers is presented. Single-processor FFT implementations based on these techniques are developed for the CRAY-2 and the CRAY Y-MP, and it is shown that they achieve higher performance than previously measured on these machines. The techniques include (1) using gather/scatter operations to maintain optimum length vectors throughout all stages of small-to medium-sized FFTs, (2) using efficient radix-8 and radix-16 inner loops, which allow a large number of vector loads/stores to be overlapped, and (3) prefetching twiddle factors as vectors so that on the CRAY-2 they can later be fetched from local memory in parallel with common memory accesses. Performance results for Fortran implementations using these techniques demonstrate that they are faster than Cray's library FFT routine CFFT2. The actual speedups obtained, which depend on the size of the FFT being computed and the supercomputer being used, range from about 5 to over 300%.  相似文献   

15.
FFT处理器无冲突地址生成方法   总被引:8,自引:2,他引:6  
马余泰 《计算机学报》1995,18(11):875-880
本文提出了一种新的无冲突地址生成方法,使蝶式运算单元在一个周期内能够同时读取两个操作数。由于取消了地址奇偶判别电路,简化了存储体控制逻辑,同 时也加快了输入/输出地址生成,该方法还同样适用于基-4FFT处理器。  相似文献   

16.
Signal-processing modules working directly on encrypted data provide an elegant solution to application scenarios where valuable signals must be protected from a malicious processing device. In this paper, we investigate the implementation of the discrete Fourier transform (DFT) in the encrypted domain by using the homomorphic properties of the underlying cryptosystem. Several important issues are considered for the direct DFT: the radix-2 and the radix-4 fast Fourier algorithms, including the error analysis and the maximum size of the sequence that can be transformed. We also provide computational complexity analyses and comparisons. The results show that the radix-4 fast Fourier transform is best suited for an encrypted domain implementation in the proposed scenarios.   相似文献   

17.
很多基于椭圆曲线的密码协议如ECDSA签名验证,都需要计算多标量乘法kP IQ。目前常见的多标量乘算法有:Shamir多标量乘算法,interleaving多标量乘算法等,它们的效率主要取决于标量的(联合)海明权值。但它们都是基于radix-2编码表示的,无论采用何种编码,倍点运算的次数都不变,减少的只是点加(或点减)运算的次数。提出一个基于radix-4表示的新的编码方法,并给出一个基于radix-4表示的多标量乘算法,通过用四倍点运算代替倍点运算,且编码是从左到右(即从最高位向最低位)进行,编码和主计算可以合并,提高实现效率并节省内存空间。  相似文献   

18.
An Efficient Two-Dimensional FFT Algorithm   总被引:1,自引:0,他引:1  
A new version of the radix-2 row-column method for computing two-dimensional fast Fourier transforms is proposed. It uses a ``multiple vector' FFT algorithm to compute the transforms of all the columns in an array simultaneously while avoiding all trivial multiplications. The minicomputer implementation of the algorithm runs faster than the 2 × 2 vector radix FFT algorithm. Analysis of the numbers of complex additions and multiplications required indicate that implementations of the radix-4 row-column FFT and 4 × 4 vector radix FFT on the same minicomputer would run slower than the multiple vector implementation.  相似文献   

19.
研究一种基于现场可编程门阵列实现的高速脉冲压缩处理的硬件结构。设计通用的蝶形处理单元,使其在脉冲压缩处理的3个阶段都能使用,实现了硬件的共享,提高了硬件资源的利用效率。通过可使用原位运算的并行存储器结构,使得每个时钟周期均可完成一次蝶形运算,极大地提高了处理速度。采用块浮点处理单元,兼顾定点的高速率和浮点的高精度。经过实践验证,时钟在100 MHz时完成4 096点的脉冲压缩的时间为140 μs。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号