共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
在浮点除法器的设计中,若用函数迭代或高基数算法进行除法运算,计算开始时,通过浮点倒数查找表获得一个较精确的初始除数倒数近似值,可以减少除法的迭代次数,缩短运算的延迟。即将除数的前几位作为表的一个入口地址,该地址指示的位置存放着满足一定精度的初值倒数近似值。文中详述了几种获得除数倒数近似值的方法,其中包括算法、误差限和精度等。 相似文献
3.
一种基于贪婪算法的CORDIC改进算法 总被引:1,自引:0,他引:1
针对传统串行坐标旋转数字计算方法(CORDIC)耗时且占用较多资源的缺点,提出了一种旋转模式下CORDIC算法的新型改进算法,该改进算法可用来代替直接数字频率合成器(DDS)查找表进行正余弦的计算。通过采用贪婪算法实现对CORDIC旋转方向与旋转角度的优化,从而可以达到串行转并行和减少迭代次数、节约资源的目的。该算法可以应用于三角函数的复杂函数的硬件实现中。仿真结果表明,在迭代次数相同的情况下,改进算法较传统算法可以获得更高的精度。最后,在Xilinx FPGA的Spartan-3E芯片上实现了改进的CORDIC结构。与传统CORDIC算法相比,在运算精度为10-5时,可以节省Slices、LUTs(Look Up Tables)资源分别为28%和25%。 相似文献
4.
5.
6.
为了提高数字信号处理中奇异值分解的实时处理能力,实现较大规模矩阵运算,采用Jacobi双边旋转算法,提出了一种基于FPGA的单精度浮点SVD处理器的实现结构.此结构充分考虑面积、速度和数值精度三个方面的因素,采用GA算法改进ODRDIC算法,提高关键模块数值精度和处理速度,并利用双平面旋转和FFGA中DSP单元加速矩阵计算速度,免去了对最后结果的修正,实验测试结果显示了结构的高效性. 相似文献
7.
针对嵌入式处理器对面积要求极为苛刻的特点,提出了一种改进的基于Goldschmidt算法的双精度浮点除法器。改进的除法算法的计算过程分为两个阶段,第一阶段采用线性minimax多项式逼近算法得到一个具有15-bit精度的除数倒数的估计值。相比于minimax二次多项式逼近,一次多项式逼近会获得一个更小的查找表(LUT)以及在部分积累加过程中获得更少的计算量。在第二阶段,采用基于硬件复用的方法实现两次Goldschmidt迭代,使得两次Goldschmidt迭代仅仅使用一个乘法器和一个求补单元。最后,该设计采用Verilog HDL进行编码,并基于FPGA进行实现。通过与其他算法进行比较得知,改进的Goldschmidt除法器在性能不降低的情况下有较小的面积开销,满足嵌入式处理器的需求。 相似文献
8.
采用CORDIC算法计算三角函数值来实现DDS,可以减少存储资源,便于在FPGA中实现.通过对传统CORDIC算法流水结构的分析,提出了一种在迭代过程采用不同位宽的寄存器存储角度值和幅度值的优化方法,可以节省资源而不影响计算精度,并且在FPGA中实现了该方法. 相似文献
9.
快速浮点加法器的优化设计 总被引:3,自引:0,他引:3
运算器的浮点数能够提供较大的表示精度和较大的动态表示范围,浮点运算已成为现代计算程序中不可缺少的部分.浮点加法运算是浮点运算中使用频率最高的运算,因此,浮点加法器的性能影响着整个CPU的浮点处理能力.文中从分析浮点加减操作的基本算法入手,介绍了一种新的算法,即三数据通道浮点加法算法,并着重介绍了整数加法器和移位器的设计,对32位浮点加法器的设计进行了优化. 相似文献
10.
在现代数字信号处理领域中,CORDIC算法是一种重要的数学计算方法。该算法采用一种迭代的方式,运算简便,被广泛应用于乘除法、开方以及一些三角函数运算当中。但CORDIC算法需要较高的迭代级数以保证运算精度,在进行FPGA实现时仍然会消耗较多的硬件逻辑资源。为进一步减少CORDIC算法实现时的资源消耗,设计并实现了一种基于折叠变换的CORDIC算法。相比传统的流水结构CORDIC算法,该折叠结构的CORDIC算法消耗的硬件资源大大减少。文中给出了这一方法的实现结构,并给出了仿真结果。 相似文献
11.
介绍了一种适用于MPEG-4视频简单层解压缩应用的二维IDCT协处理器。该处理器采用Loeffler架构的IDCT快速算法,并使用加法和移位运算代替IDCT快速算法中的浮点乘法运算单元,用高度并行流水VLSI结构加快数据处理速度,采用一维的IDCT单元的复用的方式来实现二维的IDCT运算。在满足处理速度和精度要求的基础上,利用较少的晶体管数目实现了一种高性能的二维IDCT处理器。该方案已经应用于一款SOC芯片中的硬件MMA(多媒体加速单元)中,IDCT的运算精度也得到了验证。 相似文献
12.
本文提出了一种优化的最大逼近角的CORDIC算法改进,低位通过最高非零位最大逼近角的计算方法实现,高位通过高速进位加法器的结构实现.采用基本角度线性编码方式,不但使流水线方式容易实现,而且旋转方向也容易确定,同时减少了迭代次数和增加迭代速度,精度越高优势越明显.算法实现不需要ROM,能大大节省硬件资源,可以应用在高精度高速度的运算领域. 相似文献
13.
高吞吐浮点可灵活重构的快速傅里叶变换(FFT)处理器可满足尖端雷达实时成像和高精度科学计算等多种应用需求。与定点FFT相比,浮点运算复杂度更高,使得浮点型FFT的运算吞吐率与其实现面积、功耗之间的矛盾问题尤为突出。鉴于此,为降低运算复杂度,首先将大点数FFT分解成若干个小点数基2k 级联子级实现,提出分别针对128/256/512/1024/2048点FFT的优化混合基算法。同时,结合所提出同时支持单通道单精度和双通道半精度两种浮点模式的新型融合加减与点乘运算单元,首次提出一款高吞吐率双模浮点可变点FFT处理器结构,并在28 nm标准CMOS工艺下进行设计并实现。实验结果表明,单通道单精度和双通道半精度浮点两种模式下的运算吞吐率和输出平均信号量化噪声比分别为3.478 GSample/s, 135 dB和6.957 GSample/s, 60 dB。归一化吞吐率面积比相比于现有其他浮点FFT实现可提高约12倍。 相似文献
14.
15.
16.
描述了一种基于可重构流水线阵列的系统- (RPAS-Reconfigurable Pipelined Array System),该阵列系统适用于大计算量的数字信号处理领域,比如视频编解码,通过AHB接口与ARM核进行通信,辅助处理器完成大规模的运算操作.描述这一阵列系统的结构,并介绍在H. 264编解码过程中运行次数多,耗时长的2维DCT运算和求块的SAD值运算在RPAS中的映射与实现.仿真结果显示,RPAS能达到6倍以上于通用处理器的性能,并在运算实现复杂度与芯片面积之间,运算效率与系统通用性之间达到一个权衡. 相似文献
17.
18.
19.
基于TSMC0.18μm CMOS工艺标准单元库,设计了高速1024点FFT处理器。数据采用IEEE754标准单精度浮点格式,实现高精度数据处理;在设计中通过使用改进的按时间抽取的基二算法,降低了寻址的复杂度;采用流水线技术设计了蝶形运算单元,提高了系统的工作频率;利用三角函数关系,提出了新的旋转因子存储方案,相比于传统设计,可以使ROM规模降低75%。逻辑综合和版图综合后的报告显示,该处理器的工作频率可以达到167MHz,完成一次1024点FFT运算仅需37.7μs,FFT处理单元核心面积为1.4mm2. 相似文献