首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
可变长FFT并行旋转因子高效产生算法及实现   总被引:1,自引:0,他引:1  
为了解决FFT处理并行旋转因子产生复杂、所需存储资源多的问题,该文在分体存储器结构的基础上,提出了一种新的旋转因子存储、访问策略.该策略保证混合基4/2 FFT算法每个蝶式运算所需的3个旋转因子均可无冲突并行访问,且在同一个旋转因子查找表的基础上,使计算任意小于最大可处理长度的FFT时,各级访问旋转因子地址的产生仅与最大可处理长度有关,而与当前处理长度无关.该算法仅用一个可移位累加数寄存器,实现计算过程中旋转因子地址产生的级间切换,且使一个存储体容量及访问次数减少了一半以上.  相似文献   

2.
针对高速数字信号处理的要求,提出用FPGA实现基-4FFT算法,并对其整体结构、蝶形单元进行了分析.采用蝶算单元输入并行结构和同址运算,能同时提供蝶形运算所需的4个操作数,具有最大的数据并行性,能提高处理速度;按照旋转因子存放规则,蝶形运算所需的3个旋转因子地址相同,且寻址方式简单;输出采取与输入相似的存储器;运算单元同时采用3个乘法的复数运算算法来实现.  相似文献   

3.
针对高速数字信号处理的要求,提出用FPGA实现基-4 FFT算法,并对其整体结构、蝶形单元进行了分析.采用蝶算单元输入并行结构和同址运算,能同时提供蝶形运算所需的4个操作数,具有最大的数据并行性,能提高处理速度;按照旋转因子存放规则,蝶形运算所需的3个旋转因子地址相同,且寻址方式简单;输出采取与输入相似的存储器;运算单元同时采用3个乘法的复数运算算法来实现.  相似文献   

4.
针对PLC浮点算术运算控制器中运算操作数需传送和存储的问题,提出了一种模块间并行执行寻址与运算操作数存储一体化IP核的思路.采用Verilog语言实现硬件电路构建,分析IP核外部接口结构并利用FPGA并行处理的特点对系统内部功能做出模块划分.在内部时序脉冲作用下,可以完成多种寻址方式访问存储器与寄存器堆以及运算操作数的快速传输.经仿真和板级测试可知,寻址与存储IP核能够按要求自主完成每条指令的功能,操作数据可在1个时钟周期内读取,提高了PLC执行指令速度.  相似文献   

5.
采用传统技术进行数字信号处理受到信号干扰和时延影响,导致处理效果较差,因此提出了基于FPGA的高效FFT并行数字信号处理技术.依据FFT实现流程,设计信号存储单元.在该单元内采用RAM随机存取存储器来存储数据,使运算结果显示在实虚部.利用FPGA的FFT四进制计算方式,将运算结果所产生的旋转因子读写地址映射到二维平面上,改善信号干扰问题,为基带采样率控制提供波特率二进制数字信号.通过控制输入数字信号数量,可达到控制相位稳定寻址目的,根据寻址结果,实现对并行数字信号的处理.通过实验对比结果可知,采用FPGA的高效FFT技术能够实现并行数字信号高效处理的目的.  相似文献   

6.
根据基2分解的FFT算法理论,采用了流水线与并行结合的方式,设计了一种基于FPGA芯片的FFT计算模块.该模块由地址控制单元和存储单元配合蝶形运算单元,实现了计算长度为1 024点、数据类型为32位浮点型的FFT计算.测试结果表明,该模块在CycloneIII芯片中耗用3 928个LE和123kb的存储器资源,稳定工作频率可达110 MHz,完成1 024点FFT变换时间为95.66μs,具有良好的运算性能.  相似文献   

7.
针对任意2k点数快速傅里叶变换(FFT)运算,设计并实现一种拥有并行地址无冲突策略的存储器结构FFT处理器.该策略可以支持原位回存,连续帧计算模式,可变多种点数和任意2k长度的FFT运算.通过这种地址策略,FFT处理器所能达到的吞吐率由每一级抽取时的限制条件集合个数所决定.因此这种地址策略可以通过改变计算单元基底和调整计算单元并行度的方式可控地调整吞吐率.为了验证本地址策略的可行性,设计一款应用于长期演进(LTE)系统的128~2 048点的可配置FFT处理器.处理器采用中芯国际55nm CMOS工艺实现,在122.88 MHz工作频率下内核面积为0.615mm2,功耗为32.4mW.FFT处理器的ASIC结果表明所提策略具有优秀的计算长度灵活性,硬件效率,可以支持任意2k长度的FFT计算.  相似文献   

8.
结合CFA和PFA分解数据序列的方式,即所谓指标映射,建立了CFA与PFA之间的映射关系。它表明PFA可按多种方式执行,如同址顺序、非同址顺序、非同址非顺序、同址非顺序。由这种关系建立的新PFA算法具有与传统PFA完全不同的结构。在新PFA算法中,用于计算每一维的小点数FFT的数据是按顺序直接从存贮器中提取的,其中地址的确定是按模N1或模N2取合,而传统算法中则按模N1N2取余。因此新PFA算法的地址产生所需的计算量只有传统PFA算法的地址产生所需计算量的一半。新算法不需要用余数定理作为指标映射的工具。  相似文献   

9.
在对基-2FFT算法原理进行初步分析的基础上,设计了一种1 024点FFT处理器,在基于Xilinx公司的FPGA芯片的基础上,进行了控制单元、数据存储单元、选择因子生成单元和蝶形运算单元的设计.采用verilog HDL语言编程,在ISE平台上编译,利用modelsim软件进行仿真测试.测试结果表明该1 024点FFT处理器在时钟频率为100MHz情况下,处理时间为51.9μs,对于基-2处理器结构,已达到较高的运算速度.  相似文献   

10.
为在硬件平台上实现雷达目标RCS数据压缩及重构,基于阈值离散傅里叶变换(TDFT)算法,采用基2FFT算法,在蝶形运算部分运用改进的ORDIC算法计算序列和旋转因子的复数乘法,从理论上分析了RCS数据压缩算法在硬件上实现的可能性,并通过Matlab软件仿真了算法硬件实现的全过程.仿真结果表明:所提算法的雷达目标RCS数据压缩及重构方法能在硬件上实现,对雷达目标RCS数据压缩及重构的硬件实现具有一定的参考价值.  相似文献   

11.
为实现对光谱数据的快速实时处理,针对快照式傅里叶成像光谱仪,提出一种基于GPU的并行化光谱重构算法.通过分析快照式成像光谱仪的工作原理和数据特性,结合CUDA并行计算架构,对光谱重构算法可并行部分最大程度并行化,并针对并行计算中的内存分配等方面进行优化处理,实现并行化的光谱重构算法.实验结果表明:基于GPU的并行化光谱重构算法,相对CPU串行化算法,精度相同的情况下,计算效率提升了约25倍.利用GPU加速程序的并行部分,可以极大地提高光谱重构的效率,使得快照式成像光谱仪更加适用于实时测量当中.  相似文献   

12.
一种易于硬件实现的运动估计算法及其VLSI实现   总被引:4,自引:1,他引:3  
综合考虑硬件成本和运动估计的精度,提出了一种易于硬件实现的运动估计算法,称之为分层准全搜索法. 在串行输入以100%效率并行处理的硬件结构的基础上,进一步采用并行处理结构和流水线处理的方式,并结合了分层搜索的思想. 所使用的硬件资源是全搜索法的四分之一,而且降低了系统时钟,从而降低了成本. 实验结果表明算法得到的PSNR和全搜索匹配法可比,比其他快速搜索算法要好. 文中结合H.263图像编解码器的实现,提出了一种并行处理时的数据存储方案,大大节省了片内存储器,从而又节省了系统功率和成本,已用FPGA实现了这种算法.  相似文献   

13.
用常规的方法在FPGA上实现PID控制器,要消耗大量的乘法器、加法器和存储器,FPGA的硬件资源不能被合理地利用,而且能耗高。研究在FPGA上采用直接DA(DA-Ⅰ)及改进的DA(DA-Ⅱ)算法,实现数字PID控制器。DA-Ⅰ算法用的加法器、LUT单元和延时模块等,较常规方法要节省许多硬件资源;DA-Ⅱ算法,能进一步减少各单元模块的使用,并应用两级流水线技术,降低能耗。通过对DA-Ⅰ和DA-Ⅱ两种算法实现的PID控制器的比较,在硬件资源、处理速度、复杂程度和能耗等方面,探讨了改进后的PID控制器的性能。  相似文献   

14.
为实现卷积神经网络数据的高度并行传输与计算,生成高效的硬件加速器设计方案,提出了一种基于数据对齐并行处理、多卷积核并行计算的硬件架构设计和探索方法. 该方法首先根据输入图像尺寸对数据进行对齐预处理,实现数据层面的高度并行传输与计算,以提高加速器的数据传输和计算速度,并适应多种尺寸的输入图像;采用多卷积核并行计算方法,使不同的卷积核可同时对输入图片进行卷积,以实现卷积核层面的并行计算;基于该方法建立硬件资源与性能的数学模型,通过数值求解,获得性能与资源协同优化的高效卷积神经网络硬件架构方案. 实验结果表明: 所提出的方法,在Xilinx Zynq XC7Z045上实现的基于16位定点数的SSD网络(single shot multibox detector network)模型在175 MHz的时钟频率下,吞吐量可以达到44.59帧/s,整板功耗为9.72 W,能效为31.54 GOP/(s·W);与实现同一网络的中央处理器(CPU)和图形处理器(GPU)相比,功耗分别降低85.1%与93.9%;与现有的其他卷积神经网络硬件加速器设计相比,能效提升20%~60%,更适用于低功耗嵌入式应用场合.  相似文献   

15.
由于现有二维离散小波变换硬件结构通常存在输入图像存储空间较大和硬件资源消耗较高的问题,制约了系统的硬件效率提升.为此,调整了输入数据的时序,设计了一种基于提升算法的新型二维离散小波变换架构.采用了横向并行、数据错位的三输入扫描方法,降低了处理模块的硬件资源消耗,同时消除了片外存储的需求.对于一幅长宽为N×N的输入图像,系统的总存储需求缩减为9N字节.经过硬件分析,对比其他现有结构,本架构的硬件效率提升了8%以上.  相似文献   

16.
针对水下三维声纳成像技术因计算负载过大而无法满足实时性需求的问题,提出一种频域分布式并行子阵波束形成算法. 基于大规模二维方形平面换能器阵列,将全面阵分解成两级分布式子阵.所有一级子阵采用并行计算架构,同时进行并行波束形成;一级子阵和二级子阵之间采用流水线分布式计算架构,在二级子阵中计算得出波束强度值.基于Matlab软件对该算法进行仿真测试,并与传统波束形成算法相对比.综合考虑主瓣宽度、旁瓣峰值、内存需求量和计算需求量4个参数,给出最合理的子阵分解方法.结果表明:该算法可以实现水下三维声纳成像,并且符合工程实践的实时性需求.  相似文献   

17.
为减少高级加密标准(AES)算法的硬件消耗,提出了一种AES加解密算法的轮内融合结构.在降域求逆元的基础上,该结构选择性地将轮函数内部的线性模块进行融合,减少了线性模块间的重复计算,从而有效地减少了密钥处理模块的计算量及硬件消耗,使得AES算法实现进一步优化.通过统计数据进行对比分析,验证了该结构的优化性,并分别选出了最优的加密、解密所使用的换域矩阵  相似文献   

18.
针对传统FHT算法在处理海量数据时不能很好的满足实时性需求,该文提出了一种基于CUDA高效的并行FHT算法。通过分析FHT算法的分治特性及CUDA的编程模型,采用了将数据映射到多线程并行运算的方法,实现了对FHT算法的加速和优化。实验结果表明,新的并行算法可以有效地提升FHT处理速度,且随着数据规模的增长,加速效果越明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号