首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对现有的采用Booth算法与华莱士(Wallace)树结构设计的浮点乘法器运算速度慢、布局布线复杂等问题,设计了基于FPGA的流水线精度浮点数乘法器。该乘法器采用规则的Vedic算法结构,解决了布局布线复杂的问题;使用超前进位加法器(Carry Look-ahead Adder,CLA)将部分积并行相加,以减少路径延迟;并通过优化的4级流水线结构处理,在Xilinx~ISE 14.7软件开发平台上通过了编译、综合及仿真验证。结果证明,在相同的硬件条件下,本文所设计的浮点乘法器与基4-Booth算法浮点乘法器消耗时钟数的比值约为两者消耗硬件资源比值的1.56倍。  相似文献   

2.
基于跳跃式Wallace树的低功耗32位乘法器   总被引:3,自引:1,他引:2       下载免费PDF全文
李伟  戴紫彬  陈韬 《计算机工程》2008,34(17):229-231
为了提高乘法器的综合性能,从3个方面对乘法器进行了优化设计。采用改进的Booth算法生成各个部分积,利用跳跃式Wallace树结构进行部分积压缩,通过改进的LING加法器对压缩结果进行求和。在FPGA上进行验证与测试,并在0.18 μm SMIC工艺下进行逻辑综合及布局布线。结果表明,与采用传统Wallace树结构的乘法器相比,该乘法器的延时减少了29%,面积减少了17%,功耗降低了38%,能够满足高性能的处理要求。  相似文献   

3.
设计并实现17×17 bit带符号数字乘法器。为了提高乘法器的性能,采用改进的Booth编码算法、Wal-lace树型结构以及基于标准单元库扩展的设计方法。该方法使用逻辑功效模型分析乘法器的关键路径,通过构造驱动能力更为完备的单元以实现关键路径中每一级门功效相等,从而得到最短路径延时。将TSMC 90 nm标准单元库扩展得到扩展单元库,使用两个单元库版图分别实现数字乘法器,基于扩展单元库实现的乘法器速度提升10.87%。实验结果表明,基于标准单元库扩展的半定制设计方法可以有效提升电路的性能,这种方法尤其适用于电路负载过大的情况。  相似文献   

4.
一种并行乘法器的设计与实现   总被引:1,自引:0,他引:1  
根据补码的特点对Booth2算法进行了改进,在得到部分积的基础上,采用平衡的42压缩器构成的Wallace树对部分积求和,再用专门的加法器对Wallace产生的结果进行求和得到最终结果。用Verilog硬件语言进行功能描述,并用Design_analyzer对其进行综合,得出用这种改进Booth2算法实现的乘法器比传统的CSA阵列乘法器速度快、规模较大的结论。  相似文献   

5.
数字乘法器是目前数字信号处理中运用最广泛的执行部件之一,本文设计了三种基于FPGA的数字乘法器.分别是移位相加乘法器、加法器树乘法器和移位相加-加法器树混合乘法器。通过对三种方案的仿真综合以及速度和面积的比较指出了混合乘法器是其中最佳的设计方案。  相似文献   

6.
数字乘法器是目前数字信号处理中运用最广泛的执行部件之一,本文设计了三种基于FPGA的数字乘法器,分别是移位相加乘法器、加法器树乘法器和移位相加—加法器树混合乘法器。通过对三种方案的仿真综合以及速度和面积的比较指出了混合乘法器是其中最佳的设计方案。  相似文献   

7.
32位无符号并行乘法器的设计与实现   总被引:1,自引:0,他引:1  
在基4的Booth算法得到部分积的基础上,采用了优化后的4:2压缩器的Wallace树对部分积求和,最后用CPA得到最终的和。优化下的并行乘法器比传统的CSA阵列乘法器速度快,且延时小。用Verilog进行了功能描述,并用ISE9.2对其进行了综合。  相似文献   

8.
针对当前乘法器设计难于兼顾路径延时和版图面积的问题,设计一种新型的32位有符号数乘法器结构。其特点是:采用改进的Booth编码,生成排列规则的部分积阵列,所产生的电路相比于传统的方法减小了延时与面积;采用由改进的4-2压缩器和3-2压缩器相结合的新型Wallace树压缩结构,将17个部分积压缩为2个部分积只需经过10级异或门延时,有效地提高了乘法运算的速度。设计使用FPGA开发板进行测试,并采用基于SMIC 0.18μm的标准单元工艺进行综合,综合结果显示芯片面积为0.1127 mm~2,关键路径延时为3.4 ns。实验结果表明,改进后的乘法器既减少了关键路径延时,又缩小了版图面积。  相似文献   

9.
本文设计了适用于SOC(System On Chip)的快速乘法器内核。通过增加一位符号位,可以支持24×24无符号和有符号乘法。在乘法器的设计中,采用了改进的Booth算法来减少部分积的数目,用压缩的Wallace Tree结构将产生的部分积相加以减少关键路径的延时。该电路通过Hspice仿真最大延迟达到9.32ns,从而获得较高的速度和性能。  相似文献   

10.
王田  陈键  付字卓 《计算机工程》2004,30(21):41-43,63
全新的基于全定制传输门结构42压缩高性能乘法生成器能根据用户输入自动产生并行乘法器的Verilog代码,并对Wallace Tree的连线进行了优化。最后在末级加法器阶段,生成器能根据到达的时延不同自动选择不同加法器最优的分段。在设计某些乘法器时生成器产生的代码综合结果在面积增加10%~20%左右时比Synopsys Design Ware库里相应的乘法器快5%-9%左右。  相似文献   

11.
黄兆伟  王连明 《计算机应用研究》2020,37(9):2762-2765,2771
针对目前采用IEEE 754浮点标准设计的FPGA浮点运算器中吞吐率与资源利用率低等问题,提出一种运算精度与运算器数量可配置的并行浮点向量乘法运算单元。通过浮点运算器的指数、尾数位数可配置化设计,提高系统资源利用率,并将流水线技术与并行结构结合,提高数据吞吐率。以EP4CE115型FPGA为测试平台,当配置10组FP14运算器时,系统的逻辑资源占用约为4.2%,峰值吞吐率可达4.5 GFLOPS。结果表明,提出的浮点向量乘法单元有效提高了FPGA资源利用率与运算吞吐率,同时具有高度的可移植性与通用性,适用于FPGA向量乘法运算的加速。  相似文献   

12.
截短Reed-Solomon码译码器的FPGA实现   总被引:1,自引:1,他引:0  
提出了一种改进的BM算法,并在此基础上提出了一种大量采用并行结构的截短RS码译码器的实现方式。验证表明,该算法能显著提高基于FPGA的RS译码器的速度并简化其电路结构。  相似文献   

13.
浮点LMS算法的FPGA实现是自适应天线阵工程设计中的关键技术。本文提出了一种在FPGA内实现浮点LMS算法的方法,该方法采用三级流水线操作的方式,兼顾算法的精度和动态范围。仿真结果表明,该方法能有效利用FPGA的逻辑资源,保证运算速度,满足系统的实时性。  相似文献   

14.
阐述了一种FPGA实验系统的设计思想并较为详细地介绍了PCI接口的开发。实验系统以FPGA为核心,可通过PCI、USB、串行以及网络接口和计算机交换数据。可作为逻辑分析仪、密码协处理器使用,也可用于信息安全、IC设计、嵌入式操作系统等有关的研究、开发和实验。  相似文献   

15.
《微型机与应用》2017,(24):98-101
针对数字信号处理系统前端数据采集与后端信号处理之间的数据流传输效率问题,介绍了基于RapidIO协议和Aurora协议在FPGA上实现高速数据交换的设计方案。该交换模块采用Aurora协议与光纤传输结合实现高速数据采集的点到点通信,并利用RapidIO协议的高效率解决数据高速交换问题。验证结果表明该方法在数据传输效率上达到了预先设计指标,其对提高数字信号处理系统处理带宽、改进系统性能具有较大的意义。  相似文献   

16.
In this paper, the author propose high- performance complex multipliers suited for Field-Programmable-Gate-Array (FPGA). The proposed complex multipliers are designed by effectively utilizing LUT (Look-Up-Table) and carry-chain which are basic components in FPGA. To design the circuits, the author utilize Radix-4 Booth algorithm for partial product generation and Wallace tree utilizing effectively LUTs and carry-chains for the partial product compression. The author estimated path delay and scale of the proposed complex multipliers by utilizing synthesis tool, and showed shorter path delay and smaller scale than circuits synthesized by VHDL operator ('*', '+', and '-').  相似文献   

17.
《电子技术应用》2017,(5):38-40
为降低新一代高效视频编码(HEVC)标准中解码端多尺寸逆离散余弦变换(Inverse Discrete Cosine Transform,IDCT)中的资源消耗,设计了一种IDCT硬件电路结构。通过使用现场可编程门阵列(Field-Programmable Gate Array,FPGA)内部嵌入式RAM单元进行矩阵转置运算,从而减少了对内部寄存器的使用。对IDCT系数矩阵进行分解得到不同尺寸下的统一运算电路结构,利用流水线技术实现对运算单元的加速,同时采用并行数据调度减少数据处理等待时间。设计结果表明,设计吞吐量为3.6点/时钟周期,满足了4k×2k@30 f/s视频信号的实时处理需求。  相似文献   

18.
K-means clustering is a very popular clustering technique, which is used in numerous applications. In the k-means clustering algorithm, each point in the dataset is assigned to the nearest cluster by calculating the distances from each point to the cluster centers. The computation of these distances is a very time-consuming task, particularly for large dataset and large number of clusters. In order to achieve high performance, we need to reduce the number of the distance calculations for each point efficiently. In this paper, we describe an FPGA implementation of k-means clustering for color images based on the filtering algorithm. In our implementation, when calculating the distances for each point, clusters which are apparently not closer to the point than other clusters are filtered out using kd-trees which are dynamically generated on the FPGA in each iteration of k-means clustering. The performance of our system for 512 × 512 and 640 × 480  pixel images (24-bit full color RGB) is more than 30 fps, and 20–30 fps for 756 × 512 pixel images in average when dividing to 256 clusters.
Tsutomu Maruyama (Corresponding author)Email:
  相似文献   

19.
Canny算法的改进及FPGA实现   总被引:1,自引:0,他引:1  
通过对传统Canny边缘检测算法的分析提出了相应的改进方法。通过模板代替卷积、适当的近似变换、充分利用并行处理单元等使其能够用FPGA实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号