首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
比较了几种16×16位乘加器的实现方法,给出了一种嵌入于微处理器的基于流水线重构技术的16×16位乘加器的设计方案,该设计可完成16bit整数或序数的乘法或乘加运算,并提高了运算的速度,减少了面积.利用Cadence EDA工具对电路进行了仿真,仿真结果验证了设计的准确性.  相似文献   

2.
何军  黄永勤  朱英 《计算机科学》2013,40(12):15-18,51
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。  相似文献   

3.
浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多种浮点数据操作。该乘-加器采用8级流水线,可以实现单周期的浮点乘累加,大幅提高数据处理吞吐量,同时支持三操作数加和两操作数和的累加。在Modelsim SE6.6f中对该设计进行仿真验证,结果表明其能够在Xilinx Virtex-6 FPGA上实现,资源消耗2 631个LUT,频率可达250 MHz,结果证明该浮点混合/连续乘-加器具有较大的使用价值。  相似文献   

4.
针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克服了传统融合乘加器的缺点。然后经专用工艺单元库逻辑综合评估,SPFMA可工作在1.2GHz以上,面积60779.44um2。最后在硬件仿真加速器平台上运行SPEC CPU2000浮点测试课题对其进行性能评估,结果表明所有浮点课题性能均有所提高,最大提高5.25%,平均提高1.61%,证明SPFMA可进一步提高浮点性能。  相似文献   

5.
一种支持SIMD指令的流水化可拆分乘加器结构   总被引:1,自引:0,他引:1  
李东晓 《计算机工程》2006,32(7):264-266
乘加器是媒体数字信号处理器的关键运算部件。该文结合32位数字信号处理器芯片MD32开发(“863”计划)实践,提出了一种流水化可拆分的乘加器硬件实现结构,通过对乘法操作的流水处理实现了200MHz工作频率下的单周期吞吐量指标,通过构造可拆分的数据通道实现了对SIMD乘法指令的支持,支持4个通道16位媒体数据的并行乘法,大大提升了处理器的媒体处理性能。文中对所提出的乘加器体系结构,给出了理论依据和实验结果,通过MD32的流片实现得到了物理验证。  相似文献   

6.
在深入分析模加运算的实现基础上,提出了一种模加运算的实现方案,并论证了该方案的正确性。基于这种实现方案,设计并验证了一块实现16位模加运算的逻辑电路,仿真结果表明了电路的正确性和设计方案的可行性。  相似文献   

7.
模乘和模加减作为椭圆曲线公钥体制的核心运算,在ECC算法实现过程中使用频率极高。如何高效率、低成本地实现模乘模加减是当前的一个研究热点。针对FIOS类型Montgomery模乘算法和模加减算法展开研究,结合可重构设计技术,并对算法进行流水线切割,设计实现了一种能够同时支持GF(p)和GF(2n)两种有限域运算、长度可伸缩的模乘加器。最后对设计的模乘加器用Verilog HDL进行描述,采用综合工具在CMOS 0.18μm typical工艺库下综合。实验结果表明,该模乘加器的最大时钟频率为230 MHz,不仅在运算速度和电路面积上具有一定优势,而且可以灵活地实现运算长度伸缩。  相似文献   

8.
高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全流水结构。采用双路加法器改进算法结构,优化头零预测和规格化移位逻辑,减小运算延迟和硬件开销。通过参数化设计验证方法,实现高效的正确性验证。逻辑综合结果表明,基于65 nm工艺,该QPFMA频率可达1.2 GHz,比现有的QPFMA设计运算延迟减少3拍,频率提高约11.63%。  相似文献   

9.
运算精简的蒙哥马利算法模乘器设计   总被引:1,自引:0,他引:1  
针对Montgomery算法的可伸缩脉动阵列模乘协处理器的硬件实现中,速度和面积没有取得很好平衡的问题,结合Walter等学者对Montgomery算法的分析,利用EDA仿真分析工具,提出一种运算精简的蒙哥马利算法模乘器设计方法.该方法通过先分析已有Montgomery算法,得到运算精简蒙哥马利算法,然后将该算法映射到可伸缩脉动阵列结构,使模乘器在速度和面积上能够取得很好的平衡.最后进行仿真实验验证,结果证明该方法解决了模乘器速度和面积平衡的问题.通过该方法设计的模乘器,用TSMC 0.18μm标准单元库综合,核心运算单元最高时钟频率可达385MHz,等效单元1.2k等效门.与现有其他方法相比,该模乘器在平衡方面取得较好性能,可以拓展其在移动通信领域的应用.  相似文献   

10.
一种新型操作数长度可伸缩的模乘器VLSI设计   总被引:1,自引:0,他引:1       下载免费PDF全文
在改进基于字的Montgomery模乘算法的基础上,通过优化流水线结构缩短关键路径,实现了一种结构优化的模乘器。设计中采用了按字运算的高基Montgomery模乘算法,使该设计具有良好的可扩展性,可以完成任意位数的模乘运算。改进了模乘器的流水线结构,提高了模乘器的工作效率。该设计可以应用于各种高性能且低成本的RSA密码协处理器设计。  相似文献   

11.
杨焱  张凯 《微处理机》2007,28(3):21-23
在VLIW多媒体芯片的设计过程中,针对传统乘法器与加法器的不足,提出了一种新的分叉华莱氏树结构的乘法器模型,采用可重用的模块化设计思想,通过重用一位全加器阵列对乘法器进行扩展,处理器可以在一个乘法器单元内部同时支持多个32/16/8位的乘法运算,同时使乘法单元的速度和面积均得以优化。仿真测试表明,新的乘法器结构可有效减少FFT、滤波等信号处理以及多媒体处理中常用算法的执行周期,提高了实际运行速度,进一步增强了VLIW处理器在多媒体与信号处理运算上的能力。  相似文献   

12.
This paper proposes a cost-efficient quantum multiplier–accumulator unit. The paper also presents a fast multiplication algorithm and designs a novel quantum multiplier device based on the proposed algorithm with the optimum time complexity as multiplier is the major device of a multiplier–accumulator unit. We show that the proposed multiplication technique has time complexity \(O((3 {\hbox {log}}_{2}n)+1)\), whereas the best known existing technique has \(O(n{\hbox {log}}_{2} n)\), where n is the number of qubits. In addition, our design proposes three new quantum circuits: a circuit representing a quantum full-adder, a circuit known as quantum ANDing circuit, which performs the ANDing operation and a circuit presenting quantum accumulator. Moreover, the proposed quantum multiplier–accumulator unit is the first ever quantum multiplier–accumulator circuit in the literature till now, which has reduced garbage outputs and ancillary inputs to a great extent. The comparative study shows that the proposed quantum multiplier performs better than the existing multipliers in terms of depth, quantum gates, delays, area and power with the increasing number of qubits. Moreover, we design the proposed quantum multiplier–accumulator unit, which performs better than the existing ones in terms of hardware and delay complexities, e.g., the proposed (\(n\times n\))—qubit quantum multiplier–accumulator unit requires \(O(n^{2})\) hardware and \(O({\hbox {log}}_{2}n)\) delay complexities, whereas the best known existing quantum multiplier–accumulator unit requires \(O(n^{3})\) hardware and \(O((n-1)^{2} +1+n)\) delay complexities. In addition, the proposed design achieves an improvement of 13.04, 60.08 and 27.2% for \(4\times 4\), 7.87, 51.8 and 27.1% for \(8\times 8\), 4.24, 52.14 and 27% for \(16\times 16\), 2.19, 52.15 and 27.26% for \(32 \times 32\) and 0.78, 52.18 and 27.28% for \(128 \times 128\)-qubit multiplications over the best known existing approach in terms of number of quantum gates, ancillary inputs and garbage outputs, respectively. Moreover, on average, the proposed design gains an improvement of 5.62% in terms of area and power consumptions over the best known existing approach.  相似文献   

13.
为了提高伽罗华有限域乘法器的通用性,降低实现的复杂度,采用自然基算法,用简单的逻辑门电路实现乘法运算过程。提出可重构的迭代计算结构,能满足域长m为3~8的乘法器,并用FPGA实现。结果表明,可重构有限域乘法器能够满足多种标准RS码的乘法运算的需要。  相似文献   

14.
以多元逻辑电路(DYL)中的线性逻辑门为核心,构思体现这种基本逻辑结构特长的高速阵列式乘法器的结构原理以及该器件的测试方法,并获得了乘法时间小于10ns的乘法器,达到了我们预期的目标。该电路可以直接与TTL电路兼容使用。  相似文献   

15.
Digital signal processing algorithms often rely heavily on a large number of multiplications, which is both time and power consuming. However, there are many practical solutions to simplify multiplication, like truncated and logarithmic multipliers. These methods consume less time and power but introduce errors. Nevertheless, they can be used in situations where a shorter time delay is more important than accuracy. In digital signal processing, these conditions are often met, especially in video compression and tracking, where integer arithmetic gives satisfactory results. This paper presents a simple and efficient multiplier with the possibility to achieve an arbitrary accuracy through an iterative procedure, prior to achieving the exact result. The multiplier is based on the same form of number representation as Mitchell’s algorithm, but it uses different error correction circuits than those proposed by Mitchell. In such a way, the error correction can be done almost in parallel (actually this is achieved through pipelining) with the basic multiplication. The hardware solution involves adders and shifters, so it is not gate and power consuming. The error summary for operands ranging from 8 bits to 16 bits indicates a very low relative error percentage with two iterations only. For the hardware implementation assessment, the proposed multiplier is implemented on the Spartan 3 FPGA chip. For 16-bit operands, the time delay estimation indicates that a multiplier with two iterations can work with a clock cycle more than 150 MHz, and with the maximum relative error being less than 2%.  相似文献   

16.
首先介绍了EDA设计中的几种优化技巧,然后针对系统速度和资源利用率等不同指标,以乘法器设计为例,给出了多种不同的优化方案并具体实施,最后用逻辑分析仪对优化效果进行验证。  相似文献   

17.
将处理约束问题的乘子法与改进的粒子群算法相结合,提出了一种求解非线性约束问题的混合粒子群算法。此算法兼顾了粒子群优化算法和乘子法的优点,对迭代过程中出现的不可行粒子,利用乘子法处理后产生可行粒子,然后用改进的粒子群算法来搜索其最优解,这样不仅减小了粒子群算法在寻优过程中陷入局部极小的概率,而且提高了搜索精度。数值试验结果表明提出的新算法具有搜索精度更高、稳定性更强、鲁棒性更好等特点。  相似文献   

18.
复杂的VLSI电路的分析,对设计验证、故障诊断与测试都至关重要.对于一个用某种连结性语言描述的几千个门以上的电路,除了用CAD工具去处理之外,人们对它无法理解,没有直观的印象.电路图很难画,画出来也很难读懂.因此,与自顶向下的设计相反,研究自下而上的分析方法很有必要.本文介绍一种电路的结构分析方法.基于此方法,我们分析出国际通用的ISCAS十个电路实例中的C6288是一种保留进位阵列乘法器.因而对C6288的功能、结构都搞得一清二楚.  相似文献   

19.
Given a linear time-invariant plant, the search for a suitable multiplier over the class of Zames–Falb multipliers is a challenging problem which has been studied for several decades. Recently, a new linear matrix inequality search has been proposed over rational and causal Zames–Falb multipliers. This letter analyzes the conservatism of the restriction to causality on the multipliers and presents a complementary search for rational and anticausal multipliers. The addition of a Popov multiplier to the anticausal Zames–Falb multiplier is implemented by analogy with the causal search. As a result, a search over a noncausal subset of Zames–Falb multipliers is obtained. A comparison between all the search methods proposed in the literature is given.  相似文献   

20.
基于FPGA的32位并行乘法器的设计与实现   总被引:1,自引:0,他引:1  
蒋勇  罗玉平  马晏  叶新 《计算机工程》2005,31(23):222-224
首先分析比较了几种典型的乘法器实现结构,然后采用树型组合方式,对其结构进行了优化,最后在FPGA上设计并实现了一个高性能的32位并行乘法器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号