期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨明樊晓桠黄小平《计算机测量与控制》2010,18(1)

Alti Vec技术是Motorola为了在其PowerPC架构的通用处理器上实现多媒体处理功能而采用的短向量技术,Longtium R微处理器是西北工业大学航空微电子中心自主研发的高性能32位PowerPC架构微处理器;提出了一种利用Tomasulo算法实现支持Alti Vec技术的短向量双发射调度机制,研究了该短向量的发射策略,重命名寄存器和保留站的设计等,并进行了仿真;结果显示,该双发射短向量单元的IPC平均可达1.2,提高了指令的并行执行效率。相似文献

2.

流处理器中支持非规格化浮点数的硬件实现

李勇方粮《计算机研究与发展》2007,44(Z1):195-198

IEEE754标准规定了浮点非规格化数的处理,但这种数据类型计算非常复杂以至于很多设计采用软件而不是硬件的方式来处理非规格化数.软件方法会增加数据处理时间,在流处理器中,为了提高数据处理效率没有设置中断/自陷机制,不能采用软件方法来处理非规格化数据,为此,提出一种硬件识别和处理非规格化数的方法,在融合乘加部件架构基础上只增加少量额外的硬件代价,就可以对浮点非规格化数进行处理,这种方法大大提高了非规格化数据的处理速度. 相似文献

3.

一种高性能四倍精度浮点乘加器的设计与实现

何军黄永勤朱英《计算机工程》2014,(2):294-299

高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全流水结构。采用双路加法器改进算法结构,优化头零预测和规格化移位逻辑,减小运算延迟和硬件开销。通过参数化设计验证方法,实现高效的正确性验证。逻辑综合结果表明,基于65 nm工艺,该QPFMA频率可达1.2 GHz,比现有的QPFMA设计运算延迟减少3拍,频率提高约11.63%。相似文献

4.

一种低延迟高吞吐率的浮点整型乘累加单元

沈俊沈海斌虞玉龙《计算机工程》2013,39(6)

针对目前浮点运算单元在处理向量点乘运算时存在数据相关性的问题,提出一种低延迟单周期的累加单元结构.该结构用于7级流水的可配置乘累加单元,可兼容双精度浮点、双单精度浮点以及32位有符号数,且能对后置模块进行操作数隔离与门控时钟的低功耗处理.在Viterx-4平台上实验结果表明,该结构具有高性能、低延迟、单周期完成数据吞吐等特点,与使用Xilinx浮点IP的设计面积相比,时间积减少30％以上. 相似文献

5.

分离通路浮点乘加器设计与实现

何军黄永勤朱英《计算机科学》2013,40(8):28-33

针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克服了传统融合乘加器的缺点。然后经专用工艺单元库逻辑综合评估,SPFMA可工作在1.2GHz以上,面积60779.44um²。最后在硬件仿真加速器平台上运行SPEC CPU2000浮点测试课题对其进行性能评估,结果表明所有浮点课题性能均有所提高,最大提高5.25％,平均提高1.61％,证明SPFMA可进一步提高浮点性能。相似文献

6.

一种低成本128位高精度浮点SIMD乘加单元的设计与实现

黄立波王志英沈立马胜《计算机工程与科学》2012,34(9):71-76

SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。相似文献

7.

基于FPGA的可配置浮点向量乘法单元设计实现

黄兆伟王连明《计算机应用研究》2020,37(9):2762-2765,2771

针对目前采用IEEE 754浮点标准设计的FPGA浮点运算器中吞吐率与资源利用率低等问题,提出一种运算精度与运算器数量可配置的并行浮点向量乘法运算单元。通过浮点运算器的指数、尾数位数可配置化设计,提高系统资源利用率,并将流水线技术与并行结构结合,提高数据吞吐率。以EP4CE115型FPGA为测试平台,当配置10组FP14运算器时,系统的逻辑资源占用约为4.2%,峰值吞吐率可达4.5 GFLOPS。结果表明,提出的浮点向量乘法单元有效提高了FPGA资源利用率与运算吞吐率,同时具有高度的可移植性与通用性,适用于FPGA向量乘法运算的加速。相似文献

8.

可重构浮点混合/连续乘-加器的设计与实现

《计算机工程》2014,(7)

浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多种浮点数据操作。该乘-加器采用8级流水线,可以实现单周期的浮点乘累加,大幅提高数据处理吞吐量,同时支持三操作数加和两操作数和的累加。在Modelsim SE6.6f中对该设计进行仿真验证,结果表明其能够在Xilinx Virtex-6 FPGA上实现,资源消耗2 631个LUT,频率可达250 MHz,结果证明该浮点混合/连续乘-加器具有较大的使用价值。相似文献

9.

一种64位浮点乘加器的设计与实现 总被引：2，自引：0，他引：2

靳战鹏白永强沈绪榜《计算机工程与应用》2006,42(18):95-98

乘加操作是许多科学与工程应用中的基本操作,特别是在图形加速器和DSP等应用领域,浮点乘加器有着广泛的应用。论文针对PowerPC603e微处理器系统,基于SMIC0.25μm1P5MCMOS工艺,采用正向全定制的电路及版图设计方法,设计实现了一个综合使用改进Booth算法、平衡的4-2压缩器构成的Wallace树形结构、先行进位加法器的支持IEEE-754标准的64bit浮点乘加器。相似文献

10.

基于SIMD部件的四倍精度浮点乘加器设计

何军黄永勤朱英《计算机科学》2013,40(12):15-18,51

如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71％,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96％。相似文献

11.

支持 AltiVec技术的多媒体协处理单元的研究 *

黄小平樊晓桠张盛兵《计算机应用研究》2008,25(10):3161-3164

通过对嵌入式处理器进行多媒体处理能力的扩展可增强其对多媒体数据的处理能力。以 32 bit龙腾嵌入式处理器为基础 ,研究 AltiVec技术以及超标量技术 ,设计了该处理器中支持 AltiVec技术的多媒体协处理单元。该单元采用五级流水线 ,将指令动态调度技术分配到不同的流水线中 ,在提高处理性能的同时保证了设计频率。通过多媒体基准程序测试 ,该单元的指令 IPC为 1. 2, SMIC0. 18μm工艺库下 ,频率为 350 MHz,该协处理单元提高了龙腾处理器的性能。相似文献

12.

支持AltiVec技术的可分裂式加法器研究与设计

下载免费PDF全文

黄小平樊晓桠张盛兵庄伟《计算机工程与应用》2009,45(12):63-65

AltiVec技术是PowerPC体系结构处理器采用的多媒体向量处理技术。研究和设计了支持该技术的128位可分裂式加法器。该加法器可分裂实现16个字节、8个半字、4个字的并行加法操作。从时序、面积以及验证的复杂度等方面对三种设计方法进行了分析比较。相似文献

13.

一种改进的浮点乘加器结构的延时分析

靳战鹏沈绪榜田芳芳《计算机应用研究》2006,23(6):85-87,120

针对一种改进的浮点乘加器结构,对关键路径的延时进行定量的估算,并将其与传统乘加器结构的延时进行比较。相似文献

14.

基于Microblaze处理器的浮点内积运算设计 总被引：1，自引：0，他引：1

施浩姚放吾《微计算机信息》2011,(5)

浮点内积运算在信号处理与图像处理中有着广泛的应用,本文利用软核处理器灵活性和可扩展性的特点,介绍了基于Microblaze处理器的浮点内积运算结构,设计采用IEEE-754双精度浮点数,通过对DSA电路改进设计出了适合于内积运算的累加电路结构。通过EDK设计平台,在SOPC系统中把内积运算单元通过FSL总线挂载到Microblaze软核处理器上,实现了硬件单元的调用。相似文献

15.

基于FPGA的浮点向量协处理器设计

下载免费PDF全文

韩正飞李劲松潘红兵李丽沙金何书专《计算机工程》2012,38(5):251-254

为满足现代数字信号处理中大量数据的运算需求,利用ARM946和Xilinx公司的现场可编程门阵列芯片逻辑资源和IP库,设计专门用于浮点复数向量运算的64位协处理器,对相关浮点运算进行优化,并在硬件仿真平台上进行测试。结果表明,该协处理器可使浮点复数向量运算性能得到大幅提高。相似文献

16.

Graphics processing on a graphics supercomputer

Borden B.S. 《Computer Graphics and Applications, IEEE》1989,9(4):56-62

相似文献

17.

The SUPRENUM vector floating-point unit

Hubert Kammer 《Parallel Computing》1988,7(3):315-323

The paper describes the implementation of a high-performance 64-bit vector floating-point unit. This implementation consists of a microcontroller, coprocessor interface (for the 68020), DMA controller, various specialised memories, and the Weitek floating-point processors. 相似文献