首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 781 毫秒
1.
Altera公司近日宣布推出硬核浮点DSP模块,可集成在其20nm Arria10及14nm Stratix10系列FPGA和SoC产品中。集成了硬核浮点DSP模块后,可极大地提高DSP性能、设计人员的效能和逻辑效率,特别适合大计算量的应用需求,例如高性能计算(HPC)、雷达、科学和医疗成像等。  相似文献   

2.
正2014年4月23号,Altera公司宣布在FPGA浮点DSP性能方面实现了变革。硬核浮点DSP模块集成在正在发售的Altera 20 nm Arria 10 FPGA和SoC中,也集成在14 nm Stratix 10 FPGA和SoC中。集成硬核浮点DSP模块结合先进的高级工具流程,客户可以用Altera的FPGA和SoC来满足大计算量  相似文献   

3.
提出了一种支持可变位宽高效加法的现场可编程逻辑门阵列(FPGA)嵌入式数字信号处理(DSP)单元知识产权(IP)硬核结构,相比于Altera公司的Stratix-III DSP结构,基于本文提出的优化结构可以更高效地实现加法、乘加以及累加等多种应用。利用软件对不同数据类型和位宽的输入实现数据预处理,减小了硬件资源的开销,并进一步提升了电路性能。同时在DSP结构中加入了乘法旁路器和二级符号位扩展的加法电路,在减小DSP实现面积的同时,支持超高位宽、高速的流水线型加法运算,扩展了DSP的应用范围。采用TSMC 55 nm标准CMOS工艺设计并完成了所提出的DSP IP核的电路实现,可实现包括72位可变位宽加法及36位可变位宽乘法等在内的9种运算模式。  相似文献   

4.
DSP结构可以分为定点型(FXP)和浮点型(FLP).虽然FXP型DSP只能实现整数运算,但是它运算速度快,占用资源少,比FLP型成本低.而FXP型DsP使用FLP算法能够实现更高的精度和动态运算范围.对FXP DSP结构支持下的FLP需求不断增长,这主要有以下原因:第一,实现算法代码通常用C/C (采用浮点数形式)编写,将FLP算法转换成FXP格式是比较麻烦的.而将浮点算法移植到DSP平台所花费的时间较少,因而FLP降低了研发成本.另外,常用的算法得益于浮点运算提供的较大的运算范围.最后,在某些情况下应用FXP算法无法获得期望的精度和动态范围.  相似文献   

5.
《今日电子》2014,(6):61-61
Altera宣布将在其高性能FPGA和SoC中集成硬核浮点DSP模块,包括其正在发售的Altera 20nm Arria 10 FPGA和SoC中,以及未来的14nm Stratix 10 FPGA和SoC中。集成硬核浮点DSP模块结合先进的高级工具流程,客户可以使用Altera的FPGA和SoC来满足越来越高的大计算量应用需求,  相似文献   

6.
产品推介     
《电子产品世界》2011,(10):64-66
嵌入式系统Altera基于模型的FPGA浮点DSP工具Altera公司演示了使用FPGA的浮点DSP新设计流程,支持在FPGA中实现复数浮点DSP算法,包括集成在DSP Builder高级模块库中的Altera浮点DSP编译器、QuartusII RTL工具链、  相似文献   

7.
针对高速实时处理的要求,提出了4096点快速傅立叶变换(FFT)模块在现场可编程门阵列(FPGA)中的设计和实现。在运算模块中,基于按频率抽取基-4算法提出了一种新型的基-16蝶型算法,并采用八级流水结构和四路转换器来实现。本文采用块浮点和循环存储结构,避免了溢出和节省了大量的硬件资源。实验结果表明,该方法在保证了运算精度和实现复杂度的同时,使运算速度相对于基-4算法提高了1倍。  相似文献   

8.
汪灏  洪一 《现代电子技术》2007,30(18):73-75
主要介绍基于Altera公司FPGA器件的高速实时FFT运算单元实现及频率域脉冲压缩处理的设计方法。在分析基8、按频率抽取FFT算法的基础上,采用多级同步流水线结构,利用现场可编程门阵列(FPGA)完成最大4 096点块浮点FFT。整个设计划分成多个功能模块,采用VHDL描述语言,并在Stratix器件上实现。结果表明,利用FPGA实现复杂的数字信号处理(DSP)算法是完全可行的。  相似文献   

9.
浮点加法运算是现代数字信号处理中非常频繁的操作算法。文中结合VerologHDL和FPGA可编程技术来完成流水线结构进而实现符合IEEE754标准的单精度浮点数加法器的设计方法。通过仿真验证,该设计运算精度可达104,而且设计结构合理,可用于中高速信号处理系统之中。  相似文献   

10.
李正杰  张英 《微电子学》2018,48(4):485-490
提出了一种千万门FPGA芯片中DSP硬核的设计。基于SMIC 65 nm CMOS工艺,以全定制技术设计实现了一个高性能的DSP硬核。DSP硬核主要包括输入输出逻辑、乘法器、XYZ选择器和模式控制单元、加法器等部分。为了提高DSP硬核的速度、面积和功耗等性能指标,采用了多种技术。通过2阶Booth编码设计,减小了50%的部分积数量;通过符号位扩展优化算法,大大减少了部分积符号扩展位,相应减少了逻辑资源和功耗;通过多种压缩器,减小了部分积加法路径上的延时,提高了乘法运算速度;通过超前进位加法器,提高了加法器运算速度。对DSP硬核进行仿真验证,并对千万门FPGA芯片进行测试。结果表明,该DSP硬核的功能和性能指标符合设计要求。  相似文献   

11.
The double-precision floating-point arithmetic, specifically multiplication, is a widely used arithmetic operation for many scientific and signal processing applications. In general, the double-precision floating-point multiplier requires a large 53×53 mantissa multiplication in order to get the final result. This mantissa multiplication exists as a limit on both area and performance bounds of this operation. This paper presents a novel way to reduce this large multiplication. The proposed approach in this paper allows to use less amount of multiplication hardware compared to the traditional method. The multiplication is done by using Karatsuba technique. This design is specifically targeting Field Programmable Gate Array (FPGA) platforms, and it has also been evaluated on ASIC flow. The proposed module gives excellent performance with efficient use of resources. The design is fully compatible with the IEEE standard precision. The proposed module has shown a better performance in comparison with the best reported multipliers in the literature.  相似文献   

12.
满涛  郭子豪  曲志坚 《电讯技术》2021,61(11):1438-1445
为提高目前硬件设备上运行卷积神经网络的速度和能效,针对主流的卷积神经网络提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的流水线并行加速方案,设计优化了数据存储模块、卷积计算模块、池化模块以及全连接模块,结合高层次综合技术构建了基于FP GA的卷积神经网络基本单元.为了降低加速系统的硬件开销,在保证卷积神经网络精度损失很小的前提下,采用数据量化的方式将网络参数从32位浮点数转化为16位定点数.系统测试使用MNIST数据集和CIFAR-10数据集,实验结果显示,所提出的卷积神经网络FPGA加速具有更快的识别效果,并且该方案在资源和功耗较少的情况下可以提供更好的性能,同时能够高效地利用FP GA上的硬件资源.  相似文献   

13.
Hou  Junjie  Zhu  Yongxin  Du  Sen  Song  Shijin 《Journal of Signal Processing Systems》2019,91(10):1137-1148

The high performance, power efficiency and reconfigurable characteristic of FPGA attract more and more attention in big data processing. In scientific data analytics, besides the consideration of computing performance, accuracy of the results and dynamic range of data representation are critical features that must be considered. At present, the floating-point IP cores in FPGA design use IEEE standard for floating-point arithmetic – IEEE 754. For FPGA based scientific data application, improving existing floating-point IP cores is a significant way to obtain better results. Posit is a floating-point arithmetic format first proposed by John L. Gustafson in 2017. In posit, the variable precision and efficient representation of exponent contribute a higher accuracy and larger dynamic range than IEEE 754. This work researches on the FPGA implementation of posit arithmetic for extending floating-point IP cores for FPGA based scientific data analytics. We design the logic for hardware implementation and implement it on FPGA. We compare the precision representation, dynamic range and performance of implemented posit FPU (Floating-Point Unit) with IEEE 754 floating-point IP cores. Posit exhibits better superiority in precision representation and dynamic range than IEEE 754, and through further optimization of the implementation, posit can be a good candidate for floating-point IP cores.

  相似文献   

14.
NIOS浮点运算定制指令的实现   总被引:1,自引:1,他引:0  
陈鹏  蔡雪梅 《现代电子技术》2011,34(10):166-168
为提高NIOS系统的浮点计算效率,使用Verilog语言实现了单精度浮点数加减及乘法运算的功能模块,并通过波形验证其功能,依据NIOSⅡ定制指令的制定规范,将这一功能添加到SOPCBuilder中,扩展出新的基于硬件电路的浮点运算指令,使之在NIOS软件环境中得到应用。通过NIOSⅡ本身软件浮点计算和新增硬件指令进行运算结果和时间上的对比,证实硬件指令计算的优越性,为NIOS下的浮点运算提供了更有效率的选择。  相似文献   

15.
DSP和FPGA组成的伺服控制系统能够满足复杂的控制算法要求。通过对TI公司的DSP控制芯片和ALTERA公司的FPGA芯片的功能和特点分析,结合CAN总线与上位机通信,设计了一种基于DSP、FPGA与CAN总线的跟踪控制器。给出了该控制器的功能和硬件结构,以及软件流程设计。重点介绍了该控制器的硬件资源选择,工作原理,基本功能模块构成及算法实现。该控制器能够满足高速跟踪的伺服系统在实时性、精确度和稳定性上的高要求,具有良好的功能扩展能力。  相似文献   

16.
为了实现大气湍流参数的实时估计,提出并设计了一种基于FPGA 和DSP 技术的自适应光学系统在线大气参数测量平台。该测量平台采用FPGA 作为前端处理器,在自适应光学系统闭环工作时,利用多通道并行技术和流水线技术从闭环数据高速复原开环泽尼克系数,采用DSP 作为后端处理器,根据复原的开环泽尼克系数,利用其编程灵活的特点实现大气相干长度r0、外尺度L0、风速v 和相干时间t0的复杂统计运算。最后将该测量平台应用在127 单元的自适应光学系统上,以实际天文恒星为观测目标,进行了大气湍流参数的测量。  相似文献   

17.
充分利用了FPGA的硬件资源,提出一种采用电路逻辑设计的FPGA来实现两点校正;利用FPGA中的浮点加法器、浮点除法器、浮点乘法器,以及内部RAM、ROM存储器,可以实时计算校正系数,然后对线阵红外探测器进行非均匀性校正,保证了校正精度。同时,充分利用FPGA并行处理能力强的特点,使系数、图像数据的读取在一个时钟周期内完成。  相似文献   

18.
With the density of field-programmable gate arrays (FPGAs) steadily increasing, FPGAs have reached the point where they are capable of implementing complex floating-point applications. However, their general-purpose nature has limited the use of FPGAs in scientific applications that require floating-point arithmetic due to the large amount of FPGA resources that floating-point operations still require. This paper considers three architectural modifications that make floating-point operations more efficient on FPGAs. The first modification embeds floating-point multiply-add units in an island-style FPGA. While offering a dramatic reduction in area and improvement in clock rate, these embedded units are a significant change and may not be justified by the market. The next two modifications target a major component of IEEE compliant floating-point computations: variable length shifters. The first alternative to lookup tables (LUTs) for implementing the variable length shifters is a coarse-grained approach: embedded variable length shifters in the FPGA fabric. These shifters offer a significant reduction in area with a modest increase in clock rate and are smaller and more general than embedded floating-point units. The next alternative is a fine-grained approach: adding a 4:1 multiplexer unit inside a configurable logic block (CLB), in parallel to each 4-LUT. While this offers the smallest overall area improvement, it does offer a significant improvement in clock rate with only a trivial increase in the size of the CLB.  相似文献   

19.
在基于格的后量子密码中,多项式乘法运算复杂且耗时,为提高格密码在实际应用中的运算效率,提出了一种后量子密码CRYSTALS-Kyber的FPGA多路并行优化实现。首先,描述了Kyber算法的流程,分析了NTT、INTT及CWM的执行情况。其次,给出了FPGA的整体结构,采用流水线技术设计了蝶形运算单元,并以Barrett模约简和CWM调度优化,提高了计算效率。同时,放置32个蝶形运算单元并行执行,缩短了整体计算周期。最后,对多RAM通道进行了存储优化,以数据的交替存取控制和RAM资源复用,提高了访存效率。此外,采用松耦合架构,以DMA通信实现了整体运算的调度。实验结果和分析表明,所提方案可在44、49、163个时钟周期内完成NTT、INTT及CWM运算,优于其他方案,具有较高的能效比。  相似文献   

20.
分析了传统模拟解调方法的缺陷,对数字乘积检波(DPD)算法加以改进,并应用FPGA DSP线性流水结构,提高了算法的计算效率和器件的利用率。最后,对硬件实现的核心部分作了详尽的阐述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号