首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。  相似文献   

2.
注意力机制最近在深度神经网络中表现出优越的性能,但其计算包含复杂的数据流,内存开销和计算量大,需要定制加速器来优化推理计算。提出一种针对注意力机制计算的加速器结构。采用基于硬件控制的灵活分块方法,将模型中的巨大矩阵分成硬件亲和的计算块,使块矩阵的计算匹配加速器脉动阵列;提出基于双步softmax函数分解计算的层融合计算方法,有效减少了注意力模型计算对内存的访问。采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构。基于XILINX FPGA器件和HLS工具进行了性能评估。相同设置下,与CPU相比延迟加速了4.9倍,与GPU相比能效提升了1.24倍。  相似文献   

3.
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。  相似文献   

4.
余成宇    李志远    毛文宇  鲁华祥       《智能系统学报》2020,15(2):323-333
针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。  相似文献   

5.
吴健凤  郑博文  聂一  柴志雷 《计算机工程》2021,47(12):147-155,162
在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列(FPGA)加解密系统又存在开发周期长、维护升级困难等问题。针对3DES算法,提出一种基于OpenCL的FPGA加速器设计方案。设计具有48轮迭代的流水并行结构,在数据传输模块中采用数据存储调整、数据位宽改进策略提高内核实际带宽利用率,在算法加密模块中采用指令流优化策略形成流水线并行架构,同时采用内核矢量化、计算单元复制策略进一步提高内核性能。实验结果表明,该加速器在Intel Stratix 10 GX2800上可获得111.801 Gb/s的吞吐率,与Intel Core i7-9700 CPU相比性能提升372倍,能效提升644倍,与NvidiaGeForce GTX 1080Ti GPU相比性能提升20%,能效提升9倍。  相似文献   

6.
为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案。利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度。实验结果表明,在100MHz的工作频率下,加速器的峰值计算性能可以达到52.56GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升。  相似文献   

7.
郭磊  唐玉华  周杰  董亚卓 《计算机工程》2011,37(21):241-243,254
为提高LDLT分解协处理器的性能,基于FPGA平台,研究其并行结构。分析循环片间的数据依赖关系,提出LDLT分解细粒度并行算法,并在可扩展一维阵列处理器中加以实现,利用主机、算法加速器组成单精度浮点LDLT分解协处理器的并行结构。实验结果表明,与运行在2.50 GHz Pentium微处理器上的C代码相比,该协处理器可获得32.03倍~43.25倍的性能提升。  相似文献   

8.
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。  相似文献   

9.
近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起.大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类.深度学习作为一种实现机器学习的技术,正是解决这一问题的重要法宝,它在处理数据过程中发挥着重要作用并且改变了传统的机器学习方法,已被广泛应用于语音识别、图像识别和自然语言处理等研究领域.如何有效加速深度学习的计算能力一直是科研研究的重点.FPGA凭借其强大的并行计算能力和低功耗等优势成为GPU在加速深度学习领域的有力竞争者.从深度学习的几种典型模型出发,在FPGA加速技术现有特点的基础上从针对神经网络模型的加速器、针对具体问题的加速器、针对优化策略的加速器和针对硬件模板的加速器四方面概括总结了FPGA加速深度学习的研究现状,然后对比了不同加速技术和模型的性能,最后对未来可能发展的方向进行了展望.  相似文献   

10.
生物信息学双序列比对算法加速器设计与实现   总被引:2,自引:0,他引:2       下载免费PDF全文
双序列比对算法是进行生物信息学研究的基础算法。在FPGA上实现大规模脉动式阵列对双序列比对算法进行加速能够大幅度提高比对的效率。然而现有的设计方法在比对序列长度较短的情况下,处理单元利用率很低;在序列的长度较大时,需要占用大量的片内存储资源。通过将两条序列同时送入阵列进行比对减少比对时间。将比对数据送入外部存储器,优化比对过程中的数据存储调度,有效降低了对片内存储器的需求。以Smith-Waterman算法为例进行了实现验证,结果表明本设计在性能上优于传统设计。与Pentium42.60GHz通用微处理器计算机相比,使用加速器对长度为65536的序列进行比对可获得1555倍的加速比。  相似文献   

11.
With fierce competition between CPU and graphics processing unit (GPU) platforms, performance evaluation has become the focus of various sectors. In this paper, we take a well‐known algorithm in the field of biosequence matching and database searching, the Smith–Waterman (S‐W) algorithm as an example, and demonstrate approaches that fully exploit its performance potentials on CPU, GPU, and field‐programmable gate array (FPGA) computing platforms. For CPU platforms, we perform two optimizations, single instruction, multiple data and multithread, with compiler options, to gain over 70 × speedups over naive CPU versions on quad‐core CPU platforms. For GPU platforms, we propose the combination of coalesced global memory accesses, shared memory tiles, and loop unfolding, achieving 50 × speedups over initial GPU versions on an NVIDIA GeForce GTX 470 card. Experimental results show that the GPU GTX 470 gains 12 × speedups, instead of 100 × reported by some studies, over Intel quadcore CPU Q9400, under the same manufacturing technology and both with fully optimized schemes. In addition, for FPGA platforms, we customize a linear systolic array for the S‐W algorithm in a 45‐nm FPGA chip from Xilinx (XC6VLX760), with up to 1024 processing elements. Under only 133 MHz clock rate, the FPGA platform reaches the highest performance and becomes the most power‐efficient platform, using only 25 W compared with 190 W of the GPU GTX 470. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

12.
本文设计实现了一种基于FPGA的并行传感器数据实时采集系统,可以高性能、低成本的实现多达64路串行总线并行工作的数据实时采集、监控。基于ARM和FPGA的设计框架,尤其是FPGA的模块化设计大大提升了系统的灵活度和实时性。同时软件接口设计上的创新,进一步提升了系统的处理性能。  相似文献   

13.
介绍了一种基于FPGA的高性能视频信号采集与显示系统的硬件设计与实现,模数转换系统采用高性能的A/D采集电路,通过高速的FPGA控制,将采集到的数据进行处理后,通过系统中的PCI接口传输给监控系统以供显示、监控等功能的实现。本模块已经投入运行,性能稳定。  相似文献   

14.
一种FPGA配置文件压缩算法   总被引:1,自引:0,他引:1  
邢虹  童家榕  王伶俐 《计算机工程》2008,34(11):260-262
基于现场可编程门阵列(FPGA)的可重构系统具有高性能和高灵活性,但随着FPGA规模的不断扩大,配置文件规模相应增加,导致可重构计算时间过长。该文提出一种FPGA配置文件压缩算法VLZW,降低了对片外存储器的容量要求,通过减少每次重构传送的配置数据缩短了系统重构时间。  相似文献   

15.
首先简要介绍了异步串口板的通常设计方法,并且提出了这些方法的不足之处,重点阐述了基于FPGA状态机和片上总线的新设计方案,以及该方案的技术优势,随后公布了基于该方案的异步串口板达到的性能指标;通过比较有关应答延迟的试验数据,提出了基于FPGA状态机和基于DSP处理器的异步串口板卡存在明显的处理速度差异问题,并基于两种设计方案,解释了形成差异的原因;最后提出了FPGA状态机对外部总线存储器或端口的访问管理性能大幅超越了任何一款DSP处理器的观点,并对同行提出了类似研发项目的设计建议。  相似文献   

16.
基于FPGA的微小型导航计算机数据采集系统设计   总被引:3,自引:0,他引:3  
提出了以高性能DSP为核心,由FPGA构成主要外部输入输出接口的导航计算机方案,并重点对由FPGA构成的ADC采样控制器进行了设计。处理器DSP只需通过EMIF接口访问FPGA中的FIFO即可进行数据接收。FPGA设计采用VHDL语言描述,并利用Quartus24.0对设计方案进行了仿真,仿真结果表明该设计是有效的。同时,本文也简述了DSP和FPGA接口的软硬件设计。  相似文献   

17.
罗奎  严义 《计算机应用》2014,34(9):2738-2741
针对基于现场可编程门阵列(FPGA)的新型可编程逻辑控制器(FPGA based PLC)的在线监控问题,提出了泛化的基于FPGA技术对嵌入式片上系统(SoC)进行在线监控的方法。该方法设计了一个FPGA片上通信系统,系统内部固化基于UART的ModBus通信协议栈,通过串口与计算机上位机进行通信;采用双口RAM(DRAM)作为与监控对象间共享的数据缓存区,通过中断机制实现缓存数据的同步交换。性能分析结果表明,该方法将SoC处理监控通信的时间百分比降低至0.002%,确保了监控数据传送的实时性,且使SoC能够获得更佳控制性能。在Altera的cycloneⅡ系列芯片开发板上验证了方案的可行性。  相似文献   

18.
In wireless communication, Viterbi decoding algorithm (VDA) is the one of most popular channel decoding algorithms, which is widely used in WLAN, WiMAX, or 3G communications. However, the throughput of Viterbi decoder is constrained by the convolutional characteristic. Recently, the three‐point VDA (TVDA) was proposed to solve this problem. In TVDA, the whole procedure can be divided into three phases, the forward, trace‐back, and decoding phases. In this paper, we analyze the parallelism of TVDA and propose parallel TVDA on the multi‐core CPU, graphics processing unit (GPU), and field programmable gate array (FPGA). We demonstrate approaches that fully exploit its performance potential on CPU, GPU, and FPGA computing platforms. For CPU platforms, we perform two optimization methods, single instruction multiple data and multithreading to gain over 145 × speedup over the naive CPU version on a quad‐core CPU platform. For GPU platforms, we propose the combination of cached memory optimization, coalesced global memory accesses, codeword packing scheme, and asynchronous data transition, achieving the throughput of 404.65 Mbps and 12 × speedup over initial GPU versions on an NVIDIA GeForce GTX580 card and 7 × speedup over Intel quad‐core CPU i5‐2300, under the same manufacturing year and both with fully optimized schemes. In addition, for FPGA platforms, we customize a radix‐4 pipelined architecture for the TVDA in a 45‐nm FPGA chip from Xilinx (XC6VLX760). Under 209.15‐MHz clock rate, it achieves a throughput of 418.30 Mbps. Finally, we also discuss the performance evaluation and efficiency comparison of different flexible architectures for real‐time Viterbi decoding in terms of the decoding throughput, power consumption, optimization schemes, programming costs, and price costs.Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

19.
介绍了一种基于数字信号处理器(DSP)和现场可编程门阵列(FPGA)的导航计算机设计,其中DSP专注于导航解算,FP-GA负责微惯性测量单元(IMU)和全球定位系统(GPS)等数据的采集,缓存以及与其它模块的通信。利用FPGA的可重复编程配置和高速并行处理能力,扩展了多路串行通信接口,并在其内部采用异步FIFO存储结构解决了采样信号和DSP之间的跨时钟域传输的问题。系统试验结果说明该导航计算机具有集成度高,功耗低,工作性能可靠的特点。  相似文献   

20.
高速实时信号采集系统是由高性能ADC、FPGA和QDRⅡSRAM等组成。其中高性能ADC实现模数转换,FPGA与QDRⅡSRAM实现ADC信号的接收、数据重组、存储和传输。重点讲述了FPGA如何接收采样率为2 GS/s的高速ADC数据并保持一定的时序裕量,并通过分析FPGA中资源占用情况可以看到FPGA在高速实时信号采集系统中具有很大的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号