期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

秦华标曹钦平《电子与信息学报》2019,41(11):2599-2605

针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。相似文献

2.

基于FPGA的Winograd算法卷积神经网络加速器设计与实现

牛朝旭孙海江《液晶与显示》2023,(11):1521-1530

为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算，设计了一种基于现场可编程门阵列（FPGA）的Winograd算法卷积神经网络加速器。首先，将图像数据和权重数据量化为8位定点数，并设计了硬件卷积计算过程中的量化流程，提升了数据传输速度和计算速度。接着，设计了输入数据缓存复用模块，将多输入通道数据融合后传输，复用了行重叠数据。然后设计了Winograd流水线卷积模块，实现列数据的组合复用，从而最大化重用了片上数据，降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证，加速器的卷积层计算性能达到354.5 GOPS，片上DSP计算效率达到0.69，与相关研究相比，实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。相似文献

3.

面向心电检测的混合多模卷积神经网络加速器设计

刘冬生魏来邹雪城陆家昊成轩胡昂李德建赵旭蒋曲明《电子与信息学报》2023,45(1):33-41

随着医疗资源日益匮乏以及人口老龄化日趋严重,心血管疾病已对人类健康造成了极大的威胁。具有心电(ECG)检测的便携式设备能有效降低心血管疾病对患者的威胁,因此该文设计了一种面向心电检测的混合多模卷积神经网络加速器。该文首先介绍了一种用于心电信号分类的1维卷积神经网络(1D-CNN)模型,随后针对该模型设计了一种高效的卷积神经网络(CNN)加速器,该加速器采用了一种多并行展开策略和多数据流的运算模式完成了卷积循环的加速和优化,能在时间上和空间上高度复用数据,同时提高了硬件资源利用率,从而提升了硬件加速器的硬件效率。最后基于Xilinx ZC706硬件平台完成了原型验证,结果显示,所设计卷积神经网络加速器消耗的资源为2247 LUTs, 80 DSPs。在200 MHz的工作频率下,该设计的整体性能可达到28.1 GOPS,并且硬件效率达到了12.82 GOPS/kLUT。相似文献

4.

基于FPGA的YOLOv5s网络高效卷积加速器设计

刘谦王林林周文勃《电讯技术》2024,64(3):366-375

为提升在资源受限情况下的嵌入式平台上卷积神经网络(Convolutional Neural Network, CNN)目标识别的资源利用率和能效,提出了一种适用于YOLOv5s目标识别网络的现场可编程门阵列(Field Programmable Gate Array, FPGA)共享计算单元的并行卷积加速结构,该结构通过共享3×3卷积和1×1卷积的计算单元提高了加速器硬件资源利用率。此外,还利用卷积层BN(Batch Normalization)层融合、模型量化、循环分块以及双缓冲等策略,提高系统计算效率并减少硬件资源开销。实验结果表明,加速器在200 MHz的工作频率下,实现的卷积计算峰值性能可达97.7 GOPS(Giga Operations per Second),其YOLOv5s网络的平均计算性可达78.34 GOPS,与其他FPGA加速器方案相比在DSP效率、能耗比以及整体性能等方面具有一定的提升。相似文献

5.

基于ZYNQ的可重构卷积神经网络加速器

刘杰葛一凡田明马力强《电子学报》2021,49(4):729-735

针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资源,探索了一种卷积运算循环优化电路;为降低带宽访问量,设计了一种数据在内存中的特殊排列方式.以VGG16网络为例,利用ZYNQ对系统进行加速,在计算性能上达到62.00GPOS的有效算力,分别是GPU和CPU的2.58倍和6.88倍,其MAC利用率高达98.20％,逼近Roofline模型理论值.加速器的计算功耗为2.0W,能效比为31.00GOPS/W,是GPU的112.77倍和CPU的334.41倍. 相似文献

6.

基于快速滤波算法的卷积神经网络加速器设计

王巍周凯利王伊昌王广袁军《电子与信息学报》2019,41(11):2578-2584

为减少卷积神经网络(CNN)的计算量,该文将2维快速滤波算法引入到卷积神经网络,并提出一种在FPGA上实现CNN逐层加速的硬件架构。首先,采用循环变换方法设计行缓存循环控制单元,用于有效地管理不同卷积窗口以及不同层之间的输入特征图数据,并通过标志信号启动卷积计算加速单元来实现逐层加速;其次,设计了基于4并行快速滤波算法的卷积计算加速单元,该单元采用若干小滤波器组成的复杂度较低的并行滤波结构来实现。利用手写数字集MNIST对所设计的CNN加速器电路进行测试,结果表明:在xilinx kintex7平台上,输入时钟为100 MHz时,电路的计算性能达到了20.49 GOPS,识别率为98.68%。可见通过减少CNN的计算量,能够提高电路的计算性能。相似文献

7.

最佳精度定点运算的FPGA实现 总被引：1，自引：0，他引：1

邵正芬《通信技术》2009,42(7):279-281

目前,多数通用的FPGA芯片仅支持整数和标准逻辑矢量的运算。而整数运算的数值表示的范围小、精度低,一般不能满足数字滤波器及数字控制器的计算精度要求,因此使得FPGA实现的高速数值计算、数值分析和信号处理等方面的应用受到了限制。为改善FPGA在数字信号处理方面的适应性问题,文中研究了如何用硬件描述语言来实现最佳精度定点数的数值运算算法,其中重点阐述了定点数的表示、定标、保持最佳精度的定点数运算法则以及如何用VHDL语言实现宽位最佳精度的定点加法器和乘法器,并扩展到定点减法器和除法器。相似文献

8.

面向微控制器的卷积神经网络加速器设计

下载免费PDF全文

乔建华吴言栗亚宁雷光政《电子器件》2024,47(1):48-54

针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专用SRAM存储器。加速器将池化和激活单元融入数据通路,有效减少数据重复存取带来的时间开销。FPGA原型验证表明加速器的性能达到92.2 GOPS@100 MHz;基于TSMC 130 nm工艺节点进行逻辑综合,加速器的动态功耗为33 mW,面积为90 764.2μm²,能效比高达2 793 GOPS/W,比FPGA加速器方案提高了约100倍。该加速器低功耗、低成本的特性,有利于实现嵌入式系统在目标检测、人脸识别等机器视觉领域的广泛应用。相似文献

9.

基于异构计算平台的卷积神经网络加速器的设计

下载免费PDF全文

王帅杨帆周贤中《电子器件》2023,46(6):1621-1628

卷积神经网络在运算过程中存在计算量过大、存储资源消耗高等问题，使其难以在嵌入式设备上进行部署。针对此问题，本文提出一种在多核异构平台ZYNQ7020上对目标检测网络YOLO-FASTEST前向推理的方案。首先本文设计了一种输出特征复用的运算模式，提高了片上多层流水的运算效率。然后本文采用双缓存乒乓传输的方式，使得数据传输时间掩盖计算时间。为了降低硬件资源开销，本文将网络模型的精度由浮点数量化为16位的定点数，将批量归一化层与卷积层进一步融合。最后本文对加速器的资源消耗与各模块的设计参数进行建模分析。实验结果表明，该方案在ZYNQ7020平台上获得了13.5GFLOPS的计算性能，功耗仅为2.56W。同时能耗比是ARM-A9 CPU的48倍、GTX1050ti GPU的20倍。相似文献

10.

基于嵌入式设备应用的CNN加速器的设计研究

下载免费PDF全文

王红亮程佳风《电子器件》2021,44(4):797-801

本文基于高层次综合工具设计了卷积加速电路,并根据加速电路的特性提出了卷积分解的优化方法,实现了一个适用于各种网络结构的高性能的卷积神经网络加速器。最后,本文选取Xilinx公司的PYNQ-Z2开发板对设计好的CNN加速器进行性能检测。测试结果表明,本文设计的CNN加速器在运行手写数字识别网络时的计算速度能够达到37.63FPS,相对于Pynq-Z2开发板上的嵌入式ARM处理器实现了42.1倍的加速效果。在计算精度上,硬件与软件的计算精度基本保持一致,都达到了98%以上的识别准确率。加速器运行手写数字识别网络时的平均功耗约为1.825W,功耗效率为20.62frames/J,完全满足低功耗设计要求。相似文献

11.

32位定/浮点乘法器设计

于敦山沈绪榜《半导体学报》2001,22(1)

针对Wallace树连接线复杂度高,版图实现比较困难的缺点,提出了一种新的加法器阵列结构.这种结构在规则性和连接复杂度方面优于ZM树和OS树.同时提出一种新的CLA加法器结构以提高乘法器的性能.乘法器采用1.5μm CMOS工艺实现,完成一次定点与浮点乘法操作的时间分别是56ns和76ns. 相似文献

12.

Xetal-II: A Low-Power Massively-Parallel Processor for Video Scene Analysis

Anteneh A. Abbo Richard P. Kleihorst Ben Schueler 《Journal of Signal Processing Systems》2011,62(1):17-27

A processor architecture combining high-performance and low-power is presented. A prototype chip, Xetal-II, has been realized in 90 nm CMOS technology based on the proposed architecture. Recent experimental results show a compute performance of up to 140 GOPS at 785 mW when operating at 110 MHz. The main architectural feature that allows high computational efficiency is the massively-parallel single-instruction multiple-data (MP-SIMD) compute paradigm. Due to the high data-level parallelism, applications like video scene analysis can efficiently exploit the proposed architecture. The chip has an internal 16-bit datapath and 10 Mbit of on-chip video memory facilitating energy efficient implementation of video processing kernels. 相似文献

13.

Xetal-II: A 107 GOPS, 600 mW Massively Parallel Processor for Video Scene Analysis

Abbo A.A. Kleihorst R.P. Choudhary V. Sevat L. Wielage P. Mouy S. Vermeulen B. Heijligers M. 《Solid-State Circuits, IEEE Journal of》2008,43(1):192-201

Xetal-II is a single-instruction multiple-data (SIMD) processor with 320 processing elements. It delivers a peak performance of 107 GOPS on 16-bit data while dissipating 600 mW. A 10 Mbit on-chip memory is provided which can store up to four VGA frames, allowing efficient implementation of frame-iterative algorithms. A massively parallel interconnect provides an internal bandwidth of more than 1.3 Tbit/s to sustain the peak performance. The IC is realized in 90 nm CMOS and takes up 74 mm². 相似文献

14.

High Speed Error Tolerant Adder for Multimedia Applications

S. Geetha P. Amritvalli 《Journal of Electronic Testing》2017,33(5):675-688

In this paper, a 1-bit modified full adder (MFA) cell is proposed. This eliminates the carry propagation during the addition by allowing errors in the carry bit. Using the proposed MFA, a 16-bit high speed error tolerant adder (HSETA) circuit is designed with conventional carry select adder (CSLA) structure for higher order bits and MFA based structure for lower order bits. The performance of HSETA is compared with existing adders in terms of accuracy, gate count, delay and power dissipation. The gate count of the HSETA is reduced by 23% and speed is improved by 43% compared to a conventional 16-bit adder structure. Further, implementation on FPGA Spartan 6 shows that HSETA uses 53% fewer LUT and 63% fewer slices compared to the conventional adder. Image blending application is used to evaluate the performance of the HSETA. In addition, to perform extensive error analysis, an analytical model is developed for HSETA and tested for varying bit widths and input probabilities. The analytical model is validated through simulation. 相似文献

15.

Design of high parallel CNN accelerator based on FPGA for AIoT

林志坚高学伟陈小培祝志鹏杜小勇陈平平《中国邮电高校学报(英文版)》2022,29(5):1-9

相似文献

16.

A Stochastic-Based FPGA Controller for an Induction Motor Drive With Integrated Neural Network Algorithms 总被引：1，自引：0，他引：1

Da Zhang Hui Li 《Industrial Electronics, IEEE Transactions on》2008,55(2):551-561

This paper applies stochastic theory to the design and implementation of field-oriented control of an induction motor drive using a single field-programmable gate array (FPGA) device and integrated neural network (NN) algorithms. Normally, NNs are characterized as heavily parallel calculation algorithms that employ enormous computational resources and are less useful for economical digital hardware implementations. A stochastic NN structure is proposed in this paper for an FPGA implementation of a feedforward NN to estimate the feedback signals in an induction motor drive. The stochastic arithmetic simplifies the computational elements of the NN and significantly reduces the number of logic gates required for the proposed NN estimator. A new stochastic proportional-integral speed controller is also developed with antiwindup functionality. Compared with conventional digital controls for motor drives, the proposed stochastic-based algorithm enhances the arithmetic operations of the FPGA, saves digital resources, and permits the NN algorithms and classical control algorithms to be easily interfaced and implemented on a single low-complexity, inexpensive FPGA. The algorithm has been realized using a single FPGA XC3S400 from Xilinx, Inc. A hardware-in-the-loop (HIL) test platform using a Real Time Digital Simulator is built in the laboratory. The HIL experimental results are provided to verify the proposed FPGA controller. 相似文献