首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。  相似文献   

2.
狄新凯  杨海钢 《计算机工程》2021,47(7):189-195,204
为消除卷积神经网络前向计算过程中因模型参数的稀疏性而出现的无效运算,基于现场可编程门阵列(FPGA)设计针对稀疏化神经网络模型的数据流及并行加速器.通过专用逻辑模块在输入通道方向上筛选出特征图矩阵和卷积滤波器矩阵中的非零点,将有效数据传递给由数字信号处理器组成的阵列做乘累加操作.在此基础上,对所有相关的中间结果经加法树...  相似文献   

3.
深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中。混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案。快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度。提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计。该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能。首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率。然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作。最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估。实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器...  相似文献   

4.
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域.针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器.首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结...  相似文献   

5.
针对如何将忆阻器融入人工神经网络算法并进行硬件实现的问题,提出了一种在现场可编程逻辑门阵列(FPGA)平台上实现的基于忆阻特性的监督神经网络算法。该设计以忆阻器模块作为神经网络中的权值存储模块,构建误差反馈机制的监督学习。将该忆阻神经网络电路应用于图像分类问题,并进行了资源占用和处理速度的优化。实验结果表明其分类结果良好,在Cyclone Ⅱ:EP2C70F896I8平台上,整体网络算法占用11 773个逻辑单元(LEs),训练耗时0. 33 ms,图像的测试耗时10μs。这一工作对忆阻器和神经网络的结合提出了一个有益的参考。  相似文献   

6.
卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。  相似文献   

7.
随着人工智能的快速发展,卷积神经网络(CNN)在很多领域发挥着越来越重要的作用。分析研究了现有卷积神经网络模型,设计了一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在卷积运算中四个维度方向实现了并行化计算;提出了参数化架构设计,在三种参数条件下,单个时钟周期分别能够完成512、1024、2048次乘累加;设计了片内双缓存结构,减少片外存储访问的同时实现了有效的数据复用;使用流水线实现了完整的神经网络单层运算过程,提升了运算效率。与CPU、GPU以及相关FPGA加速方案进行了对比实验,实验结果表明,所提出的设计的计算速度达到了560.2 GOP/s,为i7-6850K CPU的8.9倍。同时,其计算的性能功耗比达到了NVDIA GTX 1080Ti GPU的3.0倍,与相关研究相比,所设计的加速器在主流CNN网络的计算上实现了较高的性能功耗比,同时不乏通用性。  相似文献   

8.
忆阻器是一种动态特性的电阻,其阻值可以根据外场的变化而变化,并且在外场撤掉后能够保持原来的阻值,具有类似于生物神经突触连接强度的特性,可以用来存储突触权值。在此基础上,为了实现基于Temporal rule对IRIS数据集识别学习的功能,建立了以桥式忆阻器为突触的神经网络SPICE仿真电路。采用单个脉冲的编码方式,脉冲的时刻代表着数据信息,该神经网络电路由48个脉冲输入端口、144个突触、3个输出端口组成。基于Temporal rule学习规则对突触的权值修改,通过仿真该神经网络电路对IRIS数据集的分类正确率最高能达到93.33%,表明了此神经系统结构设计在类脑脉冲神经网络中的可用性。  相似文献   

9.
基于神经网络的方法计算量通常十分庞大,限制方法在嵌入式场景领域的应用.为了解决这一问题,文中提出基于异构现场可编程门阵列的卷积网络加速器.采用滑动窗并行加速卷积计算过程,可同时处理不同输入、输出通道的卷积过程.同时结合网络量化过程进行8 bit定点加速器设计,降低计算资源的使用.实验表明,文中定点加速器运算速度较快,功耗较小,算法性能损失较小.  相似文献   

10.
针对高动态环境下的雷达连续智能抗干扰决策和高实时性需求问题,本文构建了一种适用于雷达智能抗干扰决策的深度Q网络(Deep Q network,DQN)模型,并在此基础上提出了一种基于现场可编程门阵列(Field programmable gate array,FPGA)的硬件决策加速架构。在该架构中,本文设计了一种雷达智能决策环境交互片上访问方式,通过片上环境量化存储和状态迭代计算简化了DQN智能体连续决策时的迭代过程,在实现智能体深度神经网络的并行计算与流水控制加速的同时,进一步提升了决策实时性。仿真和实验结果表明,在保证决策正确率的前提下,所设计的智能抗干扰决策加速器相比已有的基于CPU平台的决策系统,在单次决策中实现了约46倍的速度提升,在连续决策中实现了约84倍的速度提升。  相似文献   

11.
巩杰  赵烁  何虎  邓宁 《计算机工程》2022,48(3):170-174+196
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。  相似文献   

12.
数字交换网络在程控数字交换系统中占有重要的地位.其容量的大小、可靠性直接关系到整个系统的交换能力及系统的可靠性.目前在交换局中运行的程控交换设备,其数字交换网络大多采用专用芯片来实现,容量有限,扩展性差,成本较高.介绍一种采用FPGA技术实现的单芯片4K*4K容量的无阻塞交换网络设计,具有容量大、交换能力强、稳定可靠,成本低等优点,大大提升了交换网络的整体性能.  相似文献   

13.
数字识别所依靠的经典网络模型主要为BP神经网络和卷积神经网络。相比较,卷积神经网络的识别效果更好,更适合处理图像识别问题。目前,卷积神经网络多为软件实现,而硬件有着并行性与速度快的优点。因此,意图以硬件描述语言(Verilog)实现卷积神经网络,在保证在高识别率的情况下,充分挖掘硬件实现的优点。通过研究网络的工作原理及结构,构造完整电路模型,给出了现场可编程门阵列(Field-Programmable Gate Array,FPGA)的实现方案。卷积神经网络通过反向传播训练MNIST数据库中60?000幅数字样本图片,提取准确率最高的权重与偏置,再进行网络的前向传播,完成数字识别。完整过程借助ModelSim和Quartus II仿真工具实现。仿真结果表明,全部样本在100?MHz时钟下训练耗时50?ms,相较软件实现而言,速度明显提高,满足硬件设计的实时性,且准确率较高,可达95.4%。该研究为应用于嵌入式设备的图像识别提供了方法和策略,具有实际应用价值。  相似文献   

14.
高级加密标准(AES)的传统实现方法是对加/解密算法进行单独设计,占用了过多的硬件资源。该文在分析AES加/解密算法机理的基础上,介绍了算法各模块的设计方法,通过分析提取了加/解密算法之间存在的共性,给出算法的可重构设计实例。通过FPGA仿真验证,该方案与传统设计方案相比,减少了资源的消耗。  相似文献   

15.
黄瑞  金光浩  李磊  姜文超  宋庆增 《计算机工程》2021,47(9):185-190,196
针对以MobileNet为代表的轻量化卷积网络,基于现场可编程门阵列平台设计网络加速器。通过优化DW、PW轻量化模块并实现常用的卷积、ReLU等功能模块,满足神经网络加速器低功耗、低时延的要求,同时基于指令设计使加速器支持MobileNet及各类变种。利用上位机配置YoloV3 tiny(不含轻量模块)指令和YoloV3&MobileNet(含轻量模块)指令进行目标检测,实验结果表明,该网络加速器具有较快的推断速度,用于YoloV3 tiny结构时达到85 frame/s,用于YoloV3&MobileNet结构时达到62 frame/s。  相似文献   

16.
基于FPGA的小型机器人无线通信系统   总被引:1,自引:1,他引:0  
赵亮  冯林  吴振宇 《计算机工程》2010,36(13):251-253
针对单处理器系统控制的无线通信系统在小型足球机器人比赛中存在丢包现象和实时性差等弊端,提出一种FPGA并行控制无线模块的解决方案,实现全双工通信。包括数据的无线发射、接收以及分包处理等模块,采用有限状态机设计发射、接收部分时序,结果证明该方案实现灵活、稳定性高、实时性好。  相似文献   

17.
基于冗余容错思想,设计基于现场可编程门阵列的双CPU容错控制器。该容错控制器在故障情况下可通过回溯重载进行故障判定和系统性能恢复,控制器控制律在传感器失效时能进行自我重构。仿真结果表明,该容错控制器通过冗余CPU的切换和控制律的重构实现了系统故障情况下的容错纠错功能。  相似文献   

18.
一种FPGA配置文件压缩算法   总被引:1,自引:0,他引:1  
邢虹  童家榕  王伶俐 《计算机工程》2008,34(11):260-262
基于现场可编程门阵列(FPGA)的可重构系统具有高性能和高灵活性,但随着FPGA规模的不断扩大,配置文件规模相应增加,导致可重构计算时间过长。该文提出一种FPGA配置文件压缩算法VLZW,降低了对片外存储器的容量要求,通过减少每次重构传送的配置数据缩短了系统重构时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号