期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《计算机科学与探索》2019,(10):1677-1693

当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。相似文献

2.

基于深度学习的实时图像目标检测系统设计

下载免费PDF全文

李林张盛兵吴鹃《计算机测量与控制》2019,27(7):15-19

针对图像目标检测的嵌入式实时应用需求,采用合并计算层的方法对基于MobileNet和单发多框检测器(SSD)的深度学习目标检测算法进行了优化,并采用软硬件结合的设计方法,基于ZYNQ可扩展处理平台设计了实时图像目标检测系统。在系统中,根据优化后的算法设计了一款多处理器核的深度学习算法加速器,并采用PYTHON语言设计了系统的软件。经过多个实验测试,深度学习目标检测系统处理速度可以达到45FPS,是深度学习软件框架在CPU上运行速度的4.9倍,在GPU上的1.7倍,完全满足实时图像目标检测的需求。相似文献

3.

基于ZYNQ集群的神经形态计算加速研究与实现

下载免费PDF全文

张新伟李康郁龚健刘家航李佩琦柴志雷《计算机工程与应用》2020,56(21):65-71

基于脉冲神经网络（SNN）的神经形态计算由于工作机理更接近于生物大脑,被认为有望克服深度学习的不足而成为解决人工智能问题的更佳途径。但是如何满足高性能、低功耗和适应规模伸缩需求是神经形态计算系统需要解决的挑战性问题。基于FPGA异构计算平台ZYNQ集群,在NEST类脑仿真器上,重点解决了具有脉冲时间依赖可塑性（STDP）突触计算复杂度高、并行度低、硬件资源占用大的问题。实验结果表明,设计的方法在8节点ZYNQ 7030集群上,性能是Xeon E5-2620 CPU的14.7倍。能效比方面,是Xeon E5-2620 CPU的51.6倍,是8节点ARM Cortex-A9的20.6倍。相似文献

4.

基于ZYNQ的卷积神经网络加速器设计

吴健顾明剑曾长紊邵春沅范余茂《计算机工程与设计》2022,(6):1572-1581

针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。相似文献

5.

卷积神经网络的硬件加速设计

张灿宇赵冰洁王俊彭易星《自动化与仪表》2023,(3):6-10+18

为解决目标检测算法随识别率的提高而当前普通的处理器无法满足算法的计算需求和内存需求等问题，该文采用一种基于FPGA的设计方法对卷积神经网络进行硬件加速，使用HLS技术设计YOLOv2目标检测算法，对算法中的各个网络层次进行相应的优化，并在FPGA加速器中对图像权重数据、像素数据进行复用以降低访问次数和数据量从而降低系统时延。实验结果表明，系统性能达28.37 GOPs(giga operations per second,10亿次运算/s)，功耗为2.60 W，与CPU(E5-2620v4)相比，系统性能是CPU的7.14倍，功耗仅占CPU的2.8%，与当前目标检测系统相比具有一定优势。相似文献

6.

基于OpenCL的3DES算法FPGA加速器

吴健凤郑博文聂一柴志雷《计算机工程》2021,47(12):147-155,162

在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列（FPGA）加解密系统又存在开发周期长、维护升级困难等问题。针对3DES算法,提出一种基于OpenCL的FPGA加速器设计方案。设计具有48轮迭代的流水并行结构,在数据传输模块中采用数据存储调整、数据位宽改进策略提高内核实际带宽利用率,在算法加密模块中采用指令流优化策略形成流水线并行架构,同时采用内核矢量化、计算单元复制策略进一步提高内核性能。实验结果表明,该加速器在Intel Stratix 10 GX2800上可获得111.801 Gb/s的吞吐率,与Intel Core i7-9700 CPU相比性能提升372倍,能效提升644倍,与NvidiaGeForce GTX 1080Ti GPU相比性能提升20%,能效提升9倍。相似文献

7.

基于FPGA的RAID6硬件加速器的实现

董春施亮《微型电脑应用》2011,27(1):5-6,15,4

设计了基于FPIGA的RAID6磁盘阵列的硬件加速器,将占用大量CPU周期的RAID6校验算法,用FPGA硬件实现并设计了软件与加速器的交互接口,将CPU从繁重的计算任务中解放出来,系统的处理速度和响应速度得到很大提升. 相似文献

8.

面向深度学习推理的矩阵乘法加速器设计

冉德成吴东钱磊《计算机工程》2019,45(10):40-45

为满足深度学习推理中对不同规模矩阵乘法的计算需求,提出一种基于Zynq SoC平台的整数矩阵乘法加速器。采用基于总线广播的并行结构,充分利用片上数据的重用性并最小化中间累加结果的移动范围,以降低外部DRAM的访问需求。通过动态调整矩阵分块的大小,使加速器在计算形状不规则的矩阵乘时保持较高效率。实验结果表明,在DeepBench测试基准下,该加速器可对双核ARM Cortex-A9 CPU的矩阵乘运算实现8.4倍的加速效果。相似文献

9.

基于FPGA的卷积神经网络图像识别算法研究

贾亮徐善博邢轶博《广东电脑与电讯》2022,(12):58-61+97

目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。相似文献

10.

基于异构可重构计算的AES加密系统研究

聂一郑博文柴志雷《计算机应用研究》2022,39(7)

随着大数据的发展及加密场景的增多,仅以软件运行的加密方式难以满足加密性能的需求;而使用Verilog/VHDL方式实现的FPGA/ASIC加密系统又存在灵活性较差、维护升级困难等问题。针对上述问题,设计并实现了一种基于异构可重构计算的AES算法加密系统,包含了AES算法ECB、CBC、CTR三种主流模式,每种模式实现了128 bit、192 bit、256 bit三种密钥大小的加密。基于FPGA对模块分别进行了硬件加速,同时基于硬件可重构机制实现了不同模式及不同位宽加密模块的动态切换。通过在Intel Stratix 10上实现并验证该系统,实验结果表明：系统中AES-ECB、AES-CTR、AES-CBC吞吐率分别达到116.43 Gbps、60.34 Gbps、4.32 Gbps,ECB模式相比于Intel Xeon E5-2650 V2 CPU和Nvidia GeForce GTX 1080 GPU分别获得了23.18倍与1.43倍的加速比,整体系统相比纯软件方式的计算加速比达到4.72。相似文献