期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谢坤鹏卢冶靳宗明刘义情龚成陈新伟李涛《计算机研究与发展》2022,(7):1409-1427

卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能. 相似文献

2.

卷积神经网络RLeNet加速器设计

康磊李慧郑豪威李鑫《数字社区&智能家居》2021,(6)

针对卷积神经网络(CNN)对运算的需求,现场可编程逻辑门阵列(FPGA)可以充分挖掘CNN内部并行计算的特性,提高运算速度。因此,本文基于FPGA开发平台,从模型优化、参数优化,硬件加速以及手写体数字识别四个方面对CNN的FPGA加速及应用进行研究。提出一种数字识别网络RLeNet,并对网络进行参数优化,卷积运算加速采用脉冲阵列与加法树结合的硬件结构实现,同时使用并行技术和流水线技术优化加速,并使用microblaze IP通过中断控制CNN加速器IP接收串口发送的图片数据进行预测,输出结果。最后在Xilinx Nexys 4 DDR:Artix-7开发板上实现了MNIST数据集手写体数字识别预测过程,当系统时钟为200MHz时,预测一张图片的时间为36.47us。相似文献

3.

面向卷积神经网络的高并行度FPGA加速器设计

王晓峰蒋彭龙周辉赵雄波《计算机应用》2021,41(3):812-819

大多数基于卷积神经网络（CNN）的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列（FPGA）加速器。首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水（MCRP）结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG芯片上,在充分利用片上数字信号处理器（DPS）资源的情况下,峰值算力达到2 304 GOPS。以SSD-300算法为测试对象,该CNN加速器的实际算力为1 830.33 GOPS,硬件利用率达79.44%。实验结果表明,MCRP结构可有效提高CNN加速器的算力,基于MCRP结构的CNN加速器可基本满足嵌入式领域大部分应用的算力需求。相似文献

4.

基于FPGA的卷积神经网络加速器

《计算机工程》2017,(1)

现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。相似文献

5.

融合循环划分的张量指令生成优化

梁佳利华保健苏少博《计算机科学》2023,(2):374-383

张量编译器支持将算子的张量描述和计算调度编译为目标硬件的代码。为加速张量运算，深度学习领域专用处理器被设计为包含特殊指令的专有架构，支持多核并行、多级专用内存架构和张量计算，在硬件之上还有与硬件特性紧密相关的张量指令集。在这样复杂的架构上，张量指令的使用有着许多约束与限制，并存在以下问题和挑战：首先，因计算任务划分或数据切块等循环分段引入的条件分支增加了模式匹配难度；其次，张量指令有对齐、数据布局等硬件约束。针对上述问题和挑战，提出了一种融合循环划分的张量指令生成优化算法。算法通过划分循环区间，来消除因任务划分或数据切分引入的条件分支；通过补零、等价指令替换和添加额外计算来解决指令和硬件约束；并使用模式匹配的方法生成张量指令。研究并扩展开源深度学习编译器TVM 0.7版本，实现了支持DianNao架构机器学习加速器的张量指令生成的编译器原型系统。为评测算法的有效性，在DianNao架构机器学习加速器硬件平台上，对逐元素二元张量操作算子、原地一元张量操作算子和卷积操作算子3类算子的性能和开发效率进行了测试，实验结果表明3类算子性能平均加速比为125.00%,最大加速比为194.00%,开... 相似文献

6.

隧道检测机器人的激光线中心的快速提取

王逸濠赵雪磊魏子哲张晓斌徐永安《机器人技术与应用》2021,(4):35-41

本文介绍一种图像处理领域快速提取激光中心线的方法.首先将二维图像卷积运算转变为向量运算,其次采用SIMD指令加速图像数据的运算处理,最后基于计算机的存储结构进一步改进卷积运算,使得图像边缘检测算法效率提升,加速激光中心线的并行提取. 相似文献

7.

757向量机运算器的结构、原理及其设计

石国华《计算机研究与发展》1984,(5)

本文介绍了757向量机运算器的基本结构、功能及其特点;微指令、宏指令两级控制方式下跳站式和逐站式操作流水线的控制;一些主要算法以及设计中存在的一些问题。相似文献

8.

基于ZCU102 DSP的CNN卷积运算加速方法

苗鑫周欢欢陆栋洵《自动化技术与应用》2022,(12):64-67

本文提出设计了一种在ZCU102平台上加速卷积神经网络（CNN）卷积运算的方法,使用1个DSP IP实现卷积操作中1个int8类型或者unit8类型输入特征图像数据和2个int8类型卷积核参数的乘法运算。卷积运算是卷积神经网络的基本操作,提高卷积运算并行度可使卷积运算速率提升一倍。8-bit卷积神经网络量化技术是设计实现的基础,减少了处理器（PS）数据传输带宽需求。ZCU102 MPSoC的可编程逻辑（PL）资源较少,充分利用DSP IP资源可降低逻辑资源需求,提升逻辑资源利用率,增加SoC系统设计灵活性。相似文献

9.

基于RISC-V处理器的卷积加速SoC系统设计

张坤宁赵烁何虎邓宁杨旭《计算机工程》2021,47(4):153-157

为提高卷积神经网络（CNN）的计算效率和能效,以8 bit定点数据作为输入,设计一个支持激活、批标准化以及池化等CNN网络中常见计算类型的卷积加速器,优化循环计算顺序并将其与数据复用技术相结合,以提高卷积计算的效率。基于软硬件协同设计思想,构建包含RISC-V处理器和卷积加速器的SoC系统,RISC-V处理器基于开源的指令集标准,可以根据具体的设计需求扩展指令功能。将该SoC系统部署在Xilinx ZCU102开发板上,RISC-V处理器和卷积加速器分别工作在100 MHz和300 MHz频率下,测试结果表明,该加速器的算力达到153.6 GOP/s,运行VGG16网络进行图片推理计算时加速效果较好。相似文献

10.

面向卷积神经网络的FPGA加速器架构设计

李炳剑秦国轩朱少杰裴智慧《计算机科学与探索》2020,14(3):437-448

随着人工智能的快速发展,卷积神经网络(CNN)在很多领域发挥着越来越重要的作用。分析研究了现有卷积神经网络模型,设计了一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在卷积运算中四个维度方向实现了并行化计算;提出了参数化架构设计,在三种参数条件下,单个时钟周期分别能够完成512、1024、2048次乘累加;设计了片内双缓存结构,减少片外存储访问的同时实现了有效的数据复用;使用流水线实现了完整的神经网络单层运算过程,提升了运算效率。与CPU、GPU以及相关FPGA加速方案进行了对比实验,实验结果表明,所提出的设计的计算速度达到了560.2 GOP/s,为i7-6850K CPU的8.9倍。同时,其计算的性能功耗比达到了NVDIA GTX 1080Ti GPU的3.0倍,与相关研究相比,所设计的加速器在主流CNN网络的计算上实现了较高的性能功耗比,同时不乏通用性。相似文献

11.

基于FPGA的HEVC后处理CNN硬件加速器研究

夏珺钱磊严伟柴志雷《计算机工程与科学》2018,40(12):2126-2132

针对高效视频编解码标准中后处理CNN算法在通用平台运行时产生的高延时缺点,提出一种基于现场可编程逻辑门阵列（FPGA）的后处理卷积神经网络硬件并行架构。提出的并行架构通过改进输入与输出缓冲的数据并发过程,调整卷积模块整体并行度,加快模块硬件流水。实验结果表明,基于本文所提出的并行架构设计的CNN硬件加速器在Xilinx ZCU102上处理分辨率为176×144视频流,计算性能相当于每秒360.5 GFLOPS,计算速度可满足81.01 FPS,相比时钟频率4 GHz的Intel i7-4790K,计算速度加快了76.67倍,相比NVIDIA GeForce GTX 750Ti加速了32.50倍。在计算能效比方面,本文后处理CNN加速器功耗为12.095 J,能效比是Intel i7-4790K的512.90倍,是NVIDIA GeForce GTX 750Ti的125.78倍。相似文献

12.

基于FPGA的CNN加速器设计与实现

《微型机与应用》2019,(11):96-101

近年来,卷积神经网络(CNN)在计算机视觉任务中得到了广泛的应用,可编程逻辑门阵列(FPGA)以其高性能、高能效、高灵活性等优点被广泛应用于CNN的加速。提出了一种基于FPGA的卷积神经网络加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速。以VC707开发板为FPGA平台,设计了一种新的卷积神经网络Do Net,可以实现对Minist手写数据集的识别分类。测试结果表明,基于FPGA实现的Do Net对Minist数据集的识别准确率为95%,测试显示的识别时间为0. 545 ms,功耗为1. 95 W。相似文献

13.

一种通用GF(2~m)模乘加速器的快速实现

杨先文李峥方斌《电子技术应用》2008,34(1):123-125

在椭圆曲线密码体制(ECC)中,有限域GF(2m)上模乘运算是最基本的运算,加速模乘运算是提高ECC算法性能的关键。针对不同不可约多项式广泛应用的现状,提出了一种通用GF(2m)模乘加速器设计方案。该加速器通过指令调度的方式,能快捷地完成有限域上模乘运算。实现结果表明,该设计完全适用于智能卡等应用要求。相似文献

14.

基于cuFHE的同态比较运算器

刘文超潘峰杨晓元周潭平涂广升《计算机工程》2019,45(9)

为在密态计算中实现高效的比较操作,设计一种支持并行加速的多比特同态比较运算器。基于cuFHE软件库构造单比特同态数值比较器,在并行运算模式下调用该同态数值比较器,通过GPU硬件实现可比较任意比特明文的多比特同态比较运算器。利用cuFHE同态算法库编写同态比较运算函数并进行测试,结果表明,该比较运算器效率较高,对100 bit的明文进行一次比较运算仅需0.91 s。相似文献

15.

SAF-CNN：面向嵌入式FPGA的卷积神经网络稀疏化加速框架

谢坤鹏仪德智刘义情刘航赫鑫宇龚成卢冶《计算机研究与发展》2023,(5):1053-1072

传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架（sparse acceleration framework of convolutional neural network, SAF-CNN）,通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-... 相似文献

16.

基于GPU的卷积检测模型加速

《计算机应用与软件》2016,(5)

近年来,形变部件模型和卷积神经网络等卷积检测模型在计算机视觉领域取得了极大的成功。这类模型能够进行大规模的机器学习训练,实现较高的鲁棒性和识别性能。然而训练和评估过程中卷积运算巨大的计算开销,也限制了其在诸多实际场景中进一步的应用。利用数学理论和并行技术对卷积检测模型进行算法和硬件的双重加速。在算法层面,通过将空间域中的卷积运算转换为频率域中的点乘运算来降低计算复杂度;而在硬件层面,利用GPU并行技术可以进一步减少计算时间。在PASCAL VOC数据集上的实验结果表明,相对于多核CPU,该算法能够实现在单个商用GPU上加速卷积过程2.13~4.31倍。相似文献

17.

基于RISC-V的卷积神经网络专用指令集处理器

廖汉松吴朝晖李斌《计算机工程》2021,47(7):196-204

针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络（CNN）专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理SqueezeNet网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。相似文献

18.

基于线性脉动阵列的卷积神经网络计算优化与性能分析

下载免费PDF全文

刘勤让刘崇阳周俊王孝龙《网络与信息安全学报》2018,4(12):16-24

针对大部分FPGA端上的卷积神经网络（CNN,convolutional neural network）加速器设计未能有效利用稀疏性的问题,从带宽和能量消耗方面考虑,提出了基于线性脉动阵列的2种改进的CNN计算优化方案。首先,卷积转化为矩阵相乘形式以利用稀疏性;其次,为解决传统的并行矩阵乘法器存在较大I/O需求的问题,采用线性脉动阵列改进设计;最后,对比分析了传统的并行矩阵乘法器和2种改进的线性脉动阵列用于CNN加速的利弊。理论证明及分析表明,与并行矩阵乘法器相比,2种改进的线性脉动阵列都充分利用了稀疏性,具有能量消耗少、I/O带宽占用少的优势。相似文献

19.

基于微指令覆盖的最小指令集测试算法 总被引：1，自引：0，他引：1

张盛兵高德远樊晓桠《计算机学报》2000,23(10):1083-1087

着重讨论了如何利用微处理器中的自测试设计来缩短功能测试序列的长度,首先,依据指令的表示模型,将指令测试分成微指令序列和微指令执行两个测试层次,提出了一个基于微指令覆盖的最小指令集测试算法,只需检测指令集的子集就能达到指令测试的目的。然后,通过定义指令的测试代价和测试效率,提出了一个可以有效地选择最小测试指令集的方法,最后,将算法应用于ＮＲＳ４０００微处理器的功能测试,仅为传统的全指令集测试序列的３相似文献

20.

两级地址编码

蔺天鹏《计算机学报》1980,(4)

两级地址编码是对微程序设计中的一级地址编码系统的改进,使其不仅具有以微指令字为单位进行地址编码的规则性,而且具有以微指令字节(即ROM模体的宽度)为单位进行地址编码的灵活性,从而使微指令的编码效率得到最大限度地提高。通过两级地址编码选出的微指令,实际上是以微指令字节为单位的一组空间序列,与通常的微指令字序列相比,既可直接沿用机器原来的硬件结构,又可以提高运算速度和降低硬件成本。因此,在机器指令具有多重操作码,且允许在一个微指令周期中实现其全部功能等场合下,两级地址编码的方法可作为实现全面微程序控制的一种可取的方法。相似文献