期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王晓峰李超然路坤锋栾天娇姚娜周辉谢宇嘉《计算机科学》2023,(11):8-14

基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案。在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案。在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576 GOPS,实际算力达422.08 GOPS,DSP的使用效率达4.5 Ope-ration/clock。加速计算系统的峰值算力达1 600 GOPS,将CNN景象匹配算法的吞吐时延降低至157.89 ms。实验结果表明,该加速计算方案能高效利用FPGA的计算资源,实现CNN景象匹配算法的实时计算。相似文献

2.

资源约束的FPGA流水线调度 总被引：1，自引：0，他引：1

下载免费PDF全文

宋健葛颖增窦勇《计算机工程》2008,34(15):44-46

循环是程序中十分耗时的部分,流水线能够加速循环执行但需要大量运算资源。由于FPGA资源有限,将循环代码在FPGA上加速时手动设计流水线不具有实际可行性。该文使用软件流水将循环自动映射到FPGA上,并实现资源约束下的流水线调度。通过探索整个或者局部资源组合空间,可以选择一个性能和面积比较平衡的设计。相似文献

3.

FAQ-CNN:面向量化卷积神经网络的嵌入式FPGA可扩展加速框架

谢坤鹏卢冶靳宗明刘义情龚成陈新伟李涛《计算机研究与发展》2022,(7):1409-1427

卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能. 相似文献

4.

一种微指令序列调度数据流的星载卷积神经网络FPGA加速器

郭子博刘凯胡航天李奕铎璩泽旭《计算机学报》2022,(10):2047-2064

卷积神经网络(Convolutional Neural Network,CNN)是目前主流视觉算法不可或缺的关键部分.为提高CNN模型推理速度,学界提出了众多异构加速方法以满足不同场景下的多元加速需求.但如何在资源与能耗受限的在轨卫星上稳定高效地加速CNN仍是极具挑战的课题.为此,本文通过软硬件协同设计,着力优化微指令编码、指令级并行和运算级并行3个加速器设计的关键部分,在星上常见的Xilinx VX690T FPGA芯片上设计实现了一种微指令序列调度数据流的CNN加速器.在软件层面,本文提出一种可扩展的微指令编码格式及相应的编译方法.通过卷积循环分块和算子融合策略实现图级别优化,生成加速器可执行的微指令序列.在硬件层面,本文设计实现了一个由微控制器与逻辑运算器组成的RTL级CNN加速器.微控制器通过粗粒度流水线实现各类指令的并行执行.逻辑运算器通过DSP48E1计算资源级联所构建的计算阵列实现卷积算子的细粒度并行运算.实验结果表明,加速器设计功耗10.68W,在加速YOLOV3Tiny算法时,峰值吞吐率(Runtime Max Throughput,RMT)达到378.63 GOP/... 相似文献

5.

一种改进的粒子滤波算法及其FPGA硬件实现

下载免费PDF全文

何康陆小锋陆亨立《计算机工程与应用》2015,51(24):45-49

提出了一种改进的粒子滤波目标跟踪算法,提出了限定区域的伪随机算法和根据权值分布的自适应重采样算法来提升目标跟踪的精度和并行特性。同时在算法的FPGA硬件结构实现上,对程序结构进行调整,充分利用流水线并行处理数值计算,运用硬件并行特性加快粒子的权值排序过程。实验结果表明,提出的算法在实验室场景与遮挡情况下都具有良好的跟踪准确性和实时性。相似文献

6.

基于FPGA的CNN图像识别加速与优化

齐延荣周夏冰李斌周清雷《计算机科学》2021,48(4):205-212

目前,CNN已广泛应用于许多应用场景中,包括图像分类、语音识别、视频分析、文档分析等。由于CNN计算密集,常以GPU进行加速,但GPU功耗高,不适用于CNN推理阶段。基于此,文中研究了基于FPGA的CNN图像识别加速与优化的应用方法,利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并优化了CNN前向模型。首先,针对计算量问题,通过功能模块划分,充分发挥FPGA的高计算效能优势。其次,优化核心算法,提高运行速度;分析特征图处理操作,利用参数共享策略降低数据存储量;采用通道传输数据,减少访问片外存储次数。最后,对数据缓存、数据流、循环进行优化设计,缓解了FPGA片上的资源限制;通过量化参数降低FPGA内存资源占用量。实验结果表明,FPGA具有较低的功耗,CPU的功耗是其2.1倍,而GPU的功耗是其6.5倍;与近年来相关领域文献中提出的方法相比,所提方法具有较高的吞吐量和计算性能。相似文献

7.

Harris角点检测的FPGA快速实现方法

闫小盼《计算机应用研究》2017,34(12)

针对Harris角点检测算法计算量大导致实时性差的难题,提出了一种基于FPGA的快速Harris角点检测技术。利用FPGA并行处理的特点,将整幅图像分为两块后并行处理,对其中分解得到的每一块图像采用流水线处理,并将流水线结构分为导数生成器、高斯滤波、角点响应R值计算、非极大值抑制四级,且对流水线每一级中涉及到的复杂乘法运算转换为精简的移位及加法或减法运算,最终实现对目标的实时角点检测。实验结果表明,对于分辨率为1024x1024的图像,达到了每帧6.809ms的角点提取速度,与基于FPGA传统结构的Harris角点检测算法相比,速度提高了近一倍,极大提升了算法的实时性,具有较强的工程实用价值。相似文献

8.

基于FPGA的卷积神经网络定点加速

雷小康尹志刚赵瑞莲《计算机应用》2020,40(10):2811-2816

针对卷积神经网络（CNN）在资源受限的硬件设备上运行功耗高及运行慢的问题，提出一种基于现场可编程门阵列（FPGA）的CNN定点计算加速方法。首先提出一种定点化方法，并且每层卷积设计不同的尺度参数，使用相对散度确定位宽的长度，以减小CNN参数的存储空间，而且研究不同量化区间对CNN精度的影响；其次，设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果，采用了人脸和船舶两个数据集进行验证。结果表明，相较于传统的浮点卷积计算，所提方法在保证CNN精度损失很小的前提下，当权值参数和输入特征图参数量化到7-bit时，在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%，卷积计算加速比为18.69，同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度，并且能够高效利用FPGA硬件资源。相似文献

9.

基于FPGA的卷积神经网络定点加速

雷小康尹志刚赵瑞莲《计算机应用》2005,40(10):2811-2816

针对卷积神经网络（CNN）在资源受限的硬件设备上运行功耗高及运行慢的问题，提出一种基于现场可编程门阵列（FPGA）的CNN定点计算加速方法。首先提出一种定点化方法，并且每层卷积设计不同的尺度参数，使用相对散度确定位宽的长度，以减小CNN参数的存储空间，而且研究不同量化区间对CNN精度的影响；其次，设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果，采用了人脸和船舶两个数据集进行验证。结果表明，相较于传统的浮点卷积计算，所提方法在保证CNN精度损失很小的前提下，当权值参数和输入特征图参数量化到7-bit时，在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%，卷积计算加速比为18.69，同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度，并且能够高效利用FPGA硬件资源。相似文献

10.

基于FPGA的CNN加速SoC系统设计

赵烁范军何虎《计算机工程与设计》2020,41(4):939-944

为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。相似文献