摘 要: | 基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测算法有着鲁棒性强、准确度高等优点,被广泛用于计算机视觉任务领域.然而,CNN参数量大、计算量大的特性使得其难以在边缘计算平台实时实现,为此,本文针对目标检测网络Skynet进行结构优化,并基于高效的层内并行流水的加速架构,在现场可编程门阵列(Field Programmable Gate Array,FPGA)上对其进行实时实现.该方法对Skynet进行剪枝,合并其卷积层与归一化层,利用(Kullback-Leibler,KL)相对熵及极大值量化方法对权重及特征图进行8 bit定点量化,同时将偏置参数及缩放系数定点化,并合并激活操作与饱和截断操作,在减少存储量和计算量的同时,加快前向推理速度.此外,以滑窗操作为基础,采用通道及像素并行计算,设计深度可分离卷积的流水策略,将串行的前向推理结构优化为并行流水的结构,极大减少了前向推理的时间.实验表明,在UA-DETRAC数据集上,本文实现的系统识别精度为0.752,在160×160的图像分辨率上,速度达到115FPS,与CPU相比,提速11倍,达到...
|