基于FPGA的卷积神经网络并行加速设计 |
| |
引用本文: | 龚豪杰,周海,冯水春.基于FPGA的卷积神经网络并行加速设计[J].计算机工程与设计,2022(7):1872-1878. |
| |
作者姓名: | 龚豪杰 周海 冯水春 |
| |
作者单位: | 1. 中国科学院国家空间科学中心复杂航天系统电子信息技术重点实验室;2. 中国科学院大学计算机科学与技术学院 |
| |
摘 要: | 为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案。利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度。实验结果表明,在100MHz的工作频率下,加速器的峰值计算性能可以达到52.56GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升。
|
关 键 词: | 卷积神经网络 现场可编程门阵列 批归一化 并行计算 数据复用 |
|
|