摘 要: | 神经网络被广泛应用于模式识别、预测分析、数据拟合等方面,是人工智能的重要基础。神经网络卷积计算量大且网络参数量多,导致了计算时间长且数据访存压力大等问题。针对以上问题,文中基于Winograd算法对卷积计算进行加速,设计了优化的硬件计算结构,提高了数据的复用效率和计算并行度。相较于滑窗卷积,文中所提加速器的计算效率提升了4.352倍。在卷积核梯度计算方面,该加速器采用优化的数据分配方式,减少了数据搬移且满足了多个PE并行计算的数据需求,与CPU相比性能提升了23倍。实验表明,该加速器在VGG-9网络模型下的卷积计算吞吐率可达192.55 GFLOPS,在训练后对CIFAR-10数据集的识别率为76.54%。
|