一种面向神威·太湖之光的通用并行卷积算法 |
| |
引用本文: | 舒嘉明,安虹,武铮,陈俊仕. 一种面向神威·太湖之光的通用并行卷积算法[J]. 计算机工程, 2019, 45(12): 153-159 |
| |
作者姓名: | 舒嘉明 安虹 武铮 陈俊仕 |
| |
作者单位: | 中国科学技术大学计算机科学与技术学院,合肥,230000 |
| |
摘 要: | 神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重用和软件流水等方法降低从核访存开销,利用手动向量化的方法充分发挥从核浮点的计算能力。实验结果表明,与基础7层循环算法、gemm算法和Intel平台上的MKL-DNN算法相比,该算法的加速性能较好。
|
关 键 词: | 神威·太湖之光 卷积神经网络 数据重用 软件流水 批量受限 |
A General Parallel Convolution Algorithm for Sunway Taihu Light |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|