首页 | 本学科首页   官方微博 | 高级检索  
     

申威1621处理器上矩阵乘法优化研究
引用本文:闫昊,刘芳芳,马文静,陈道琨.申威1621处理器上矩阵乘法优化研究[J].软件学报,2023,34(7):3451-3463.
作者姓名:闫昊  刘芳芳  马文静  陈道琨
作者单位:中国科学院 软件研究所 并行软件与计算科学实验室, 北京 100190;中国科学院大学, 北京 100049;中国科学院 软件研究所 并行软件与计算科学实验室, 北京 100190;计算机科学国家重点实验室 (中国科学院 软件研究所), 北京 100190
基金项目:国家重点研发计划(2020YFB0204601)
摘    要:稠密矩阵乘法(GEMM)是很多科学与工程计算应用中大量使用的函数,也是很多代数函数库中的基础函数,其性能高低对整个应用往往有决定性的影响.另外,因其计算密集的特点,矩阵乘法效率往往也是体现硬件平台性能的重要指标.针对国产申威1621处理器,对稠密矩阵乘法进行了系统性地优化.基于对各部分开销的分析,以及对体系结构特点与指令集的充分利用,对DGEMM函数从循环与分块方案,打包方式,核心计算函数实现,数据预取等方面进行了深入优化.此外,开发了代码生成器,为不同的输入参数生成不同版本的汇编代码和C语言代码,配合自动调优脚本,选取最佳参数.经过优化和调优,单线程DGEMM性能达到了单核浮点峰值性能的85%,16线程DGEMM性能达到16核浮点峰值性能的80%.对DGEMM函数的优化不仅提高了申威1621平台BLAS函数库性能,也为国产申威系列多核处理器上稠密数据计算优化提供了重要参考.

关 键 词:矩阵乘法  缓存  分块算法  优化  数据预取
收稿时间:2021/6/7 0:00:00
修稿时间:2021/8/7 0:00:00

Optimization of GEMM on SW1621 Processors
YAN Hao,LIU Fang-Fang,MA Wen-Jing,CHEN Dao-Kun.Optimization of GEMM on SW1621 Processors[J].Journal of Software,2023,34(7):3451-3463.
Authors:YAN Hao  LIU Fang-Fang  MA Wen-Jing  CHEN Dao-Kun
Affiliation:Laboratory of Parallel Software and Computing Science, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China;University of Chinese Academy of Sciences, Beijing 100049, China;Laboratory of Parallel Software and Computing Science, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China;State Key Laboratory of Computer Science (Institute of Software, Chinese Academy of Sciences), Beijing 100190, China
Abstract:
Keywords:general matrix multiply (GEMM)  cache  tiling  optimization  prefetch
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号