首页 | 本学科首页   官方微博 | 高级检索  
     

面向国产异构系统的HPL异构协同设计
引用本文:甘新标,孙燎原,刘杰,雄成伟,黄嘉昆.面向国产异构系统的HPL异构协同设计[J].计算机工程与科学,2018,40(1):10-14.
作者姓名:甘新标  孙燎原  刘杰  雄成伟  黄嘉昆
作者单位:(1.国防科技大学计算机学院,湖南 长沙 410073;2.计算机软件新技术国家重点实验室(南京大学),江苏 南京 210093; 3.国防科技大学量子信息研究所兼高性能计算国家重点实验室,湖南 长沙 410073)
基金项目:国家重点研发计划(2017YFB0202104);国家自然科学基金(61602495,61402039,11401580,11665012);计算机软件新技术国家重点实验室(南京大学)开放课题(KFKT2016B25);国防科技大学预研计划(ZK16-03-06);国家重点实验室专项基金(Y62612A87S);中国科学院光谱成像技术重点实验室开放基金(LIST201602D)
摘    要:HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。

关 键 词:HPL  国产加速器  矩阵分布细致划分与封装  异构协同矩阵乘调度  
收稿时间:2016-12-12
修稿时间:2018-01-25

Orchestrating HPL between CPU and China accelerator
GAN Xin-biao,SUN Liao-yuan,LIU Jie,XIONG Cheng-wei,HUANG Jia-kun.Orchestrating HPL between CPU and China accelerator[J].Computer Engineering & Science,2018,40(1):10-14.
Authors:GAN Xin-biao  SUN Liao-yuan  LIU Jie  XIONG Cheng-wei  HUANG Jia-kun
Affiliation:(1.College of Computer,National University of Defense Technology,Changsha 410073; 2.State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210093; 3.Institute of Quantum Information & State Key Laboratory of High Performance Computing, National University of Defense Technology,Changsha 410073,China)
Abstract:HPL is a Linpack benchmark package widely used in high performance computing test. Matrix is divided into sub-matrix and distributed into computing elements in traditional HPL algorithm. However, it is ineffective for China Accelerator because of a specified interface on matrix multiplication built in China Accelerator. Thus, dPEM (delicate Partition and Encapsulation on Matrix) is advised to expose a friendly testing configuration environment. Furthermore, we propose OA4MM (Orchestrating Algorithm for Matrix multiplication) based on heterogeneous system composed of CPU and China Accelerator. Experimental results validate dPEM and OA4MM on CPU + China Accelerator. OA4MM can promote productivity up to 10% in comparison to heterogeneous HPL.
Keywords:HPL  China accelerator  delicate partition and encapsulation on matrix  orchestrating algorithm for matrix multiplication  
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号