面向国产异构系统的HPL异构协同设计 Orchestrating HPL between CPU and China accelerator期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向国产异构系统的HPL异构协同设计

引用本文：	甘新标,孙燎原,刘杰,雄成伟,黄嘉昆.面向国产异构系统的HPL异构协同设计[J].计算机工程与科学,2018,40(1):10-14.

作者姓名：	甘新标孙燎原刘杰雄成伟黄嘉昆

作者单位：	（1.国防科技大学计算机学院,湖南长沙 410073;2.计算机软件新技术国家重点实验室(南京大学)，江苏南京 210093; 3.国防科技大学量子信息研究所兼高性能计算国家重点实验室，湖南长沙 410073）

基金项目：	国家重点研发计划(2017YFB0202104);国家自然科学基金(61602495,61402039,11401580,11665012);计算机软件新技术国家重点实验室(南京大学)开放课题(KFKT2016B25)；国防科技大学预研计划（ZK16-03-06）；国家重点实验室专项基金（Y62612A87S）；中国科学院光谱成像技术重点实验室开放基金(LIST201602D)

摘要：	HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。
关键词：	HPL 国产加速器矩阵分布细致划分与封装异构协同矩阵乘调度
收稿时间：	2016-12-12
修稿时间：	2018-01-25
Orchestrating HPL between CPU and China accelerator

GAN Xin-biao,SUN Liao-yuan,LIU Jie,XIONG Cheng-wei,HUANG Jia-kun.Orchestrating HPL between CPU and China accelerator[J].Computer Engineering & Science,2018,40(1):10-14.

Authors:	GAN Xin-biao SUN Liao-yuan LIU Jie XIONG Cheng-wei HUANG Jia-kun

Affiliation:	（1.College of Computer,National University of Defense Technology,Changsha 410073; 2.State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210093; 3.Institute of Quantum Information & State Key Laboratory of High Performance Computing, National University of Defense Technology,Changsha 410073,China）

Abstract:	HPL is a Linpack benchmark package widely used in high performance computing test. Matrix is divided into sub-matrix and distributed into computing elements in traditional HPL algorithm. However, it is ineffective for China Accelerator because of a specified interface on matrix multiplication built in China Accelerator. Thus, dPEM (delicate Partition and Encapsulation on Matrix) is advised to expose a friendly testing configuration environment. Furthermore, we propose OA4MM (Orchestrating Algorithm for Matrix multiplication) based on heterogeneous system composed of CPU and China Accelerator. Experimental results validate dPEM and OA4MM on CPU + China Accelerator. OA4MM can promote productivity up to 10% in comparison to heterogeneous HPL.

Keywords:	HPL China accelerator delicate partition and encapsulation on matrix orchestrating algorithm for matrix multiplication

	点击此处可从《计算机工程与科学》浏览原始摘要信息
	点击此处可从《计算机工程与科学》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏