面向GPU平台的并行结构化稀疏三角方程组求解器期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向GPU平台的并行结构化稀疏三角方程组求解器

作者姓名：	陈道琨杨超刘芳芳马文静

作者单位：	中国科学院软件研究所并行软件与计算科学实验室, 北京 100190;中国科学院大学, 北京 100049;北京大学数学科学学院, 北京 100871

基金项目：	国家重点研发计划高性能计算重点专项(2020YFB0204601)

摘要：	稀疏三角线性方程组求解(SpTRSV)是预条件子部分的重要操作,其中结构化SpTRSV问题,在以迭代方法求解偏微分方程组的科学计算程序中,是一种较为常见的问题类型,而且通常是科学计算程序的需要解决的一个性能瓶颈.针对GPU平台,目前以CUSPARSE为代表的商用GPU数学库,采用分层调度(level-scheduling)方法并行化SpTRSV操作.该方法不仅预处理耗时较长,而且在处理结构化SpTRSV问题时会出现较为严重GPU线程闲置问题.针对结构化SpTRSV问题,提出一种面向结构化SpTRSV问题的并行算法.该算法利用结构化SpTRSV问题的特殊非零元分布规律进行任务划分,避免对输入问题的非零元结构进行预处理分析.并对现有分层调度方法的逐元素处理策略进行改进,在有效缓解GPU线程闲置问题的基础上,还隐藏了部分矩阵非零元素的访存延迟.还根据算法的任务划分特点,采用状态变量压缩技术,显著提高算法状态变量操作的缓存命中率.在此基础上,还结合谓词执行等GPU硬件特性,对算法实现进行全面的优化.所提算法在NVIDIA V100 GPU上的实测性能,相比CUSPARSE平均有2.71倍的加速效果,有效访存带宽最高可达225.2 GB/s.改进后的逐元素处理策略,配合针对GPU硬件的一系列调优手段,优化效果显著,将算法的有效访存带宽提高了约1.15倍.
关键词：	稀疏三角线性方程组求解(SpTRSV) 模板计算结构化网格 GPU 异构并行算法
收稿时间：	2021-08-13
修稿时间：	2022-03-08
本文献已被维普等数据库收录！
	点击此处可从《软件学报》浏览原始摘要信息
	点击此处可从《软件学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏