首页 | 本学科首页   官方微博 | 高级检索  
     

基于输入特征稀疏化的图神经网络训练加速
引用本文:马煜昕,许胤龙,李诚,钟锦.基于输入特征稀疏化的图神经网络训练加速[J].计算机系统应用,2024,33(1):245-253.
作者姓名:马煜昕  许胤龙  李诚  钟锦
作者单位:中国科学技术大学 计算机科学与技术学院, 合肥 230026;中国科学技术大学 计算机科学与技术学院, 合肥 230026;合肥综合性国家科学中心 人工智能研究院, 合肥 230026;合肥师范学院 计算机与人工智能学院, 合肥 230601;合肥综合性国家科学中心 人工智能研究院, 合肥 230026
基金项目:国家自然科学基金(62141216); 安徽高校协同创新项目(GXXT-2022-045)
摘    要:图神经网络(graph neural network, GNN)是处理图数据的重要方法. 由于计算复杂、图数据容量大, 在大规模图上训练图神经网络依赖于CPU-GPU协作和图采样训练方法, 其中图结构和特征数据存储在CPU内存中, 而采样得到的子图及其特征则传输至GPU进行训练. 然而, 这种方法面临着严重的图特征数据加载瓶颈, 显著降低了端到端训练性能, 且图特征占用过多内存, 严重限制了可训练的图规模. 为了解决这些问题, 我们提出了基于输入特征稀疏化的数据加载方法, 显著减少CPU内存占用和跨PCIe总线传输的数据量, 大幅缩短数据加载时间, 加速GNN的训练, 使其可以充分利用GPU计算资源. 针对图特征和GNN计算特性, 我们提出了适用于图特征数据的稀疏化方法, 在压缩比和模型准确度之间达到平衡. 我们在3个常见GNN模型和3个不同规模的数据集上进行了实验评估, 包括最大的公开数据集之一MAG240M. 结果表明, 此方法将特征尺寸减小了一个数量级以上, 并实现1.6–6.7倍的端到端训练加速, 而模型准确度的降低不超过1%. 此外, 在仅使用4个GPU的情况下, 仅需40 min就可以在MAG240M上完成GraphSAGE模型的训练并达到目标准确度.

关 键 词:图神经网络  数据加载  稀疏化  压缩  特征分析
收稿时间:2023/3/16 0:00:00
修稿时间:2023/4/28 0:00:00

Accelerating Graph Neural Network Training with Feature Data Sparsification
MA Yu-Xin,XU Yin-Long,LI Cheng,ZHONG Jin.Accelerating Graph Neural Network Training with Feature Data Sparsification[J].Computer Systems& Applications,2024,33(1):245-253.
Authors:MA Yu-Xin  XU Yin-Long  LI Cheng  ZHONG Jin
Affiliation:School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China;School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China;Institute of Artificial Intelligence, Hefei Comprehensive National Science Center, Hefei 230026, China; School of Computer and Artificial Intelligence, Hefei Normal University, Hefei 230601, China;Institute of Artificial Intelligence, Hefei Comprehensive National Science Center, Hefei 230026, China
Abstract:
Keywords:graph neural network (GNN)  data loading  sparsification  compression  feature analysis
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号