首页 | 本学科首页   官方微博 | 高级检索  
     

Cholesky分解细粒度并行算法
引用本文:邬贵明,窦勇,王淼. Cholesky分解细粒度并行算法[J]. 计算机工程与科学, 2010, 32(9): 102-106. DOI: 10.3969/j.issn.1007130X.2010.
作者姓名:邬贵明  窦勇  王淼
作者单位:国防科学技术大学计算机学院,湖南,长沙,410073;国防科学技术大学计算机学院,湖南,长沙,410073;国防科学技术大学计算机学院,湖南,长沙,410073
基金项目:国家自然科学基金资助项目 
摘    要:本文提出了一种Cholesky分解细粒度流水线并行算法,该算法可以处理任意规模的数据,可以充分开发FP-GA加速器提供的细粒度并行。实验表明,该算法具有很好的可扩展性,在Xilinx XC5 VLX330 FPGA上能够集成36个处理单元(PE),当矩阵的阶为16384、运行频率为200MHz时性能达到14.3GFLOPS。

关 键 词:Cholesky分解  细粒度并行  FPGA
收稿时间:2010-03-11
修稿时间:2010-06-19

A Fine-Grained Parallel Algorithm for the Cholesky Decomposition
WU Gui-ming,DOU Yong,WANG Miao. A Fine-Grained Parallel Algorithm for the Cholesky Decomposition[J]. Computer Engineering & Science, 2010, 32(9): 102-106. DOI: 10.3969/j.issn.1007130X.2010.
Authors:WU Gui-ming  DOU Yong  WANG Miao
Affiliation:(School of Computer Science,National University of Defense Technology,Changsha 410073,China)
Abstract:This paper presents a fine grained pipeline parallel algorithm for the Cholesky decomposition, which is applicable to the matrices of arbitrary orders and can exploit fine grained parallelism of the FPGA accelerators. The experimental results show this algorithm has good scalability. 36 processing elements (PEs) can be integrated into a Xilinx XC5VLX330 FPGA, achieving a performance of 14.3 Gflops when the matrix order is 16 384 at the clock speed of 200 MHz.
Keywords:FPGA
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号