首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
不完全Cholesky分解预条件共轭梯度(incomplete Cholesky factorization preconditioned conjugate gradient, ICCG)法是求解大规模稀疏对称正定线性方程组的有效方法.然而ICCG法要求在每次迭代中求解2个稀疏三角方程组,稀疏三角方程组求解固有的串行性成为了ICCG法在GPU上并行求解的瓶颈.针对稀疏三角方程组求解,给出了一种利用GPU加速的有效方法.为了增加稀疏三角方程组求解在GPU上的多线程并行性,提出了对不完全Cholesky分解产生的稀疏三角矩阵进行分层调度(level scheduling)的方法.为了进一步提高稀疏三角方程组求解的并行性能,提出了在分层调度前通过近似最小度(approximate minimum degree, AMD)算法对系数矩阵进行重排序、在分层调度后对稀疏三角矩阵进行层排序的方法,降低了分层调度过程中产生的层数,优化了稀疏三角方程组求解的GPU内存访问模式.数值实验表明,与利用NVIDIA CUSPARSE实现的ICCG法相比,采用上述方法性能可以获得平均1倍以上的提升.  相似文献   

2.
稀疏矩阵Cholesky分解是求解大规模稀疏线性方程组的核心算法,也是求解过程中最耗时的部分.近年来,一系列并行算法通过图形处理器(GPU)获得了显著的加速比,然而,由于访存的不规则性以及任务间的大量数据依赖关系,稀疏矩阵Cholesky分解算法在GPU上的计算效率很低.文中实现了一种新的基于GPU的稀疏矩阵Cholesky分解算法.在数据组织方面,改进了稀疏矩阵超节点数据结构,通过超节点合并和分块控制计算粒度;在计算调度方面,将稀疏矩阵Cholesky分解过程映射为一系列的数据块任务,并设计了相应的任务生成与调度算法,在满足数据依赖性的前提下提高任务的并行性.实验结果表明,该算法能够显著提高稀疏矩阵Cholesky分解算法在GPU上的实现效率,在单个GPU上获得了相对4核CPU平台2.69~3.88倍的加速比.  相似文献   

3.
该文提出一个针对大型实对称正定稠密方程组或复对称非Hermitian稠密方程组线性求解器的并行分布式算法。它使用了不同于ScaLAPACK的J-变量块Cholesky分解算法和一维块循环列数据分配。该算法以MPI作为消息传递库,在最多可达16个处理器的集群上针对实对称正定稠密方程组可提供与ScaLAPACK近似的浮点操作性能,并可解决一些涉及复对称非Hermitian稠密方程组的电磁场散射问题。该算法的优点是执行Cholesky分解所需的存储量只是标准并行库ScaLAPACK的一半。仿真的数值结果表明该算法是正确、有效的。  相似文献   

4.
高光谱遥感图像具有超多波段、光谱分辨率高、信息量丰富等优点,但同时也给异常探测的实时处理带来了重大考验。基于Cholesky分解的高光谱实时异常探测算法很好地解决了实时性问题,而图形处理器(GPU)的并行优化设计则更高效。实验结果表明:提出的优化设计在保证探测精度的同时,进一步提升了计算效率,算法加速比最高达到3. 14倍,说明基于GPU的并行优化算法能够较好地满足高光谱遥感图像实时处理的应用需求。  相似文献   

5.
针对基于普通PC架构的图像处理速度较慢,难以满足图像数目多、分辨率大、达不到实时性要求的问题,提出基于图形处理器(GPU)的快速图像处理方案.基于SURF算法对图像进行特征提取和特征分类,并实现GPU并行加速的图像处理.实验表明:与基于普通PC架构的图像处理方法相比,GPU的图像处理的速度提高了约5倍,性能得到显著提高...  相似文献   

6.
近年来图形处理器(GPU)快速拓展的可编程性能力加上渲染流水线的高速度及并行性,使得图形处理器通用计算(GPGPU)迅速成为一个研究热点。针对大规模神经网络BP算法效率低下问题,提出了一种GPU加速的神经网络BP算法。将BP网络的前向计算、反向学习转换为GPU纹理的渲染过程,从而利用GPU强大的浮点运算能力和高度并行的计算特性对BP算法进行求解。实验结果表明,在保证求解结果准确度不变的情况下,该方法运行效率有明显的提高。  相似文献   

7.
陈颖  林锦贤  吕暾 《计算机应用》2011,31(3):851-855
随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上.LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法.使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GP...  相似文献   

8.
沈雁  戴瑜兴 《计算机工程》2019,45(2):284-289
在OpenCL并行计算框架的clMAGMA库中,Cholesky分解算法采用大尺寸分块并行方法,不能充分利用GPU的高速局部存储器,且在计算过程中存在多次GPU-CPU间的数据传递。为此,提出采用小尺寸分块并行方法,充分利用GPU中的高速局部存储器,使矩阵子块的逆矩阵得到复用,完成对称正定矩阵的高效Cholesky分解,并且其能够应用于三维视觉光束平差问题中的大型正定矩阵的分解。实验结果表明,该方法的Cholesky分解速度比clMAGMA提升50%以上,针对光束平差问题,比Ceres Solver中使用的Eigen库速度提升约38倍。  相似文献   

9.
一种基于GPU加速的细粒度并行蚁群算法   总被引:1,自引:0,他引:1  
为改善蚁群算法对大规模旅行商问题的求解性能,提出一种基于图形处理器(GPU)加速的细粒度并行蚁群算法.将并行蚁群算法求解过程转化为统一计算设备架构的线程块并行执行过程,使得蚁群算法在GPU中加速执行.实验结果表明,该算法能提高全局搜索能力,增大细粒度并行蚁群算法的蚂蚁规模,从而提高了算法的运算速度.  相似文献   

10.
11.
针对个性化推荐中离散的评分预测问题,从更加直观的角度,提出一种改进的隐含语义二项分布模型。通过隐含语义分析构建用户的兴趣度模型,同时考虑了领域物品的隐反馈。假设用户评分基于二项分布,通过最大后验估计(MAP)构建目标函数,并用梯度下降法进行参数学习。实验表明,在Movie Lens数据集下,该算法准确度优于原始的二项矩阵分解模型(BMF),其效果接近于SVD++。  相似文献   

12.
在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算.通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过异构平台的异步并发方法进行优化,提高了求解效率.性能测试结果表明,相比于单纯MPI并行算法,优化后GPU加速的异构并行算法,在化学大分子模型电荷分布计算上,有着明显的性能优势.  相似文献   

13.
作为一种协处理,图形处理器GPU(Graphics Processing Unit)在计算密集型的任务中得到了越来越广泛的应用。但是,由于图形处理器驱动程序并不在操作系统内核中提供API,因此当操作系统内核需要利用GPU加速其工作时,就必须将计算任务转交基于用户态API(如CUDA)的用户态进程执行,这显然会增加完成计算任务所需要的额外开销。KGP(Kernel-space GPU Processing)是一种新的针对IP路由查找的技术方案,它使得操作系统内核可以直接调用GPU完成IP查找的计算,以避免将计算任务转交于用户态进程带来的开销。实验结果表明,相比用户态方案,KGP因其较低的额外开销而拥有更好的GPU计算性能,同时能提升Linux内核进行IP路由查找的性能。  相似文献   

14.
链接预测是社会网络分析中一个具有挑战性的问题。社会网络中的链接预测问题就是预测社会实体间未被发现的链接和即将演化产生的链接。已有的链接预测算法大多基于社会网络本身的拓扑结构,而忽视社会实体自身的个性化特征。针对以上问题,结合社会实体的个性化特征和社会网络的拓扑特征,提出一种基于概率矩阵分解模型的个性化链接预测算法。该算法整合了社会网络的拓扑特征和实体的个性化信息,建立概率矩阵分解模型,并通过基于梯度的优化算法对模型进行求解。在两个数据集上进行多组实验,一个是数据挖掘领域的合作者网络,另一个是电子商务消费者的信任网络。实验结果证明该算法较现有方法预测准确率有了较大提高。  相似文献   

15.
本文通过分析判断矩阵,一致性矩阵,导出矩阵及度量矩阵的关系,提出一种用度量矩阵和导出矩阵交叉加速修改AHP中的判断矩阵.当判断矩阵的一致性较差时,基于导出矩阵和度量矩阵中偏离大的元素对判断矩阵一致性的影响较大,通过度量矩阵得出加速修正的步长.每次修改判断矩阵的一对元素即可进行判断矩阵的修正.实例分析表明,交叉修正法是可行的,且可根据问题的性质,灵活确定修正的步长.  相似文献   

16.
提出了一种基于开放运算语言(OpenCL)的GPU加速三维时域有限差分(FDTD)电磁场仿真计算的方法.该方法利用图形处理单元(GPU)的并行处理特性并结合OpenCL接口标准实现了时域卷积完全匹配层(CPML)吸收边界条件的三维FDTD的高性能加速计算.首先设置FDTD仿真参数并动态申请内存空间,然后初始化OpenCL的计算参数,对三维电磁模型基于OpenCL进行FDTD加速仿真.本方法显著提升了FDTD电磁场仿真速度,与利用CPU计算相比速度提升可达5-8倍,且具有CPML吸收边界条件,可以模拟电磁波在自由空间的传播;基于OpenCL编译的语言程序可以运行在CPU或GPU硬件上,并可充分发挥多核CPU的并行计算能力,使得FDTD电磁场仿真具有更广泛的实际应用.  相似文献   

17.
研究Windows操作系统下的IOCP(输入输出完成端口)技术,提出一种改进性能的设计模型,能很好地应用于网络环境中处理多个客户端的大量文件传输情况,解决了网络考试中的数据传输问题。  相似文献   

18.
带门槛不完全Cholesky分解存在的问题与改进   总被引:10,自引:1,他引:10  
引言 许多物理应用问题求解的核心是如何高效求解稀疏线性方程组.直接解法由于在进行矩阵分解时常引入大量填充元,导致存储量与计算量一般很大,而且当系数矩阵条件数很大时,208数值计算与计算机应用2003年直接法稳定性差,使得任何中间舍入误差均可能引起最终计算结果  相似文献   

19.
锥束CT图像重建数据量巨大、运算复杂度高,重建时间长,难以满足实际应用的需求。研究基于CUDA的图形处理器加速锥束CT重建算法的方案,通过有效的并行策略来提高滤波和反投影过程的时间,并利用常数存储器和纹理存储器来提高数据访存效率。实验证明在保证重建质量的情况下,重建速度可以提高82倍。  相似文献   

20.
计算机断层扫描CT(Computed Tomography)等医学影像设备产生的投影数据巨大,因此由投影数据重建原始图像是一个需要大量计算的耗时过程。为了提高CT图像重建速度,在主流的个人计算机平台上,将基于GPU(Graphic Processing Unit)并行计算的CUDA(Compute Unified Device Architecture)技术应用于Cimmino同步迭代重建算法,并针对GPU并行架构的特点,使用CSR-ELL联合存储格式对数据的存储进行了优化以进一步提高并行效率。实验结果显示,该GPU并行Cimmino重建方法能够减少72%的图像重建时间,在保证成像质量的前提下提高了重建速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号