首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
稀疏矩阵Cholesky分解是求解大规模稀疏线性方程组的核心算法,也是求解过程中最耗时的部分.近年来,一系列并行算法通过图形处理器(GPU)获得了显著的加速比,然而,由于访存的不规则性以及任务间的大量数据依赖关系,稀疏矩阵Cholesky分解算法在GPU上的计算效率很低.文中实现了一种新的基于GPU的稀疏矩阵Cholesky分解算法.在数据组织方面,改进了稀疏矩阵超节点数据结构,通过超节点合并和分块控制计算粒度;在计算调度方面,将稀疏矩阵Cholesky分解过程映射为一系列的数据块任务,并设计了相应的任务生成与调度算法,在满足数据依赖性的前提下提高任务的并行性.实验结果表明,该算法能够显著提高稀疏矩阵Cholesky分解算法在GPU上的实现效率,在单个GPU上获得了相对4核CPU平台2.69~3.88倍的加速比.  相似文献   

2.
解大型稀疏线性方程组的一种有效并行ICCG法   总被引:6,自引:0,他引:6  
该文分析了不完全Cholesky分解预处理共轭梯度(ICCG)法各部分的计算量,给出了占ICCG法主要计算时间的解预处理方程的并行算法,它既有比目前迭代算法快的收敛速度,又有较好的并行度。  相似文献   

3.
重开始广义极小残量法(GMRES)是求解大规模线性方程组的常用算法之一,具有收敛速度快、稳定性好等优点.文中基于CUDA将GMRES算法在GPU上进行并行算法实现,尤其针对稀疏矩阵矢量乘法运算,通过合并访问和共享内存策略相结合的手段使得算法效率大幅度提升.对于大规模数据集,在GeForce GTX 260上的运行结果相对于Intel Core 2 Quad CPU Q9400@2.66GHz得到了平均40余倍的加速效果,相对于Intel Core i7 CPU 920@2.67 GHz也可得到平均20余倍的加速效果.  相似文献   

4.
基于有限元总刚矩阵的大规模稀疏性、对称性等特性,采用全稀疏存储结构以及最小填入元算法,使得计算机的存储容量达到最少。为了节省计算机的运算时间,对总刚矩阵进行符号LU分解方法,大大减少了数值求解过程中的数据查询。这种全稀疏存储结构和符号LU分解相结合的求解方法,使大规模稀疏线性化方程组的求解效率大大提高。数值算例证明该算法在时间和存贮上都较为占优,可靠高效,能够应用于有限元线性方程组的求解。  相似文献   

5.
本文分析了大型稀疏矩阵线性方程组直接法求解的回代过程.基于改进的树结构(M—tree),提出了一种新的面向分布存储多机系统的稀疏三角矩阵线性系统并行Forward求解算法MPFS.文中讨论了M—tree的结构特征,并将所提出的并行求解算法与基于Elimination—tree求解算法进行了分析和比较.结果表明,MPFS算法不仅适用于更多的稀疏矩阵系统,而且在求解过程中可以开发Elimination—tree算法不能开发的计算并行性,从而使求解性能得到显著改进.  相似文献   

6.
关键路径的稀疏矩阵求解算法   总被引:4,自引:0,他引:4  
张春生 《计算机应用》2006,26(3):529-0530
求解AOE网的关键路径算法一般基于拓扑排序,虽然具有较好的时间复杂度(O(n+e)),但由于必须进行拓扑排序,同时还要进行拓扑逆序扫描,使得算法本身比较复杂。针对这个问题提出了一个算法,算法采用了稀疏矩阵作为数据的存储结构,为防止关键路径丢失,采用队列方式进行操作。同经典算法相比,该算法简单,时间复杂度相近(O(n+e/n))。  相似文献   

7.
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有“带状”、稀疏的特点。针对“带状”稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共扼梯度(CG)与稳定双共扼梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。  相似文献   

8.
新预处理ILUCG法求解稀疏病态线性方程组   总被引:3,自引:0,他引:3  
大型稀疏病态线性方程组的高效求解在科学计算和工程应用中起着十分重要的作用.对于一般非对称正定的非奇异线性代数方程组,首先介绍常用的不完全LU分解预处理矩阵构造技术;然后给出SSOR预处理分解及其改进分解,并基于ILUCG思想提出新预处理ILUCG法同时给出收敛性分析;最后进行数值模拟仿真试验,数值结果表明该算法是有效可行的,且较之一般的预处理ILUCG方法该法在求解稀疏病态方程组方面具有优越性.  相似文献   

9.
在Krylov子空间方法日益流行的今天,提出了又一求解大型稀疏线性方程组的Krylov子空间方法:灵活的IMinpert算法(即FIMinpert算法)。FIMinpert算法是在Minpert算法的截断版本即IMinpert算法的基础上结合右预处理技术,对原方程组作某些预处理来降低系数矩阵的条件数,从而大大加快迭代方法的收敛速度。给出了新算法的详细的理论推理过程和具体执行,并且通过数值实验表明,FIMinpert算法的收敛速度确实比IMinpert算法和GMRES算法快得多。  相似文献   

10.
分析数字图像信号的稀疏特征,引入基于稀疏表示的图像修复是一种新颖的图像修复方法,充分结合现有的图像修复技术的研究成果,给出图像的稀疏表示模型及应用时的约束条件,提出面向图像修复的稀疏模型和常见参数选择,并利用Split Bregman进行了数值求解。该算法具有计算简单,易于实现,光滑性和结构信息等图像的基本特征刻画满足应用要求,可广泛应用于图像去噪,退化图像复原等应用,实验结果表明,本算法修复结果信噪比低,视觉效果优于同类方法。  相似文献   

11.
一种基于压缩矩阵的Apriori算法改进研究   总被引:1,自引:0,他引:1  
罗丹  李陶深 《计算机科学》2013,40(12):75-80
针对已有基于矩阵的Apriori算法存在的问题,提出了一种改进的基于压缩矩阵的Apriori算法。算法进行了以下方面的改进:增加了两个数组,分别用于记录矩阵行与列中1的个数,使得算法在压缩矩阵时减少了扫描矩阵的次数;在压缩矩阵中,通过增加删除不能连接的项集和非频繁的项集的操作,使得矩阵压缩得更小,提高了空间效率;改变了删除事务列的条件和算法结束的条件,以减少挖掘结果的误差和算法循环的次数。算法性能分析和实验分析证明,改进后的算法能有效地挖掘频繁项集,并且比现有的算法具有更高的计算效率。  相似文献   

12.
In many scientific applications, dynamic data redistribution is used to enhance algorithm performance and achieve data locality in parallel programs on distributed memory multi-computers. In this paper, we present a new method, Compressed Diagonals Remapping (CDR) technique aims to the efficiency of runtime data redistribution on banded sparse matrices. The main idea of the proposed technique is first to compress the source matrix into a Compressed Diagonal Matrix (CDM) form. Based on the compressed diagonal matrix, a one-dimensional local and global index transformation method can be applied to carry out data redistribution on the compressed diagonal matrix. This process is identical to redistribute data in the two-dimensional banded sparse matrix. The CDR technique uses an efficient one-dimensional indexing scheme to perform data redistribution on banded sparse matrix. A significant improvement of this approach is that a processor does not need to determine the complicated sending or receiving data sets for dynamic data redistribution. The indexing cost is reduced significantly. The second advantage of the present techniques is the achievement of optimal packing/unpacking stages consequent upon the consecutive attribute of column elements in a compressed diagonal matrix. Another contribution of our methods is the ability to handle sparse matrix redistribution under two disjoint processor grids in the source and destination phases. A theoretical model to analyze the performance of the proposed technique is also presented in this paper. To evaluate the performance of our methods, we have implemented the present techniques on an IBM SP2 parallel machine along with the v2m algorithm and a dense redistribution strategy. The experimental results show that our technique provides significant improvement for runtime data redistribution of banded sparse matrices in most test samples.  相似文献   

13.
压缩感知重构信号时,在感知过程中如何选定支撑集对算法的重构性能至关重要.基于压缩采样匹配(CoSaMP)重构算法,引入Dice系数匹配性度量准则,优化了支撑集的选择.上述算法改进了从给定的观测矩阵中挑选与残差信号最匹配原子的匹配准则,体现了残差信号中各个元素对原子选取的重要作用.仿真结果表明:在同等稀疏的条件下,重构算法与传统的CoSaMP算法相比,误差低于传统CoSaMP算法,且随着观测维数的增加,重构信号的平均成功概率比传统的CoSaMP算法的大,实现了较小的重构误差和更好的压缩性能.  相似文献   

14.
基于非局部相似模型的压缩感知图像恢复算法   总被引:2,自引:0,他引:2  
针对压缩感知(Compressed sensing, CS)图像恢复问题, 提出了一种基于非局部相似模型的压缩感知恢复算法, 该算法将传统意义上二维图像块的稀疏性扩展到相似图像块组在三维空间上的稀疏性, 在提高图像表示稀疏度的同时进一步提高了压缩感知图像恢复效率, 恢复图像在纹理和结构保持方面都得到了很大的提升. 在该算法模型求解过程中, 使用增广拉格朗日方法将受限优化问题转换为非受限优化问题, 为减少计算复杂度, 还使用了基于泰勒展开的线性化技术来加速算法求解. 实验结果表明, 该算法的图像恢复性能优于目前主流的压缩感知图像恢复算法.  相似文献   

15.
王晞阳  陈继林  李猛  刘首文 《计算机工程》2022,48(7):199-205+213
在电力系统仿真中,大型稀疏矩阵的求解会消耗大量存储和计算资源,未有效利用矩阵的稀疏性将导致存储空间浪费以及计算效率低下的问题。当前关于稀疏矩阵求解算法的研究主要针对众核加速硬件,聚焦于挖掘层次集合的并行度以提升算法的并行效率,而在众核处理器架构上频繁地进行缓存判断及细粒度访问可能导致潜在的性能问题。针对基于现场可编程门阵列(FPGA)的下三角稀疏矩阵求解问题,在吴志勇等设计的FPGA稀疏矩阵求解器硬件结构的基础上,提出一种静态调度求解算法。通过对稀疏矩阵进行预处理,设计数据分布和指令排布流程,将下三角稀疏矩阵的求解过程静态映射到多个FPGA片上的处理单元,以实现下三角稀疏矩阵在FPGA上的并行高速求解。将串行算法中所有的隐式并行关系排布到缓冲中,使得所有计算单元都能实现计算、访存和单元间通信的高效并行,从而最大限度地利用FPGA的硬件资源。典型算例上的测试结果表明,相较传统的CPU/GPU求解算法,该算法能够实现5~10倍的加速效果。  相似文献   

16.
TFQMR算法是一种Krylov子空间算法,常用来求解大型稀疏线性方程组.通过改变TFQMR算法的计算次序,提出了一种改进的TFQMR(ITFQMR)算法.对比TFQMR算法,ITFQMR算法的数值稳定性和TFQMR算法相同,几乎没有增加计算量,但考虑了在MIMD并行机上实现时并行算法的性能,其同步开销减少为TFQMR算法的一半,并且所有内积计算以及矩阵向量乘是独立的,没有数据相关性,可以进行计算与通信的重叠.从理论和实验两个角度来讨论ITFQMR算法的性能,当处理机台数较多时,ITFQMR算法的计算速度快于TFQMR算法.实验说明了在有64台处理机机群上进行,最快的并行ITFQMR算法的计算速度大约比TFQMR算法快20%.  相似文献   

17.
基于压缩稀疏矩阵矢量相乘的文本相似度计算   总被引:4,自引:0,他引:4  
在信息检索矢量模型的基础上.提出了一种基于压缩稀疏矩阵矢量相乘的文本相似度计算方法,具有矢量模型计算简单和速度快的特点.该方法采用压缩稀疏矩阵矢量空间存储数据,在相似度计算和数据存储时不需要考虑文本矢量矩阵中的零元素,大大减少了计算量和存储空间,从而使信息检索系统运行效率显著提高.仿真实验表明,上述方法比基于矢量模型的传统反向索引机制节省了38%的存储空间.  相似文献   

18.
在ISAR成像中,某些雷达目标的部件存在旋转运动,会对目标主体信息产生干扰导致目标成像质量下降,严重时甚至无法实现成像。本文结合压缩感知理论提出了一种含旋转部件目标成像方法。在成像时间内,由于目标主体部件相对于成像区域的位置保持不变,而旋转部件的位置在不断变化,因此,对回波信号运用压缩感知理论可得到目标主体部件的信息,从而有效剔除了旋转部件带来的影响并且大幅减少了回波数据量。最后仿真结果验证了该方法的有效性,并对其抗噪性能进行了一定的分析。  相似文献   

19.
一种在H.261算法压缩域中的多画面合成算法   总被引:3,自引:0,他引:3  
提出一种在压缩域中实现多画面合成的算法:详细地论述了一种4画面合成方法,包括合成原理、合成算法以及程序实现,最后给出了本算法的实验结果,并和模拟域的实现方法进行了比较,合成质量提高以及实现成本降低。  相似文献   

20.
针对人脸识别对遮挡、表情和光照的鲁棒性问题,提出基于PCA特征基压缩传感算法的人脸识别方法。利用双向二维主成分分析提取图像行列2个方向的特征并进行降维,建立反映人脸特征投影矩阵,作为压缩传感算法的超完备基。通过求解最小化l1范数,寻求图像在该超完备基上的稀疏表示,以得到一组最优稀疏系数重构各类图像,求取测试图像与各类重构图像的最小残差进行分类识别。实验结果表明,该方法在较低的人脸特征维数下具有较高的人脸识别率,能有效提高人脸识别对遮挡、表情和光照的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号