首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
FFT(快速傅里叶变换)是基于提高DFT(离散傅里叶变换)计算的高效算法,它在众多科学和工程领域都得到了广泛的应用。自FFT算法出现以后,从早期的以降低复杂度到近年以来的大规模并行FFT计算,各种优化算法得到广泛的研究。在并行运算领域中,随着可编程的、并行化GPU的不断推广,特别是通用并行统一计算架构CUDA的出现,极大增强了GPU的计算能力,在编程和优化等方面都有显著地提升。鉴于此,本文在分析FFT算法实现的基础上,研究了一种适合GPU运算的FFT并行计算方法,并通过CUDA架构实现了FFT算法在GPU上的运算。该方法的引入在理论不计算数据传输的情况下,使一维FFT运算时间的复杂度由O(N logN2)可以降到O(N/rlogN2)。通过验证,本文提出的CUDA的并行FFT方法得到较好的加速效果,在精度计算上也符合实际的要求,从而证明了该方法的正确性和有效性。  相似文献   

2.
针对惯性约束聚变(ICF)间接驱动对称性分析中靶自身遮挡判断困难、表面辐射能流计算效率低等问题,提出了基于CUDA的靶丸辐射能流并行计算方法.该方法以两区近似均匀模型为基础,利用四叉树结构对靶离散单元进行层次化表示,再根据包围盒的相交判断快速剔除遮挡单元;通过单元视角因子计算过程到GPU各运算线程的映射,实现了靶丸辐射能流计算的并行化.实验结果表明,在保证同样计算精度的同时,文中算法平均加速比在考虑遮挡时为15,不考虑遮挡时为400,具有较高的计算效率.  相似文献   

3.
张润梅  王霄 《计算机科学》2011,38(2):302-305
由于内存、运算速度以及磁盘空间的限制,暴力破解MD5几乎无法在PC机上实现。CUDA意在使GPU的超高计算性能在数据处理和科学计算等通用计算领域发挥优势。主要研究基于CUD八架构的MD5破解方法,并使用VS2005与NVCC进行混合编译。实验选择在GeForce9600UT显卡和四核CPUQ660。上分别运行所提程序和标准C语言版程序。结果表明,在高计算负荷与巨量数据情况下,中低端显卡的计算速度比高端CPU高30~50。倍。CUDA使GPU流处理器阵列的性能得到充分发挥,极大地提高了并行计算程序的效率。  相似文献   

4.
本文首先从当今多核微处理器的发展趋势出发,介绍适用于多核微处理器的细粒度并行编程模型CUDA,以及其适用于“并行计算”课程教学的一系列优势,接着对当前可用的几种并行编程模型进行分析和比较,最后给出采用CUDA编程模型的一个矩阵与矩阵相乘的教学实例。  相似文献   

5.
并行计算水下大尺度弹性壳体的低频声散射   总被引:2,自引:0,他引:2  
有限元与边界元耦合模型是研究水下弹性壳体目标低频声散射常用的数值方法。应用该模型计算大尺度弹性目标的声散射时需要大量的计算时间与存储空间,采用并行数值的方式可以解决这一问题。首先并行计算生成有限元矩阵和边界元矩阵,然后应用并行化的广义极小残差(GMRES)迭代算法求解大型非对称线性方程组。详细叙述了并行GMRES(m)迭代算法的执行过程,并以球壳的声散射计算为例分析了迭代步数对算法收敛情况的影响。最后计算了Benchmark目标模型的低频散射声场,分析了其收发分置散射目标强度以及表面声场的分布。  相似文献   

6.
超声弹性模式成像是新兴高端超声成像系统中出现的新型成像模式,与传统的黑白超,彩超成像模式不同,它能够为临床诊断提供组织器官的硬度信息.弹性成像模式可以帮助医生定性和定量地检测组织的弹性值变化,特别是对一些肿瘤疾病如乳腺癌等的早期检测有巨大的推动作用,因此,这一新型检测手段具有十分重大的临床应用价值.但是弹性成像系统在处理时涉及大量的复杂运算,使其难于在临床实时系统中得到应用,为此文章研究并提出一种基于CUDA(Compute Unified Device Architecture,统一计算设备架构)平台的超声弹性成像模式并行处理算法.算法包括了信号预处理,运动计算,应变估计和图像后处理与显示等处理步骤的并行实现.由弹性体模得到的数据实验表明,基于CUDA的超声弹性成像处理结果与基于CPU的实现相比,不仅可以得到相同质量的显示图像,而且可以取得较大的加速效果,满足实时系统需求,文章的数据测试显示对于256×512的信号数据能够达到63fps的帧率,速度提高了85倍.  相似文献   

7.
针对混联运动机床开发中所采用的2 自由度平面运动并联机构部分进行了深入的研究.介绍了该平面 运动并联机构的组成,推导了并联机构的运动学正、逆解求解公式,求解了该机构的被动关节.基于边界元法对该 机构的受力情况进行了建模和解析,给出了每个杆件的受力情况.通过ADAMS 仿真验证了求解的正确性,为该机 构的设计开发奠定了基础.本文的分析方法也为并联机构的静力学解析提供了新的思路和方法.  相似文献   

8.
CUDA并行程序的内存访问优化技术研究   总被引:2,自引:0,他引:2  
对统一计算设备架构CUDA技术进行了研究,分析了CUDA体系结构及其内存访问机制的显著特点,总结了CUDA并行程序常见的内存访问问题,针对全局内存的非对齐访问和共享内存的访问冲突,提出了相应的内存访问优化策略;最后,利用直方图均衡算法对此优化技术进行了测试,对比了优化前后的程序执行时间;实验结果表明,利用此优化技术可以大大缩短CUDA程序的执行时间,并且图像像素越大,优化效果越好。  相似文献   

9.
传统的车牌识别研究主要目的是提高识别准确率.利用CUDA技术在准确率不降低的情况下实现识别速度的提高.为此,对常用的SVM分类方法进行改进,使其能够在GPU上实现并行计算,再利用改进后的SVM训练和预测车牌字符数据.实验结果表明,相对于运行在CPU上的LIBSVM方法,经过改进的在GPU上运行的SVM方法能够带来1-30倍训练速度和50-72倍预测速度的提高,且随着样本数量的增加,加速效果会更加显著.  相似文献   

10.
为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。  相似文献   

11.
k-means算法在面对大规模数据集时,计算时间将随着数据集的增大而成倍增长。为了提升算法的运算性能,设计了一种基于CUDA(Compute Unified Device Architecture)编程模型的并化行k-means算法,即GS_k-means算法。对k-means算法进行了并行化分析,在距离计算前,运用全局选择判断数据所属聚簇是否改变,减少冗余计算;在距离计算时,采用通用矩阵乘加速,加快计算速度;在簇中心点更新时,将所有数据按照簇标签排序分组,将组内数据简单相加,减少原子内存操作,从而提高整体性能。使用KDDCUP99数据集对改进算法进行实验,结果表明,在保证实验结果的准确性的情况下,改进算法加快了计算速度,与经典的GPUMiner算法相比加速比提升5倍。  相似文献   

12.
计算划分问题是并行编译中最为重要的问题之一.针对并行循环,在数据分布确定的情况下,提出了基于规范集的计算划分算法,具体讨论了规范集的获取方法及综合通信与负载均衡的最优方案选取算法.实验表明,在并行循环处理方面,这一算法与以前几种算法相比更加简单、有效;采用这一算法的p_HPF编译器对数据并行应用问题可以获得良好的加速比和效率.该编译器已在石油领域得到应用.  相似文献   

13.
We present an efficient implementation of 7-point and 27-point stencils on high-end Nvidia GPUs. A new method of reading the data from the global memory to the shared memory of thread blocks is developed. The method avoids conditional statements and requires only two coalesced instructions to load the tile data with the halo (ghost zone). Additional optimizations include storing only one XY tile of data at a time in the shared memory to lower shared memory requirements, common subexpression elimination to reduce the number of instructions, and software prefetching to overlap arithmetic and memory instructions, and enhance latency hiding. The efficiency of our implementation is analyzed using a simple stencil memory footprint model that takes into account the actual halo overhead due to the minimum memory transaction size on the GPUs. Through experiments we demonstrate that in our implementation the memory overhead due to the halos is largely eliminated by good reuse of the halo data in the memory caches, and that our method of reading the data is close to optimal in terms of memory bandwidth usage. Detailed performance analysis for single precision stencil computations, and performance results for single and double precision arithmetic on two Tesla cards are presented. Our stencil implementations are more efficient than any other implementation described in the literature to date. On Tesla C2050 with single and double precision arithmetic our 7-point stencil achieves an average throughput of 12.3 and 6.5 Gpts/s, respectively (98 GFLOP/s and 52 GFLOP/s, respectively). The symmetric 27-point stencil sustains a throughput of 10.9 and 5.8 Gpts/s, respectively.  相似文献   

14.
相对于一致加密网格,SAMR网格可以在保持相同数值模拟精度的前提下,大幅度减少网格数目,缩短计算时间。针对惯性约束聚变中的流体力学不稳定性数值模拟,基于JASMIN框架研制了二维多介质流体力学并行SAMR应用程序。在数百个CPU核上模拟了压缩内爆模型,数值模拟结果和并行性能分析显示了应用程序的正确性和并行实现的高效率。  相似文献   

15.
张杰  柴志雷  喻津 《计算机科学》2015,42(10):297-300, 324
特征提取与描述是众多计算机视觉应用的基础。局部特征提取与描述因像素级处理产生的高维计算而导致其计算复杂、实时性差,影响了算法在实际系统中的应用。研究了局部特征提取与描述中的关键共性计算模块——图像金字塔机制及图像梯度计算。基于NVIDIA GPU/CUDA架构设计并实现了共性模块的并行计算,并通过优化全局存储、纹理存储及共享存储的访问方式进一步实现了其高效计算。实验结果表明,基于GPU的图像金字塔和图像梯度计算比CPU获得了30倍左右的加速,将实现的图像金字塔和图像梯度计算应用于HOG特征提取与描述算法,相比CPU获得了40倍左右的加速。该研究对于基于GPU实现局部特征的高速提取与描述具有现实意义。  相似文献   

16.
介绍一种基于并行计算的安全认证服务器系统,给出该系统的算法模型。认证服务器的并行环境采用主从模式,私钥分段按照一定顺序存放到各个物理节点中,主节点控制认证流程及私钥发放,从节点保存私钥及密钥计算。在算法模型的基础上实现原型系统,对该方案的安全性能进行了评价。实验结果表明该方案具有抗攻击能力强、认证速度快和结构稳定的特点。  相似文献   

17.
为提升高级加密标准(AES)的加密性能,利用显卡的通用计算能力,在统一计算设备架构(CUDA)平台上实现AES的128位、192位和256位3个版本的GPU并行算法,并提出优化的AES并行算法。在考虑块内线程数量、共享存储器容量和总块数的基础上,根据分块最优值的经验数据指导AES算法在GPU上的最优分块。实验结果表明,与未优化的AES并行算法相比,该算法的3个版本在Nvidia Geforce G210显卡上的加密速度分别提高5.28%,14.55%和12.53%,而在Nvidia Geforce GTX460显卡上的加密速度分别提高12.48%,15.40%和15.84%,且能更好地对SSL数据进行加密。  相似文献   

18.
CUDA下受体评分网格生成并行算法   总被引:1,自引:0,他引:1  
针对分子对接中生成评分网格需要花费很多的计算时间这一问题, 提出了一种基于统一计算设备架构(CUDA)的评分网格生成并行算法。该算法把传统计算方法中三维计算空间中的一维通过在图形处理单元(GPU)上进行并行处理, 使得总生成时间得到了降低, 提高了评分网格的生成效率。实验结果表明, 借助于GPU的浮点计算能力, 提出的并行算法对比传统的计算方法可以显著缩短评分网格的生成时间, 为评分网格的生成提供一种新的方式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号