首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
近年来,GPU的快速发展与NVIDIA公司推出的CUDA技术,推动着GPU在高性能计算领域中的应用。研究并实现CUDA程序性能分析工具,对充分利用GPU的计算优势和提高CUDA架构下并行程序的执行性能具有重要的意义。该文分析了GPU硬件平台的特点和CUDA并行编程模型,结合CPU集群环境下并行程序的性能分析,设计并实现了一种基于指导语句的CUDA程序性能分析工具,并实验验证了其在不同GPU硬件平台上的有效性。  相似文献   

2.
为了提高Jacobi迭代法在集群中解线性方程组的计算速度,在Jacobi迭代法中引入MPI+OpenMP混合编程模型,基于该模型,在集群中实现混合并行设计,分析Jacobi迭代法并行性,在已有的串行迭代基础上,实现并行算法,可有效改善系统性能,提高计算速度。  相似文献   

3.
虚拟维度表示高光谱图像中典型地物的个数。虚拟维度的确定是高光谱图像众多应用的首要步骤。针对虚拟维度计算方法时间复杂度高的问题,根据其计算具有高度并行性的特点,该文在图形处理单元(GPU)上使用统一计算设备架构(CUDA)和它的拓展线性代数工具箱CULA及Thrust实现虚拟维度的计算,在算法并行实现的每步都做了进一步优化以获取更大的加速性能。通过在GPU设备上CUDA并行计算和CPU上非并行计算求虚拟维度的实验比较,验证了CUDA并行计算可以明显加快算法的实现。  相似文献   

4.
对于给定的线性方程组,在求数值解时常采用Jacobi、Guass-Seidel和SOR迭代法进行求解.给出了在严格对角占优条件下Jacobi、Guass-Seidel和SOR收敛的误差.在三者中Guass-Seidel迭代法的误差上界比Jacobi迭代法和SOR迭代法的误差上界小,因此采用Guass-Seidel迭代法来进行求解严格对角占优阵是一种较好的选择.  相似文献   

5.
用求解线性方程组的多参数投影法推出Jacobi迭代法和Gauss-Seidel迭代法,并指出了松弛迭代法和Gauss-Seidel迭代法的内在联系.从最优化的观点分析了Jacobi迭代法收敛速度较慢的原因,即其下降矩阵与步长向量两者并非最优组合.并对Jacobi迭代法,Gauss-Seidel迭代法具有相当的收敛速度给出了合理的解释.  相似文献   

6.
中期冲突探测(MTCD)是空中交通管制的重要决策支持工具。针对Prandini概率型中期冲突探测算法存在计算速度慢、探测精度不够高的缺点,提出基于GPU CUDA的加速算法。利用CUDA线程并行处理能力和GPU的计算能力,对算法进行了重新设计与优化。通过仿真实验,证明了在NVIDIA Geforce 8800GTS显卡上可得到50倍以上的加速性能,可以满足大型空管自动化系统20 min内中期冲突探测的实时性和精度要求。  相似文献   

7.
研究了基于CUDA(Compute unified device architecture)技术的蒙特卡洛热辐射计算算法.以油池火的火焰辐射计算为例,采用计算能力值为1.1,1.2,2.1的3种GPU为硬件,探讨了CUDA在蒙特卡洛热辐射计算中的效率.研究发现,当计算采用的线程数为最大值,线程块数为MP个数的整数倍,GPU的计算能力值较大时,计算速度可以得到较大的提升.经过优化后,在计算500万个能束数时,采用计算能力值为1.1,1.2,2.1的GPU运行时间只需0.44,0.167和0.084s,分别比单个CPU的运行时间快了62,167和333倍.结果证明对蒙特卡洛法进行CU-DA并行化改进,在保证计算精度的同时可以极大地提高计算效率.  相似文献   

8.
针对现有无线传感器网络信道仿真难以获得高效的执行性能问题,提出并实现了一个基于Nvidia的图形处理器(GPU)+CUDA计算体系的并行信道仿真系统;研发了可驻留于GPU高速片上存储的CUDA树群,以其组织节点,并加速探测可能的发包节点;建立了完全不同于传统信道仿真的CUDA并行信道仿真引擎. 实验结果表明,该系统以高达528.73倍的加速比远胜于相应的中央处理器实现,并线性扩展于网内节点数目.  相似文献   

9.
使用CUDA(compute unified device architecture,统一计算架构),利用GPU(graphic processing unit,图像处理器)强大的并行能力实现DEM(discrete element method,离散单元法)的离散粒子系统模拟仿真。邻域搜索时使用基于哈希表排序的邻域搜索算法,依据CUDA内存模型的特点对系统做出有效的内存规划,并使用CUDA流技术通过将粒子碰撞和数据输出分割成4个流异步执行,来隐藏数据拷贝的部分延迟。通过使用CUDA的事件作为GPU计时器监测,实验证明本文中的并行搜索算法的执行效率很高,而使用合理的内存策略和流技术也可以有效的提高系统盼性能。  相似文献   

10.
利用图形处理器(GPU)硬件平台进行ECC(椭圆曲线密码体制)的有关计算及其相关攻击是一个较新的研究课题,其基础在于如何应用GPU硬件平台实现大整数模乘运算。文章针对NIST提出的素域F2192-264-1,基于GPU硬件的CUDA(计算统一设备架构)计算平台提出了实现该素域模乘算法的并行方法,详细说明了该方法在GPU上的数据组织结构和执行效率。实验数据表明,基于GPU硬件平台的模乘算法的速度约是用Mircal包计算该素域模乘的1 200倍,约是用GMP包的110倍。  相似文献   

11.
随着探地雷达问题复杂度的加大以及对解释精度要求的提高,探地雷达三维正演模拟越来越重要,对高性能计算的需求也越来越大.常规三维正演模拟主要采用时域有限差分法开展,并且随着计算机技术的发展,GPU加速已经成为一种三维正演主流加速方法.但是GPU本身的显存相比CPU能利用的内存而言非常有限,要充分利用其加速性能,就需要尽量压...  相似文献   

12.
依据现代GPU在通用计算方面的功能,提出了基于Brook在GPU上执行通用计算的实现方法,运用图像分割、快速傅立叶算法和光线跟踪3个应用对该方法进行了评估。评估结果表明GPU在Brook环境下通用计算能力优于CPU。  相似文献   

13.
传统的光线投射算法能够得到清晰的体绘制图像,但由于其运行量巨大,导致速度慢,性能低。J.Krue ger等人提出了基于GPU的光线投射算法大幅度地提高了绘制性能,但在图像融合阶段仍未能充分利用GPU的向量运算的优势。为此,本文将图像融合阶段部分标量运算转换为向量和矩阵运算,绘制性能得到了进一步提升。  相似文献   

14.
为了有效使用异构多核架构强大的并行计算能力,根据硬件架构的特点重新组织数据并合理调度任务的执行是非常有必要的.提出一个基于不规则性的并行计算方法,是一个融合数据并行、任务并行、管道并行的多重并行计算方法,特别适合具有动态特征执行行为和不规则数据结构的复杂算法,能够在程序运行时根据存储局部性原则和单指令多数据流(SIMD)操作机制对任务执行进行基于优先级的动态调度和数据管理,能够最大限度地有效使用CPU和GPU的硬件计算资源和存储资源.实验结果表明,该方法能够提高图形并行绘制算法关于动态执行过程和不规则数据结构构造和维护的性能.  相似文献   

15.
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间.  相似文献   

16.
简述了基于正弦波的水波模拟的算法,重点介绍了使用GPU编程对水波进行实时模拟和渲染的方法.该方法充分利用GPU提供的可编程特性及强大的计算能力,既能绘制具有真实感的水面,又能满足实时渲染的速度要求.  相似文献   

17.
Parallel computing techniques have been introduced into digital image correlation(DIC) in recent years and leads to a surge in computation speed. The graphics processing unit(GPU)-based parallel computing demonstrated a surprising effect on accelerating the iterative subpixel DIC, compared with CPU-based parallel computing. In this paper, the performances of the two kinds of parallel computing techniques are compared for the previously proposed path-independent DIC method, in which the initial guess for the inverse compositional Gauss-Newton(IC-GN) algorithm at each point of interest(POI) is estimated through the fast Fourier transform-based cross-correlation(FFT-CC) algorithm. Based on the performance evaluation, a heterogeneous parallel computing(HPC) model is proposed with hybrid mode of parallelisms in order to combine the computing power of GPU and multicore CPU. A scheme of trial computation test is developed to optimize the configuration of the HPC model on a specific computer. The proposed HPC model shows excellent performance on a middle-end desktop computer for real-time subpixel DIC with high resolution of more than 10000 POIs per frame.  相似文献   

18.
基于气象雷达的雷暴识别与追踪是临近预报中重要的方法之一. 为解决传统算法实时性差的问题,运用OpenCL构建异构计算模型对算法进行并行化改进. 通过对算法分支结构优化、OpenCL设备内存优化,以及针对VLIW的优化,分步阐述算法优化的过程和原理. 这些方法不仅使得基于光流的计算速度大幅提升,还可为其他基于OpenCL异构计算的优化提供参考. 以AMD两代不同架构的GPU和Intel XEON CPU作为测试平台测试,结果表明,改进后的算法程序在硬件同等功耗的情况下,计算速度提高了10至18倍.  相似文献   

19.
To take advantage of the high speed parallel feature of the GPU and the parallel section in the regular LDPC codes decoding process, a method is proposed by which the GPU is used to accelerate decoding of regular LDPC codes. In this method, edges of nodes are used in parallel decoding instead of nodes themselves to improve the utilization of threads. At the same time, the use of the high-speed on-chip GPU memory-shared memory and registers to store data makes data reduce dependence on global memory and shorten access time. Simulation results show that, by using parallel computing on edges and the on-chip memory, the decoding speed can be 5.32 ~ 10.41 times relative to the LDPC codes decoding program that does not use the optimization method of this paper based on the GPU.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号