首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
现代CPU拥有强大的计算能力.文中提出了利用GPU解决高性能计算的问题,包括GPU编程的方法、高性能计算问题的划分原则等.实验表明,CPU高性能计算相比多核CPU具有更高的效率.  相似文献   

2.
在短波中进行相关干涉仪测向,往往需要对众多信号逐一地进行相关和二维谱峰搜索运算,这在一般的通用计算平台很难保证算法的实时性。在对频域相关干涉仪测向算法进行研究的基础上,利用CUDA在GPU运算平台上将算法分为FFT运算、数据校正、相关运算和谱峰搜索4个模块,并采用CUDA库函数、优化矩阵乘法、规约算法和流技术实现其并行化处理,有效降低了算法耗时。在GTX680平台上测试,结果表明与采用IPP多核技术的CPU相比,具有较高的加速比。  相似文献   

3.
使用CUDA(compute unified device architecture,统一计算架构),利用GPU(graphic processing unit,图像处理器)强大的并行能力实现DEM(discrete element method,离散单元法)的离散粒子系统模拟仿真。邻域搜索时使用基于哈希表排序的邻域搜索算法,依据CUDA内存模型的特点对系统做出有效的内存规划,并使用CUDA流技术通过将粒子碰撞和数据输出分割成4个流异步执行,来隐藏数据拷贝的部分延迟。通过使用CUDA的事件作为GPU计时器监测,实验证明本文中的并行搜索算法的执行效率很高,而使用合理的内存策略和流技术也可以有效的提高系统盼性能。  相似文献   

4.
采用CUDA架构对GPU进行编程,对粒子模拟过程中的邻域搜索方法进行了优化,采用并实现了一种基于非排序的邻域搜索方案。通过良好的任务划分和较少的数据交互,设计并实现了一种双GPU的模拟方案。结果分析得知:非排序的邻域搜索方案在粒子数低于10万时总模拟时间降低近50%,粒子数超过50万时降低12%,双GPU在粒子数超过50万时计算时间降低16%,且粒子数愈多性能愈好。  相似文献   

5.
在分析基于CPU GPU异构计算模式程序开发面临的主要挑战和当前解决途径的基础上,设计了一种适用于GPU集群环境的、综合利用MPI、OpenMP、CUDA以及OpenGL API开发技术的混合编程模型,重点分析了混合编程模型的两种编程方式的实现原理,搭建了相应的实验环境并进行了对比测试。实验结果表明,使用混合编程模型设计的程序具有良 好的性能表现和扩展潜力。  相似文献   

6.
为了提高复杂植物生长模拟的性能,结合虚拟器官网络和图形处理器(GPU)技术提出植物生长模拟方法.该方法采用虚拟器官网络作为植物生长模型,用于描述植物器官的生理属性和形态属性、植物器官间的关系、环境对植物器官的影响以及植物器官的生长规则.利用GPU架构的优势,以并行计算的方式实现植物生长演化和植物形态展现,从而提高植物生长模拟的计算速度.实验结果证明,采用该方法不仅能够模拟植物的生长,而且相对基于CPU的串行植物生长演化和形态展现有性能上的优势.  相似文献   

7.
中期冲突探测(MTCD)是空中交通管制的重要决策支持工具。针对Prandini概率型中期冲突探测算法存在计算速度慢、探测精度不够高的缺点,提出基于GPU CUDA的加速算法。利用CUDA线程并行处理能力和GPU的计算能力,对算法进行了重新设计与优化。通过仿真实验,证明了在NVIDIA Geforce 8800GTS显卡上可得到50倍以上的加速性能,可以满足大型空管自动化系统20 min内中期冲突探测的实时性和精度要求。  相似文献   

8.
提出一种NVIDIA CUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。  相似文献   

9.
针对运用RSA算法生成防伪二维码过程中,因大数的模幂运算导致效率低下的问题,利用GPU在多线程并行计算中的优势,将大数的模幂运算转化为小整数的多阶段的并行模幂运算,采用多线程技术对分解后的小数进行处理,最终合并运算结果,生成相应的防伪二维码。通过一系列实验对改进前后的二维码生成时间进行对比,结果表明改进后的方案能有效地提升防伪二维码系统的运行效率。  相似文献   

10.
在康普顿背散射成像中,射线源和探测器放置于物体同侧,无需旋转即可重建出物体内部断层图像。但康普顿背散射图像重建算法计算复杂度较高,重建耗时较长。根据康普顿背散射图像有序子集最大期望法(ordered subsets expectation maxization,OSEM)重建算法的执行特点,设计了适合算法正投影和反投影的并行策略进行GPU加速。重建结果表明,所使用的加速策略能够在保证重建图像质量的同时获得较高的加速比。  相似文献   

11.
针对传统的基于中央处理器的变指数PM模型图像去噪算法运算量大的问题,提出了一种基于图形处理器(Graphic Processing Unit,GPU)加速的变指数PM去噪方法.该方法充分利用GPU中共享存储器和常数存储器在速度上的优势,引入GPU硬件加速工具和使用统一计算设备架构(Compute Unified Device Architecture,CUDA)对变指数PM模型进行了并行加速.并且采用球栅阵列结构的印刷电路板(Ball Grid Array,BGA)射线图像对新方法进行了测试.实验结果表明:所提的快速变指数PM去噪方法能够在有效地去除噪声的同时很好地保持图像的边缘信息;而且,图像越大,加速比越大,加速的优势越明显.可见,所提的快速去噪算法在BGA射线检测方面有很好地应用前景.  相似文献   

12.
为了提高GRAPES数值天气预报模式的计算效率,改善动力框架部分的性能,针对广义共轭余差算法(GCR)求解赫姆霍兹方程在GRAPES模式中耗时较大的问题,提出了一种基于CPU+GPU异构并行的预处理广义共轭余差算法。采用不完全LU分解对系数矩阵进行预处理来减少迭代次数,在此基础上实现了OpenMP的细粒度并行和MPI粗粒度并行,OpenMP并行主要是采用循环展开的方式对程序中无数据依赖的循环体使用编译制导来提高程序的性能;MPI并行主要是将数据划分给各个进程,采用非阻塞通信和优化进程通信数据量的方式来提高并行程序的可拓展性。实现了MPI+CUDA异构并行,MPI负责节点间进程通信以及迭代控制,CUDA负责处理计算密集型任务,将GCR中耗时较大的矩阵计算部分移植到GPU上处理,采用访存优化和数据传输优化来减少CPU和GPU间的数据传输开销。实验结果表明:与串行程序相比,OpenMP并行加速比为2.24,MPI并行加速比为3.32,MPI+CUDA异构并行加速比为4.69,实现了异构平台上的广义共轭余差算法性能优化,提高了程序的计算效率。  相似文献   

13.
GPU在SPH方法模拟溃坝问题的应用研究   总被引:1,自引:0,他引:1  
SPH方法是一种无网格的粒子方法,对于求解强非线性水动力学问题具有重要意义。随着粒子数增加,该方法的计算效率成为限制其大规模工程应用的重大瓶颈。可将大规模并行计算引入SPH方法中,以得到良好的计算加速效果。采用将GPU运用于SPH方法并行计算的技术,借助CUDA硬件计算架构,研究SPH方法的并行计算通用性问题。以二维溃坝问题作为数值算例,对GPU计算结果的稳定性和收敛性进行验证,比较CPU与GPU的计算效率。通过计算,验证了GPU在SPH方法并行计算应用中的可靠性、可行性以及高效性,为提高SPH方法的计算效率提供一种重要的参考途径。  相似文献   

14.
使用八方向Gabor滤波器进行指纹图像增强可以取得良好的处理效果,但占用处理时间较长,因此提出一种通过计算方向不一致因子来减少不必要的方向滤波方法.首先针对Gabor滤波器对方向和频率十分敏感问题,综合点方向图和块方向图的优点,通过利用低通滤波来提高方向图的准确性.其次针对滤波时间问题,提出根据方向不一致因子而有选择地进行八方向Gabor滤波.并通过将二维加博滤波转换成一维滤波器组来减少滤波器的复杂度.实验结果表明,该算法能有效提高滤波效果并减少滤波时间.  相似文献   

15.
基于通用图形处理器的Jacobi算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
迭代法解线性方程组在工程和科学计算的各个领域都有着十分广泛的应用。文章介绍了Jacobi迭代法在支持CUDA的GPU上的映射以及实现。实验结果表明,Jacobi算法适合CUDA的计算架构,能够有效地利用GPU计算能力,获得良好的性能。  相似文献   

16.
传统的光线投射算法能够得到清晰的体绘制图像,但由于其运行量巨大,导致速度慢,性能低。J.Krue ger等人提出了基于GPU的光线投射算法大幅度地提高了绘制性能,但在图像融合阶段仍未能充分利用GPU的向量运算的优势。为此,本文将图像融合阶段部分标量运算转换为向量和矩阵运算,绘制性能得到了进一步提升。  相似文献   

17.
基于气象雷达的雷暴识别与追踪是临近预报中重要的方法之一. 为解决传统算法实时性差的问题,运用OpenCL构建异构计算模型对算法进行并行化改进. 通过对算法分支结构优化、OpenCL设备内存优化,以及针对VLIW的优化,分步阐述算法优化的过程和原理. 这些方法不仅使得基于光流的计算速度大幅提升,还可为其他基于OpenCL异构计算的优化提供参考. 以AMD两代不同架构的GPU和Intel XEON CPU作为测试平台测试,结果表明,改进后的算法程序在硬件同等功耗的情况下,计算速度提高了10至18倍.  相似文献   

18.
为解决传统可视化方法无法有效跳过具有空腔结构数据集的中空体素的问题,提出一种基于GPU的面向中空结构体数据的光线投射法.在进行光线投射之前,首先把体数据对半剖分成两部分,对此两部分分别使用八叉树进行重构,并同时剔除空块,建立起各自新的有效数据块的顶点集合;然后使用GPU对顶点集合进行渲染,生成光线起点和方向等信息;最后利用CUDA对重构后的两部分体数据依次进行光线投射和颜色累积,将其结果合成后得到最终图像.实验结果表明,这种方法生成的图像质量与传统的可视化方法相比没有损失,但对具有较多空腔结构的体数据,则可以快速跳过中空体素,具有非常明显的加速效果.  相似文献   

19.
基于动态全局特性的指纹匹配算法的研究   总被引:6,自引:0,他引:6  
针对现有匹配算法中存在的问题,在已有结构化匹配方法的基础上加以改进,提出一种分段式匹配方法,并就特征向量的构造作出详细介绍。经实验证明该方法有效而快速,可应用于实际的指纹自动识别系统中。  相似文献   

20.
由于图像集规模巨大、匹配信息丰富,快速精准多视图立体匹配受计算效率严重制约。针对该问题,提出一种基于GPU的快速半全局优化深度图计算方法。首先,在CPU上通过平面扫描方法计算单张图像初始匹配代价。然后,提出GPU半全局优化并行计算架构,对匹配代价进行聚合,其核心算法为:在全局进行各方向聚合任务流并行以提升众核处理器的利用率;在局部通过将各像素计算任务准确分配到各线程块内实现并行处理,且注重GPU上数据重用以避免带宽限制。再通过GPU滤波剔除突变点进行图像增强。最后,将3维空间点在各深度图像上的一致性作为异常值检测和优化的约束条件。在多组数据集上测试结果显示,该方法计算速度最高为多核CPU系统中开启2线程实现方法的22.41倍,为开启8线程实现方法的9.13倍,且与两者精度相当;与同类深度图计算方法比较结果表明, 该方法在重建过程中加速效果均为其他算法的5倍及以上;通过使用开源点云比较软件在标准测试数据集上与其他算法比较,验证了该方法能有效提高重建结果的精度和完整度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号