共查询到20条相似文献,搜索用时 218 毫秒
1.
随着图形处理器(GPU)性能的突飞猛进,以及GPU可编程特性的发展,人们开始将GPU应用到通用计算领域(GPGPU)。目前国内在这方面的研究还相对较少。使用改进的按频率划分(DIF)算法,结合相关研究的新进展,在GPU上实现了快速傅里叶变换(FFT),讨论和分析GPU在GPGPU中的应用技巧和技术原理,比较GPU与CPU在GPGPU设计中的差异以及性能表现。对GPGPU设计具有指导作用。 相似文献
2.
为了充分利用GPU集群(Cluster)中各节点的资源,提高GPU集群(Cluster)整体的计算效率.本文以3G网络中海量视频质量分析为研究背景,提出了一种面向CPU和GPU集群的负载均衡策略,构建了一个GPU异构集群系统.实验表明,该负载均衡策略能很好地利用GPU和CPU计算资源、提高集群计算效率. 相似文献
3.
刘钢锋 《微电子学与计算机》2013,30(2)
随着微处理器技术的发展,GPU/CPU的混合计算已经成为是科学计算的主流趋势.本文从编程的层面,介绍了如何利用已有的并行编程语言来,调度GPU的计算功能,主要以MPI(一种消息传递编程模型)与基于GPU的CUDA(统一计算设备架构)编程模型相结合的方式进行GPU集群程序的测试,并分析了CPU/GPU集群并行环境下的运行特点.从分析的特点中总结出GPU集群较优策略,从而为提高CPU/GPU并行程序性能提供科学依据. 相似文献
4.
基于CUDA的DCT快速变换实现方法 总被引:4,自引:2,他引:2
为了加快DCT快速变换的处理速度,提出了一种基于CUDA在图形处理器(GPU)上实现DCT快速变换的方法,其中主要利用DCT变换中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行DCT快速变换算法映射到CUDA并行编程模型,并从线程分配,内存使用,硬件资源划分等方面进行优化,来充分利用GPU的巨大运算能力,实验表明,该方法能有效地提高D阻快速变换的速度. 相似文献
5.
6.
GIS栅格数据分析方法是在GIS数据处理有十分重要的地位。但是,利用CPU计算密集型栅格数据会让计算机显得力不从心。在过去的几年中,GPU处理数据的速度远远超过了CPU,由于这个原因,许多学者提出了,利用图形显示芯片(GPU)来为地理学,几何图形以及数据库运算服务。本文提出了一种基于GPU的通用框架来实现GIS栅格数据操作,并且进行了一个比较基于CPU算法和基于GPU算法运算速度的实验。实验结果表明,利用GPU操作空间栅格数据可以显著的提高运算速度,这意味着,在相同硬件条件下利用GPU来处理空间栅格数据可以大大降低成本。 相似文献
7.
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU... 相似文献
8.
9.
以CUDA架构为例,对传统的CPU+单GPU架构进行了分析,提出了一种CPU+多GPU异构协同计算的系统方案,对关键的CPU对多GPU的管理及多GPU间数据通信等问题做了重点讨论,从理论上进行了可行性分析,并提出了相应的优化方法. 相似文献
10.
11.
12.
13.
合成孔径雷达(SAR)成像处理是一项需要进行大量计算的处理任务。图形处理器(GPU)具有数十倍于CPU的浮点计算能力以及传输带宽,而CUDA 技术的发展使得GPU 能够方便地进行通用计算。该文提出了一种在GPU上进行SAR 成像的高效方法。与一般GPU 处理方法相比,该方法使得处理过程中的CPU-GPU 往返数据传输由4 次减少到1 次,而且同时利用了工作站上的CPU 与GPU 计算资源。实验结果表明,该方法能够带来相对一般GPU 处理方法2.3 倍的处理效率提升,从而验证了该方法的有效性。 相似文献
14.
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit, CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR 成像处理算法实现方案。该方案解决了GPU 显存不足以容纳一景SAR 数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU 设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C 和INTEL E5645 上的测试表明,与传统基于GPU 的SAR 成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 相似文献
15.
统一计算设备架构(CUDA,ComputeUnifiedDeviceArchitecture)是并行计算中重要的研究与应用领域,如何将串行程序重构为并行程序以及如何将并行程序的速度最大化都成为研究的重点。前期搭建了单机单卡和单机多卡的实验环境,并在此平台上重构了一系列的密码算法。为了进一步提高破解平台的破解速度和稳定性,设计并实现了一种基于GPU集群(多机多卡)的暴力破解通用平台,并且在此平台上验证了MD5暴力破解的高速性和鲁棒性,为未来设计密码分析算法和提升算法性能提供了研究基础。 相似文献
16.
提出了一种基于GPU 的液晶大气湍流模拟器实时波面生成的计算方法,为了让液晶空间光调制器进行大气湍流类比。依据液晶湍流模拟器高分辨率、高精度的特性讨论CUDA 的算法。此外,建立一种基于GPU 波面生成的模型并进一步对其优化。最后给出使用CPU 和GPU 后的结果并进行类比。结果表明:采用231 项Zernike 系数生成分辨率为256256 的波前所需时间少于2 ms,与传统的采用CPU 生成的方法相比速度提升两个量级,满足实时波面生成的要求。 相似文献
17.
随着通用计算和图形显示需求的不断增加,图形处理器(Graphics Processing Unit,GPU)在医学、科学计算、图像处理等领域得到了广泛的应用。但它在三维测量领域的应用还只是一个开始。文中基于傅里叶变换轮廓术(Fourier Transform Profilometry,FTP)和三频外差法设计了两套三维测量系统,并利用计算统一设备架构(Compute Unified Device Architecture,CUDA)方法,加速了静态或动态物体的三维重建。在三频外差测量系统中,需要利用高速数字投影模块和相机,同步触发采集小视场表面的12个变形条纹图,然后对图像数据进行处理。实验结果表明:对12幅1 360 pixel1 024 pixel大小的图像进行相位展开运算,GPU方法比CPU方法的效率提高了2 089倍。在基于FTP方法的测量系统中,摄像机只需记录一幅变形条纹图,然后拷贝到显存中,并用CUDA编程的算法进行处理,进而重建出物体的三维面形。基于GPU的FTP方法对一幅1 024 pixel1 280 pixel大小的图像进行计算,其计算时间比CPU方法缩短了27倍。 相似文献
18.
为快速地去除或减少DSA(Digital Subtraction Angiography)图像的噪声,对比评价KNN(K Nearest Neighbors)算法对高斯噪声、泊松噪声、斑点噪声、椒盐噪声4种噪声去除或减少的效果,帮助医生快速准确地为病人诊断疾病.提出的算法主要贡献在于构建了基于GPU(Graphics Processing Unit)的加速方法,使传统图像去噪的运算速度得到大幅提升.基于图像降质、图像还原过程建模,使用KNN算法对4种噪声去除或减少,并对算法做并行化处理,利用GPU加速实现去噪的过程.通过实验得出,KNN算法能较好地去除或减少高斯噪声、泊松噪声来还原DSA图像,使用CUDA(Compute Unified Device Architecture)编写可在GPU上运行的程序,利用GPU对1 024×1 024像素的24位深度的DSA图像去噪,平均渲染帧率能达到190.53 f/s(帧/秒),较传统CPU(Central Processing Unit)串行,平均处理速度提高70.86倍.使用GPU加速能够快速地处理数据量较大、计算密集的DSA噪声图像,实现有效并且快速的高斯噪声去除,帮助医生精、准、快地诊断疾病. 相似文献
19.
红外弱小目标的探测与跟踪对运算硬件和算法的性能提出较高的要求。针对传统背景预测算法串行运算耗时较长的问题,以及经典的通用GPU(Graphic Processing Unit)体积与功耗过大难于整合到红外设备中的问题,提出在嵌入式GPU平台NVIDIA Jetson TK1中实现并行分离卷积的方法,利用CUDA(Compute Unified Device Architecture)实时执行背景预测算法,实现了在嵌入式GPU平台上高效的红外背景预测算法。实验结果表明,在保证正确预测背景的前提下,利用小体积、低功耗的嵌入式GPU平台可以将运算性能提高到串行运算的15倍以上。 相似文献
20.
视频转码是个复杂的过程,它需要对已经压缩过的码流进行解析,然后经过处理转换成满足解码终端要求的目标格式码流。为了提高视频转码的效率并降低视频转码的计算复杂度,根据视频转码的要求和图形处理器的并行结构,提出了一种利用GPU强大的并行计算能力来加速视频转码的算法。该算法将视频转码过程中耗时最多、最复杂的运动估计和模式选择过程转移到GPU上并行执行。在开发GPU通用计算能力的时候,采用NVIDIA公司的CUDA(统一计算设备架构)计算平台。实验结果证明,该算法可以有效提高视频转码的速度和效率。 相似文献