首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
邓劲 《现代电子技术》2007,30(10):151-154
随着图形处理器(GPU)性能的突飞猛进,以及GPU可编程特性的发展,人们开始将GPU应用到通用计算领域(GPGPU)。目前国内在这方面的研究还相对较少。使用改进的按频率划分(DIF)算法,结合相关研究的新进展,在GPU上实现了快速傅里叶变换(FFT),讨论和分析GPU在GPGPU中的应用技巧和技术原理,比较GPU与CPU在GPGPU设计中的差异以及性能表现。对GPGPU设计具有指导作用。  相似文献   

2.
为了充分利用GPU集群(Cluster)中各节点的资源,提高GPU集群(Cluster)整体的计算效率.本文以3G网络中海量视频质量分析为研究背景,提出了一种面向CPU和GPU集群的负载均衡策略,构建了一个GPU异构集群系统.实验表明,该负载均衡策略能很好地利用GPU和CPU计算资源、提高集群计算效率.  相似文献   

3.
随着微处理器技术的发展,GPU/CPU的混合计算已经成为是科学计算的主流趋势.本文从编程的层面,介绍了如何利用已有的并行编程语言来,调度GPU的计算功能,主要以MPI(一种消息传递编程模型)与基于GPU的CUDA(统一计算设备架构)编程模型相结合的方式进行GPU集群程序的测试,并分析了CPU/GPU集群并行环境下的运行特点.从分析的特点中总结出GPU集群较优策略,从而为提高CPU/GPU并行程序性能提供科学依据.  相似文献   

4.
基于CUDA的DCT快速变换实现方法   总被引:4,自引:2,他引:2  
为了加快DCT快速变换的处理速度,提出了一种基于CUDA在图形处理器(GPU)上实现DCT快速变换的方法,其中主要利用DCT变换中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行DCT快速变换算法映射到CUDA并行编程模型,并从线程分配,内存使用,硬件资源划分等方面进行优化,来充分利用GPU的巨大运算能力,实验表明,该方法能有效地提高D阻快速变换的速度.  相似文献   

5.
刘昆  杜国宏  廖成 《微波学报》2010,26(5):50-52
提出一种全新的时域有限元运算加速方法--应用图形处理器(GPU)实现对时域有限元运算的提速.在GPU上通过OpenGL编程完成时域有限元运算,从而利用GPU的并行处理功能达到提高运算速度的目的.文中介绍了编程实现过程,并分析讨论了GPU提速过程中处理数据量不同具有不同表现的现象,进而得出随着处理数据量的增加,GPU相对于CPU的处理速度将会更快.文中以时域有限元的辐射算例验证了该算法的正确性和有效性,为时域有限元运算提速提供了一条有效途径.  相似文献   

6.
GIS栅格数据分析方法是在GIS数据处理有十分重要的地位。但是,利用CPU计算密集型栅格数据会让计算机显得力不从心。在过去的几年中,GPU处理数据的速度远远超过了CPU,由于这个原因,许多学者提出了,利用图形显示芯片(GPU)来为地理学,几何图形以及数据库运算服务。本文提出了一种基于GPU的通用框架来实现GIS栅格数据操作,并且进行了一个比较基于CPU算法和基于GPU算法运算速度的实验。实验结果表明,利用GPU操作空间栅格数据可以显著的提高运算速度,这意味着,在相同硬件条件下利用GPU来处理空间栅格数据可以大大降低成本。  相似文献   

7.
商凯  胡艳 《电子技术》2011,38(5):9-11
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU...  相似文献   

8.
压缩采样(CS)技术被尝试应用于合成孔径雷达(SAR)图像的压缩。然而,高分辨SAR图像数据量大,导致压缩采样后的恢复过程计算量大,传统的中央处理器(CPU)无法实时成像。为解决这一问题,该文在图形处理器(GPU)平台上设计了CS的并行方法,并实现了SAR图像压缩。实验结果表明,在保证SAR图像压缩性能的前提下,该文设计的GPU并行处理速度能够提高到CPU串行处理的8.8倍。  相似文献   

9.
以CUDA架构为例,对传统的CPU+单GPU架构进行了分析,提出了一种CPU+多GPU异构协同计算的系统方案,对关键的CPU对多GPU的管理及多GPU间数据通信等问题做了重点讨论,从理论上进行了可行性分析,并提出了相应的优化方法.  相似文献   

10.
全相位沃尔什双正交变换及其在图像压缩中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
侯正信  王成优  杨爱萍  潘霞 《电子学报》2007,35(7):1376-1381
本文提出了全相位沃尔什双正交变换和对偶双正交基向量的新概念,并提出了一种基于这种变换的、新的图像压缩算法.与JPEG压缩编码算法中的DCT变换做比较,在相同码率下,采用全相位沃尔什双正交变换的重建图像峰值信噪比与DCT变换的大致相同,而该方法最大的优点是量化简单,能对变换系数进行均一量化,从而大大缩短运算时间,且便于硬件实现.  相似文献   

11.
针对机载MIMO雷达杂波模型运算量大的问题,建立了基于CUDA的模型,利用图形处理器的并行运算能力来加速运算。为了符合CUDA的通用计算架构特性,该模型在算法上优先设计并行运算,在编程上尽量引入并行线程,实现图形处理器的浮点运算、存储器以及带宽资源的有效利用。最后测试了加速效果与模型结构、数据规模的关系。实验结果表明,...  相似文献   

12.
定位型振动光纤探测主机输出的是一个巨大的传感器阵列信号,数据量大且实时性处理要求高,对数据处理提出了很高的要求。本文立足于定位型光纤周界安防系统,基于英伟达公司(NVIDIA)的统一计算设备架构(CUDA)平台对预处理算法进行图像处理器(GPU)加速。结果表明预处理算法运行在GPU上可以达到很好的加速效果,对系统的实时性能有明显提升。  相似文献   

13.
合成孔径雷达(SAR)成像处理是一项需要进行大量计算的处理任务。图形处理器(GPU)具有数十倍于CPU的浮点计算能力以及传输带宽,而CUDA 技术的发展使得GPU 能够方便地进行通用计算。该文提出了一种在GPU上进行SAR 成像的高效方法。与一般GPU 处理方法相比,该方法使得处理过程中的CPU-GPU 往返数据传输由4 次减少到1 次,而且同时利用了工作站上的CPU 与GPU 计算资源。实验结果表明,该方法能够带来相对一般GPU 处理方法2.3 倍的处理效率提升,从而验证了该方法的有效性。   相似文献   

14.
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit, CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR 成像处理算法实现方案。该方案解决了GPU 显存不足以容纳一景SAR 数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU 设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C 和INTEL E5645 上的测试表明,与传统基于GPU 的SAR 成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。   相似文献   

15.
统一计算设备架构(CUDA,ComputeUnifiedDeviceArchitecture)是并行计算中重要的研究与应用领域,如何将串行程序重构为并行程序以及如何将并行程序的速度最大化都成为研究的重点。前期搭建了单机单卡和单机多卡的实验环境,并在此平台上重构了一系列的密码算法。为了进一步提高破解平台的破解速度和稳定性,设计并实现了一种基于GPU集群(多机多卡)的暴力破解通用平台,并且在此平台上验证了MD5暴力破解的高速性和鲁棒性,为未来设计密码分析算法和提升算法性能提供了研究基础。  相似文献   

16.
提出了一种基于GPU 的液晶大气湍流模拟器实时波面生成的计算方法,为了让液晶空间光调制器进行大气湍流类比。依据液晶湍流模拟器高分辨率、高精度的特性讨论CUDA 的算法。此外,建立一种基于GPU 波面生成的模型并进一步对其优化。最后给出使用CPU 和GPU 后的结果并进行类比。结果表明:采用231 项Zernike 系数生成分辨率为256256 的波前所需时间少于2 ms,与传统的采用CPU 生成的方法相比速度提升两个量级,满足实时波面生成的要求。  相似文献   

17.
赵亚龙  刘守起  张启灿 《红外与激光工程》2018,47(3):317003-0317003(7)
随着通用计算和图形显示需求的不断增加,图形处理器(Graphics Processing Unit,GPU)在医学、科学计算、图像处理等领域得到了广泛的应用。但它在三维测量领域的应用还只是一个开始。文中基于傅里叶变换轮廓术(Fourier Transform Profilometry,FTP)和三频外差法设计了两套三维测量系统,并利用计算统一设备架构(Compute Unified Device Architecture,CUDA)方法,加速了静态或动态物体的三维重建。在三频外差测量系统中,需要利用高速数字投影模块和相机,同步触发采集小视场表面的12个变形条纹图,然后对图像数据进行处理。实验结果表明:对12幅1 360 pixel1 024 pixel大小的图像进行相位展开运算,GPU方法比CPU方法的效率提高了2 089倍。在基于FTP方法的测量系统中,摄像机只需记录一幅变形条纹图,然后拷贝到显存中,并用CUDA编程的算法进行处理,进而重建出物体的三维面形。基于GPU的FTP方法对一幅1 024 pixel1 280 pixel大小的图像进行计算,其计算时间比CPU方法缩短了27倍。  相似文献   

18.
为快速地去除或减少DSA(Digital Subtraction Angiography)图像的噪声,对比评价KNN(K Nearest Neighbors)算法对高斯噪声、泊松噪声、斑点噪声、椒盐噪声4种噪声去除或减少的效果,帮助医生快速准确地为病人诊断疾病.提出的算法主要贡献在于构建了基于GPU(Graphics Processing Unit)的加速方法,使传统图像去噪的运算速度得到大幅提升.基于图像降质、图像还原过程建模,使用KNN算法对4种噪声去除或减少,并对算法做并行化处理,利用GPU加速实现去噪的过程.通过实验得出,KNN算法能较好地去除或减少高斯噪声、泊松噪声来还原DSA图像,使用CUDA(Compute Unified Device Architecture)编写可在GPU上运行的程序,利用GPU对1 024×1 024像素的24位深度的DSA图像去噪,平均渲染帧率能达到190.53 f/s(帧/秒),较传统CPU(Central Processing Unit)串行,平均处理速度提高70.86倍.使用GPU加速能够快速地处理数据量较大、计算密集的DSA噪声图像,实现有效并且快速的高斯噪声去除,帮助医生精、准、快地诊断疾病.  相似文献   

19.
红外弱小目标的探测与跟踪对运算硬件和算法的性能提出较高的要求。针对传统背景预测算法串行运算耗时较长的问题,以及经典的通用GPU(Graphic Processing Unit)体积与功耗过大难于整合到红外设备中的问题,提出在嵌入式GPU平台NVIDIA Jetson TK1中实现并行分离卷积的方法,利用CUDA(Compute Unified Device Architecture)实时执行背景预测算法,实现了在嵌入式GPU平台上高效的红外背景预测算法。实验结果表明,在保证正确预测背景的前提下,利用小体积、低功耗的嵌入式GPU平台可以将运算性能提高到串行运算的15倍以上。  相似文献   

20.
黄兴  宋建新 《电视技术》2012,36(1):26-29
视频转码是个复杂的过程,它需要对已经压缩过的码流进行解析,然后经过处理转换成满足解码终端要求的目标格式码流。为了提高视频转码的效率并降低视频转码的计算复杂度,根据视频转码的要求和图形处理器的并行结构,提出了一种利用GPU强大的并行计算能力来加速视频转码的算法。该算法将视频转码过程中耗时最多、最复杂的运动估计和模式选择过程转移到GPU上并行执行。在开发GPU通用计算能力的时候,采用NVIDIA公司的CUDA(统一计算设备架构)计算平台。实验结果证明,该算法可以有效提高视频转码的速度和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号