首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。  相似文献   

2.
时域有限差分(FDTD)法是求解电磁学中麦克斯韦方程组的重要方法之一,一直以来获得了广泛的使用,但是应用于电大尺寸目标仿真时存在巨大的耗时问题。为解决这一问题,利用图形处理器(GPU)的并行处理特性,结合计算统一设备架构(CUDA),以低通滤波器为算例,实现了时域卷积理想匹配层(CPML)吸收边界的三维FDTD高性能加速计算,目标网格数达5百万。实验在Fermi架构的Quadro 4000和Tesla M2050两款GPU上实测,误差均在10~(-4)范围内,相对于同时期的CPU分别可获得36和55倍以上的加速,结果表明该方法具有精度高、效率高、通用性和实用性强等特点。  相似文献   

3.
邵桢  蔡红星  徐春风 《计算机工程》2010,36(24):278-280
采用图形处理器(GPU)为主计算核心,应用时域有限差分法(FDTD)实现电磁学中麦克斯韦方程组的快速求解。通过对FDTD求解麦克斯韦旋度方程的直接时间域的分析,给出FDTD的仿真算法。根据GPU能高效地提高FDTD的仿真速度,解决FDTD仿真算法中的计算量庞大问题。利用GPU在FDTD计算中的处理能力,实现了更长的脉冲持续时间和庞大的模型求解与仿真,在适当的时间内完成了超大量的仿真计算。根据在CPU和FDTD上的实际计算结果表明,基于GPU的FDTD仿真算法具有高精度和高效率等特点。  相似文献   

4.
许川佩  王光 《计算机应用》2016,36(7):1801-1806
针对尺度不变特征变换(SIFT)算法实时性差的问题,提出了利用开放式计算语言(OpenCL)并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结果能够完全在显存中完成交互;然后,采用复用全局内存对象、共享局部内存、优化内存读取等策略对原算法各步骤进行并行设计,提高数据读取效率,降低传输延时;最后,利用OpenCL语言在图形处理单元(GPU)上实现了SIFT算法的细粒度并行加速,并在中央处理器(CPU)上完成了移植。与原SIFT算法配准效果相近时,并行化的算法在GPU和CPU平台上特征提取速度分别提升了10.51~19.33和2.34~4.74倍。实验结果表明,利用OpenCL并行加速的SIFT算法能够有效提高图像配准的实时性,并能克服统一计算设备架构(CUDA)因移植困难而不能充分利用异构系统中多种计算核心的缺点。  相似文献   

5.
传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器(GPU)的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。  相似文献   

6.
为了完成三维集成转接板互连结构中电磁场分布的建模与数值计算,采用时域有限差分法(Finite DifferenceTime Domain, FDTD)仿真二维横电波(Transverse Electric, TE)的传播,观察在添加Mur吸收边界条件和完全匹配层(Perfectly Matched Layer, PML)吸收边界条件时边界处磁场的变化,绘制误差曲线与等相位线来检验这两种边界条件的吸收性能。结果表明,将PML边界条件作为二维TE波的吸收边界可以确保仿真结果更符合工程实际。  相似文献   

7.
基于OpenCL的数字相控阵雷达干扰模拟   总被引:1,自引:0,他引:1  
针对现代战争复杂电磁环境以及数字相控阵雷达干扰信号生成数据量大、多波束等难点,利用图形处理器(GPU)带宽高,运算能力强的特点,使用OpenCL异构编程框架实现数据级并行策略,设计了基于OpenCL的五种典型数字干扰并行算法。算法根据GPU的读写机制进行优化设计,充分发掘了现有GPU的并行计算能力。实验结果表明:基于GPU的数据并行计算程序与中央处理器(CPU)平台相比较,加速比最大可达3.25,提高了相关雷达回波模拟设备的速度,基本满足数字相控阵雷达信号处理的实时性要求。  相似文献   

8.
FDTD方法吸收边界条件的研究及应用   总被引:1,自引:1,他引:0  
用时域有限差分法(FDTD)求解电磁散射问题中,吸收边界条件的设置起着关键性作用.通过时间和空间上的递推算法对时域有限差分法中的两种吸收边界条件:Mur吸收边界条件和完全匹配层(PML)的吸收效果进行了比较和分析.同时,引入参数对PML的差分方程进行了优化,避免了将电磁场分裂为两个分量进行计算,进而降低了计算内存开销.实验结果证明PML具有更优越的吸收性能.最后,在FDTD算法中应用PML吸收层对一圆柱形导体的雷达散射截面积(RCS)进行数值仿真,验证了FDTD算法在计算雷达散射截面积(RCS)上的有效性.  相似文献   

9.
基于CPU-GPU混合加速的SPH流体仿真方法   总被引:1,自引:0,他引:1  
基于光滑粒子流体力学SPH的流体仿真是虚拟现实技术的重要研究内容,但SPH流体仿真需要大量的计算资源,采用一般计算方法难以实现流体仿真的实时性。流体仿真通常由物理计算、碰撞检测和渲染等部分组成,借助GPU并行加速粒子的物理属性计算和碰撞过程使SPH方法的实时流体仿真成为可能。为了满足流体仿真应用中的真实性和实时性需求,提出一种基于CPU GPU混合加速的SPH流体仿真方法,流体计算部分采用GPU并行加速,流体渲染部分采用基于CPU的OpenMP加速。实验结果表明,基于CPU GPU混合加速的SPH流体仿真方法与CPU实现相比,能显著地减少流体仿真单帧计算时间且能更快速地完成渲染任务。  相似文献   

10.
翁捷  吴强  杨灿群 《计算机工程》2011,37(4):119-121
在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明,在相同CPU平台上该算法能够获得高于破解软件John the ripper 17倍的破解速度。  相似文献   

11.
大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流算法的并行化策略,具有更好的平台独立性和可移植性,简化了CPU/GPU异构平台下的并行应用程序设计。累积汇流并行算法包括时空独立型的流量分配和空间依赖型的累积入流两个过程,均定义为OpenCL内核并交由OpenCL设备并行执行,其中累积入流过程借助流量转移矩阵由递归式转换为迭代式来实现并行计算。与基于流量转移矩阵的并行汇流算法相比,尽管基于单元入度矩阵的并行汇流算法可以降低迭代过程中的计算冗余,但需要采用具有较大延迟的原子操作以及需要更多的迭代次数,在有限的GPU计算资源下,两种算法性能差异不明显。实验结果表明,并行累积汇流算法在NVIDIA GeForce GT 650M GPU上获得了较好的加速比,加速性能随格网尺度增加而有所增加,其中流量分配获得了约50~70倍的加速比,累积入流获得了10~20倍的加速比,展示了利用OpenCL在GPU等并行计算设备上进行大规模数字地形分析的潜在优势。  相似文献   

12.
Open Computing Language (OpenCL) is an open royalty-free standard for general purpose parallel programming across Central Processing Units (CPUs), Graphic Processing Units (GPUs) and other processors. This paper introduces OpenCL to implement real-time smoking simulation in a virtual surgery training simulation system. Firstly, the Computational Fluid Dynamics (CFD) is adopted to construct the real-time smoking simulation model based on the Navier?CStokes (N-S) equations of an incompressible fluid under the condition of normal temperature and pressure. Then we propose a parallel computing technique based on OpenCL to accomplish the parallel computing of smoking simulation model on CPU and GPU, respectively. Finally, we render the smoke in real time by using a three-dimensional (3D) texture volume rendering method. Experimental results show that the parallel computing technique we have proposed achieve a satisfactory effect on image quality and rendering rate both on CPU and GPU.  相似文献   

13.
基于GPGPU的生物序列快速比对   总被引:1,自引:0,他引:1       下载免费PDF全文
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。  相似文献   

14.
基于平面波的第一原理计算方法是目前材料科学中最常用的方法,但传统的CPU并行计算遇到可扩展性瓶颈,无法改善其求解的绝对速度。系统地介绍了利用图形处理器(graphic processing unit,GPU)加速技术开发的大规模第一原理材料计算软件:Ultra-Mat。该软件对第一原理平面波算法进行了系统的算法设计和软件实现:(1)通过采用并行方案,实现了快速傅里叶变换(fast Fourier transform,FFT)的GPU局部操作;(2)设计了基于数据压缩的混合精度算法,显著减少了电子结构计算部分的MPI(message passing interface)通信;(3)完成了逾90%代码的GPU实现,目的是最大限度地减少中间流程,以避免CPU-GPU切换引发的数据传输,这是GPU应用中公认的性能瓶颈。测试结果显示Ultra-Mat具有很好的计算性能,对于512原子的GaAs系统,在电子结构计算部分,使用256 GPU卡相比4096 CPU核心有18倍的加速。  相似文献   

15.
GPU加速希尔加解密方法的研究   总被引:1,自引:1,他引:0       下载免费PDF全文
GPU有效地利用了数量巨大的晶体管制造大量的处理单元,适用于处理单任务多数据(SIMD)的计算任务。研究了GPU的体系结构及CUDA的编程模式,改进了基于CPU的希尔加解密方法,使用多个线程将计算中耗时的矩阵相乘部分改造成SIMD模式,并分析了线程块内线程数对加速比的影响。实验结果表明,基于GPU的并行矩阵相乘的希尔加解密方法成功实现了硬件加速,相对于CPU上运行的希尔加解密方法,其执行效率明显提高,可获取12倍以上的加速,并易于扩展,对大规模数据加密和解密处理呈现出高效的处理能力。  相似文献   

16.
CUDA是应用较广的GPU通用计算模型,BP算法是目前应用最广泛的神经网络模型之一。提出了用CUDA模型并行化BP算法的方法。用该方法训练BP神经网络,训练开始前将数据传到GPU,训练开始后计算隐含层和输出层的输入输出和误差,更新权重和偏倚的过程都在GPU上实现。将该方法用于手写数字图片训练练实验,与在四核CPU上的训练相比,加速比为6.12~8.17。分别用在CPU和GPU上训练得到的结果识别相同的测试集图片,GPU上的训练结果对图片的识别率比CPU上的高0.05%~0.22%。  相似文献   

17.
针对传统的航海雷达回波模拟利用扫描扇形与电子海图求交,得到的回波多边形数量巨大,大场景的回波模拟无法实时处理、真实感差等问题,提出了利用DEM图像增强的回波模拟方法。该算法建立了一种CPU结合GPU的异构系统,首先在CPU中通过聚合、连通步骤减少多边形数量实时生成回波,然后在GPU中叠加港口DEM高程信息对回波实现图像增强,纬度上分段处理消除纬度渐长率的影响。该算法实现了回波图像从扫描像素点到扇形带状回波的转化,仿真过程符合真实的雷达回波形成原理。在较大仿真场景下,回波图像增强经过GPU处理后并行效率提高,相对CPU的加速比可至240倍。  相似文献   

18.
The simulation of electromagnetic (EM) waves propagation in the dielectric media is presented using Compute Unified Device Architecture (CUDA) implementation of finite‐difference time‐domain (FDTD) method on graphic processing unit (GPU). The FDTD formulation in the dielectric media is derived in detail, and GPU‐accelerated FDTD method based on CUDA programming model is described in the flowchart. The accuracy and speedup of the presented CUDA‐implemented FDTD method are validated by the numerical simulation of the EM waves propagating into the lossless and lossy dielectric media from the free space on GPU, by comparison with the original FDTD method on CPU. The comparison of the numerical results of CUDA‐implemented FDTD method on GPU and original FDTD method on CPU demonstrates that the CUDA‐implemented FDTD method on GPU can obtain better application speedup performance with reasonable accuracy. © 2016 Wiley Periodicals, Inc. Int J RF and Microwave CAE 26:512–518, 2016.  相似文献   

19.
特征点检测被广泛应用于目标识别、跟踪及三维重建等领域。针对三维重建算法中特征点检测算法运算量大、耗时多的特点,对高斯差分(Difference-of-Gaussian,DoG)算法进行改进,提出特征点检测DoG并行算法。基于OpenMP的多核CPU、CUDA及OpenCL架构的GPU并行环境,设计实现DoG特征点检测并行算法。对hallFeng图像集在不同实验平台进行对比实验,实验结果表明,基于OpenMP的多核CPU的并行算法表现出良好的多核可扩展性,基于CUDA及OpenCL架构的GPU并行算法可获得较高加速比,最高加速比可达96.79,具有显著的加速效果,且具有良好的数据和平台可扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号