首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
GPU通用计算已经在很多领域中得到应用,包括金融、石油、天文学、流体力学、信号处理、电磁仿真、模式识别、视频压缩等领域。将GPU通用计算应用到P2P协议中,通过使用全局存储器和共享存储器两种方法把BitTorrent协议中的随机邻居节点选择算法和随机文件块选择算法(RUB)映射到GPU上,用GPU加速了BitTorrent协议文件块的分发。  相似文献   

2.
基于CUDA的并行粒子群优化算法的设计与实现   总被引:1,自引:0,他引:1  
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。  相似文献   

3.
基于GPU的现代并行优化算法   总被引:2,自引:2,他引:0  
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。  相似文献   

4.
为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平台理论分析了CTR模式的并行AES算法和串行AES算法的时间复杂度,得到综合的加速比为31.59,然后在Nvidia Geforce GTX 460平台上实验运行,结果显示CTR模式的AES-256的GPU并行算法相对串行CTR模式的AES算法,实验加速比跟理论加速比基本吻合.在此基础上,对CTR模式的AES-256进行了优化.实验结果显示,优化的CTR模式的AES-256并行算法在加速比上随着明文的增大提升的比例渐渐减少并趋于稳定.优化的CTR模式的AES算法加密数据量小的明文时,其优化效果更为明显,故能有效地提升SSL(Secure Socket Layer,其明文区间为35KB-150KB)的加密性能.  相似文献   

5.
积分图像的快速GPU计算   总被引:1,自引:0,他引:1  
提出了一种在GPU上计算积分图像的方法。积分图像可通过对输入图像的行实行前缀加法后再对列实行前缀加法构建。前缀加法是指对于一个数组,求取起始位置至每一个下标位置的数组元素的和的操作。提出了分段前缀加法原理,当将其运用到GPU图像积分时有如下优点:减少了线程间的数据依赖;降低了内存访问开销;提高了GPU线程的工作效率。提出的算法相对以前算法在速度上提高了约两倍。该算法可运用到使用积分图像的图像处理算法的GPU加速中。  相似文献   

6.
基于CUDA的矩阵乘法和FFT性能测试   总被引:9,自引:7,他引:2  
针对NVIDIA公司的CUDA技术用Geforce8800GT在Visual Studi02008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFTW库与CUFFT库运行响应的差异。测试结果表明,在大规模矩阵乘法和快速傅里叶变换的应用方面,相对于CPU,利用GPU运算性能可提高25倍以上。  相似文献   

7.
NURBS曲面逆向求值是CAD几何内核中最基础的算子之一,即计算NURBS曲面上三维空间点对应的二维参数值.然而,当前求解算法计算效率不高、鲁棒性不强,严重制约了CAD软件处理大规模复杂CAD模型的性能.现有的GPU加速算法也往往仅对传统算法进行简单并行化,没有充分利用GPU共享显存等架构特性.为此,提出一种全GPU运行的并行求解算法.基于NURBS矩阵表示的GPU逆值求解算法通过矩阵表示代替传统的B-Spline基函数递归表示,适配GPU缓存机制,实现GPU缓存优化,解决数据公用、寄存器占用和缓存频繁申请与释放等问题,从而提高求解效率.同时,该算法采用多层次求解算法,以自适应曲面细分算法得到粗略解,再辅以Gauss-Newton迭代法得到精确解,提高处理复杂模型的效率和鲁棒性.采用多张简单曲面和复杂曲面进行测试,结果表明,该算法每毫秒最多可求解超过10 000个逆值点,相比于传统算法,将NURBS曲面逆向求值速度提高了至少2个数量级.  相似文献   

8.
针对粒子群优化(PSO)算法训练人工神经网络(NN)时面临的计算时间过长问题,引入基于图形处理器(GPU)技术的并行处理解决方法。使用粒子与线程一一对应的并行策略,通过并行处理各个粒子的计算过程来加快整个粒子群的收敛速度,减少粒子群神经网络(PSO-NN)的训练时间。在统一计算设备架构(CUDA)下对一简单测试函数逼近的数值进行仿真,实验结果表明,相较基于CPU的串行PSO-NN,基于GPU的并行PSO-NN在寻优稳定性一致的前提下取得了超过500倍的计算加速比。  相似文献   

9.
针对目前图像处理算法日益复杂,对CPU的性能要求越来越高,而传统的基于CPU的图像处理方法无法满足需求的情况,本文对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行研究和实现。通过充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现相关算法。研究并设计高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,并通过与CPU实现相同效果的性能的对比,证明基于GPU图像处理算法的高效性。  相似文献   

10.
GPU 上的矩阵乘法的设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。  相似文献   

11.
利用GPU的强大浮点数计算能力和并行处理能力,提出一种完全基于GPU的视点相关自适应细分内核进行快速细分计算的方法.在GPU中,依次实现视点相关的面片细分深度值计算、基于基函数表的细分表面顶点求值、细分表面绘制等核心步骤,无须与CPU端系统内存进行几何数据交换.视点相关的自适应细分准则在表面绘制精度保持不变的情况下,有效地降低了细分表面的细分深度和细分的计算量,在此基础上完全基于GPU的细分框架使得曲面细分具有快速高效的特点.该方法还可以在局部重要细节用较大深度值进行实时自适应细分,以逼近极限曲面.  相似文献   

12.
由于GPU(图形处理器)性能的大幅提高和可编程性的发展,基于GPU的光线追踪算法逐渐成为研究热点。光线追踪算法需要的计算量大,基于此,分析了光线追踪算法的基本原理,在NVIDIA公司的CUDA(计算统一设备体系结构)环境下采用均匀栅格法作为加速结构实现了光线追踪算法。实验结果表明,该计算模式相对于传统基于CPU的光线追踪算法具有更快的整体运算速度,GPU适合处理高密度数据计算。  相似文献   

13.
This paper introduces how to optimize a practical prestack Kirchhoff time migration program by the Compute Unified Device Architecture (CUDA) on a general purpose GPU (GPGPU). A few useful optimization methods on GPGPU are demonstrated, such as how to increase the kernel thread numbers on GPU cores, and how to utilize the memory streams to overlap GPU kernel execution time, etc. The floating-point errors on CUDA and NVidia's GPUs are discussed in detail. Some effective methods that can be used to reduce the floating-point errors are introduced. The images generated by the practical prestack Kirchhoff time migration programs for the same real-world seismic data inputs on CPU and GPU are demonstrated. The final GPGPU approach on NVidia GTX 260 is more than 17 times faster than its original CPU version on Intel's P4 3.0G.  相似文献   

14.
提出了在硬件产品上运行BLAST算法的方案,认为可以使BLAST达到目前为止最快的速度。它是在由NVIDIA发布的CUDA编程环境上执行的。做了详尽的模拟试验,在一个3GHz英特尔奔腾IV处理器上运行,比较了BLAST和SSEARCH的执行。方案与最新公布的GPU执行情况和一个SIMD解决方案进行了比较,测试表明,实现了在硬件产品上获得更大速度的目的,也降低了大规模比对的执行成本。  相似文献   

15.
为克服mean shift算法计算复杂度高、运行速度慢的缺点,提出一种基于GPU的快速mean shift算法.首先使用k-means算法对图像像素进行预分类,之后在预分类、下采样后缩小的数据集上进行mean shift聚类,以有效地降低算法复杂度.此外,借助GPU的通用计算功能对k-means和mean shift分别进行并行了处理.实验结果表明,通过对图像进行预处理,有效地提高了几何模板查找在强噪声、低信噪比图像中的识别率;同时,改进后的mean shift算法的运行速度提高了近40倍,满足了高速机器视觉检测的实时性要求.  相似文献   

16.
The error-resilient entropy coding (EREC) algorithm is an effective method for combating error propagation at low cost in many compression methods using variable-length coding (VLC). However, the main drawback of the EREC is its high complexity. In order to overcome this disadvantage, a parallel EREC is implemented on a graphics processing unit (GPU) using the NVIDIA CUDA technology. The original EREC is a finer-grained parallel at each stage which brings additional communication overhead. To achieve high efficiency of parallel EREC, we propose partitioning the EREC (P-EREC) algorithm, which splits variable-length blocks into groups and then every group is coded using the EREC separately. Each GPU thread processes one group so as to make the EREC coarse-grained parallel. In addition, some optimization strategies are discussed in order to obtain higher performance using the GPU. In the case that the variable-length data blocks are divided into 128 groups (256 groups, resp.), experimental results show that the parallel P-EREC achieves 32×32× to 123×123× (54×54× to 350×350×, resp.) speedup over the original C code of EREC compiled with the O2O2 optimization option. Higher speedup can even be obtained with more groups. Compared to the EREC, the P-EREC not only achieves a good speedup performance, but it also slightly improves the resilience of the VLC bit-stream against burst or random errors.  相似文献   

17.
针对灰度及红外图像的匹配过程中经常出现的一些问题,如缺乏丰富的目标特征、易遭受复杂背景及噪声等外界因素干扰、目标出现放大缩小或偏转等,抽取目标图像的梯度幅值与方向,腐蚀与膨胀以及信息熵等特征,通过协方差矩阵将其融合在一起,构成新的特征模型.通过全图遍历求取矩阵间相似度距离的方法找到最佳匹配重心,将新方法与其它3种已有的匹配方法进行了对比说明.实验结果表明:在灰度图像匹配时新方法准确率高、鲁棒性好,同时也可以应用于红外图像中,满足了在一些条件下提高匹配准确度的要求.  相似文献   

18.
随着图形硬件的快速发展,GPU的通用计算已经成为了一个新的研究领域。本文分析GPU编程模型,介绍使用图形硬件进行通用计算的方法,并把一些常用的算法映射到了GPU上。通过这些算法与CPU上对应的算法进行比较,分析使用GPU进行通用计算的优势和劣势。  相似文献   

19.
Recent graphics processing units (GPUs) can be used for general purpose parallel computation. Ant colony optimisation (ACO) approaches have been introduced as nature-inspired heuristics to find good solutions of the travelling salesman problem (TSP). In ACO approaches, a number of ants traverse the cities of the TSP to find better solutions of the TSP. The ants randomly select next visiting cities based on the probabilities determined by total amounts of their pheromone spread on routes. The main contribution of this paper is to present sophisticated and efficient implementation of one of the ACO approaches on the GPU. In our implementation, we have considered many programming issues of the GPU architecture including coalesced access of global memory and shared memory bank conflicts. In particular, we present a very efficient method for random selection of next cities by a number of ants. Our new method uses iterative random trial which can find next cities in few computational costs with high probability. This idea can be applied in not only GPU implementation but also CPU implementation. The experimental results on NVIDIA GeForce GTX 580 show that our implementation for 1002 cities runs in 8.71 s, while the CPU implementation runs in 190.05 s. Thus, our GPU implementation attains a speed-up factor of 22.11.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号