首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
GPU的概念提出后,经过十几年的迅速发展,GPU凭借其超高的计算密度以及超大的存储器带宽已经在图形图像、医疗、高性能计算、计算机网络等领域取得了突出的成果和广泛认可,本文通过了解GPU通用计算的发展历程以及追踪国内外最新的GPU通用计算技术来阐述其在相关领域的应用.  相似文献   

2.
近年来GPU通用计算蓬勃发展。程序开发者和GPU通用计算应用程序的数量增长很快。针对不同的应用程序的要求和程序开发者不同的使用习惯,围绕着CUDA架构的 GPU,NVIDIA及其合作伙伴共同开发了很多种不同的编程技术。本文详细介绍了它们的特点和适用对象。希望可以帮助广大开发人员针对自己的编程习惯和程序要求选择最为合适的编程技术。  相似文献   

3.
GPU上计算流体力学的加速   总被引:1,自引:0,他引:1  
本文将计算流体力学中的可压缩的纳维叶-斯托克斯(Navier-Stokes),不可压缩的Navier-Stokes和欧拉(Euler)方程移植到NVIDIA GPU上.模拟了3个测试例子,2维的黎曼问题,方腔流问题和RAE2822型的机翼绕流.相比于CPU,我们在GPU平台上最高得到了33.2倍的加速比.为了最大程度提...  相似文献   

4.
在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。  相似文献   

5.
遥感技术在油气勘探中的应用   总被引:3,自引:0,他引:3       下载免费PDF全文
介绍了遥感技术在油气资源勘探中的应用情况,重点阐述了油气藏遥感直接勘查的基本原理、技术方法、应用现状、发展趋势和有待深入解决的一些问题。  相似文献   

6.
针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。  相似文献   

7.
为了加速对雷达系统的计算机仿真模拟,提出一种基于kD-tree的GPU并行加速算法.采用CUDA实现了多种kD-tree的并行遍历算法,并对这些遍历算法性能进行比较分析,从中筛选出了最适合在GPU上进行雷达模拟加速的Shortstack-kD算法.实验结果表明,Shortstack-kD算法不仅对不同种类的场景都能带来明显的效率提升,还可以根据场景的不同情况控制Shortstack-kD的栈长度,以达到算法的最高性能和最大灵活性;在CPU上进行建树的过程中还针对雷达模拟的应用需求进行了优化.  相似文献   

8.
HPMR在并行矩阵计算中的应用   总被引:2,自引:1,他引:2       下载免费PDF全文
为了解决传统并行编程难度大、效率低的问题,提出一种基于MapReduce模型的并行编程方法,在高性能MapReduce平台上实现矩阵并行LU分解。实验结果表明,相比传统并行编程模型,MapReduce模型并行程序可较好满足高性能数值计算需求,其编程简洁性和可读性能有效提升并行编程效率。  相似文献   

9.
10.
大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计算时不仅增加了计算资源的密度,而且提高节点间和节点内的通信复杂度。为了从理论上研究GPU与多核CPU协同计算问题,面向多种计算模式建立一个多阶段的协同计算模型(p-DCOT)。p-DCOT以BSP大同步并行模型为核心,将协同计算过程分成数据层、计算层和通信层三个层次,并且延用DOT模型的矩阵来形式化描述计算和通信行为。通过扩展p-DOT模型描述节点内和节点间的协同计算行为,细化了负载均衡的参数并证明时间成本函数,最后用典型计算作业验证模型及参数分析的有效性。该协同计算模型可成为揭示大数据分析处理中协同计算行为的工具。  相似文献   

11.
使用GPU加速BLAST算法初探   总被引:1,自引:1,他引:0  
应用GPU通用高性能编程技术实现了一种加速BLAST算法的新方法。BLAST是目前最常用的用于生物序列查询比对的算法和软件包,其处理速度受到串行化执行和磁盘I/O等因素的影响。本文通过实验分析了BLAST软件包中的典型程序BLASTN的运行热点,并选定关键热点模块,应用CUDA编程技术对其进行并行化改造。对比实验结果表明,对于平均序列长度较大的序列库,应用GPGPU并行化可明显缩短该模块的运行时间,获得超过35倍的加速比。这说明,我们可以利用GPGPU对BLAST进行并行化加速,以满足高性能生物序列查询的需求。  相似文献   

12.
随着网络不断地社会化、普及化,网络社区的规模也越来越大,这给社会化网络关系的计算带来了巨大的计算量。这些计算包括个人关系及计算与生成、全局关系计算与生成以及关系的挖掘等。虽然这些工作的计算量很大,但却适合并行处理。基于此,本文通过详细分析GPU的高性能运算及其在CUDA编程模型上的具体实现,讨论利用基于CUDA硬件架构的GPU来进行社区用户关系的并行计算。  相似文献   

13.
走时计算是叠前时间偏移计算中最耗时的部分,通过分析传统的串行走时算法,发现静态8点插值算法非常适合在GPU上运行。首先利用CUDA技术对静态8点插值算法进行并行化改造,设计静态8点并行插值算法,然后测试其正确性,统计其相对误差情况。实验表明此算法比工业生产上的动态插值算法更准确,最后我们利用体偏作性能测试。试验结果表明,运行在GPU上的静态8点并行插值算法内核性能是运行在CPU上的动态插值算法内核的22.76倍。这说明,静态8点并行插值算法适合进行走时计算,并且可以应用于工业生产上。  相似文献   

14.
在很多新兴应用领域、如传感器网络,实时监控系统等,产生的数据流是不断变化的、连续到达的、数据值可能不确定、且必须被快速处理。其中有些操作,如数据流的实时窗口连接运算,非常消耗时间,这对数据流处理系统的性能提出了严峻的挑战。目前,大多数算法采用软件优化来提高处理速度,但其性能提高有限。利用GPU(图形处理器)的高并行度、多线程、高带宽的并行处理能力,设计了一种软硬件结合的方法来加速处理数据流的窗口连接操作。在CUDA(统一计算架构)下,由CPU控制将内存中的数据传输至GPU存储器中,然后利用多线程进行并行处理。实验验证了提出的方法可以大幅度提高多数据流窗口连接的处理速度,可达到纯软件处理的50倍左右。  相似文献   

15.
GPU 上的矩阵乘法的设计与实现   总被引:1,自引:0,他引:1  
矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。  相似文献   

16.
文中首先介绍了数据集市的概念和构建过程,接着以含油气盆地岩性分析为例,阐述了用多维数据模型并基于多种软件工具实现数据集市的方法与过程。最后给出了在二连盆地利用数据集市进行勘探目标分析的实例。实践结果表明,对于油气勘探信息系统建设而言,数据集市比数据仓库更为简洁、更为实用,其推广和应用也更为可行。  相似文献   

17.
Hybrid CUDA, OpenMP, and MPI parallel programming on multicore GPU clusters   总被引:2,自引:0,他引:2  
Nowadays, NVIDIA's CUDA is a general purpose scalable parallel programming model for writing highly parallel applications. It provides several key abstractions – a hierarchy of thread blocks, shared memory, and barrier synchronization. This model has proven quite successful at programming multithreaded many core GPUs and scales transparently to hundreds of cores: scientists throughout industry and academia are already using CUDA to achieve dramatic speedups on production and research codes. In this paper, we propose a parallel programming approach using hybrid CUDA OpenMP, and MPI programming, which partition loop iterations according to the number of C1060 GPU nodes in a GPU cluster which consists of one C1060 and one S1070. Loop iterations assigned to one MPI process are processed in parallel by CUDA run by the processor cores in the same computational node.  相似文献   

18.
应用GPU通用高性能编程技术实现一种加速地震叠前时间偏移的新方法.该技术是地震勘探处理的常规流程,其核心算法具有计算密集、数据独立性强、并行性高等特点.通过性能剖析获得其计算热点,通过CUDA技术对其进行并行化改造,并利用CUDA的流技术实现CPU到GPU的异步传输.通过集群环境下的性能测试,应用GPU并行化的PSTM程序可明显缩短运行时间.  相似文献   

19.
文中提出了一种简单有效的排序滤波算法,并在GPU上实现了该算法。算法首先检测图像中的信号,如果检测的像素是信号则保留不变,否则取其邻域并对邻域内的非噪声像素排序并取中值,若中值为信号,则用它代替噪声像素灰度值;否则扩大邻域窗口,重复算法。随着图像规模的增大,在CPU上执行的时间显著增加。文中在CUDA平台上对其进行了实现。实验结果表明该算法不仅能有效地移除椒盐噪声,而且执行效率高,图像的规模越大,加速比越高,最多可提高3个数量级。  相似文献   

20.
叠前逆时偏移(RTM)方法是目前地震勘探领域最为精确的一种地震数据成像方法,其运用双程声波方程进行波场延拓,可实现对复杂构造介质的准确成像.文中采用互相关成像条件对震源波场与检波点波场在同时刻相关成像.针对RTM方法计算量大的问题,将图形处理器(GPU)引入到RTM计算中,充分挖掘GPU的众核结构优势,利用基于CUDA架构的并行加速算法取代传统CPU的串行运算,对逆时偏移算法中较为耗时的波场延拓和相关成像过程进行加速.复杂模型测试结果表明,在确保RTM成像精度的前提下,相比于传统CPU计算,GPU并行加速算法可大幅度地提高计算效率,进而实现基于GPU加速的叠前逆时偏移算法对复杂介质的高效率、高精度成像.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号