首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到12条相似文献,搜索用时 83 毫秒
1.
随着图形硬件的快速发展,GPU的通用计算已经成为了一个新的研究领域。本文分析GPU编程模型,介绍使用图形硬件进行通用计算的方法,并把一些常用的算法映射到了GPU上。通过这些算法与CPU上对应的算法进行比较,分析使用GPU进行通用计算的优势和劣势。  相似文献   

2.
随着GPU功能越来越强大,特别是CUDA的推出,在全世界范围内掀起了一场对GPU通用计算的研究热潮,本文在研究国内最新文献的基础上,从GPU通用计算的发展历程、架构优势、发展方向等方面对其进行了深入解读,提出了GPU通用计算发展普及的一些有效建议。  相似文献   

3.
GPU的概念提出后,经过十几年的迅速发展,GPU凭借其超高的计算密度以及超大的存储器带宽已经在图形图像、医疗、高性能计算、计算机网络等领域取得了突出的成果和广泛认可,本文通过了解GPU通用计算的发展历程以及追踪国内外最新的GPU通用计算技术来阐述其在相关领域的应用.  相似文献   

4.
GPU的通用计算应用研究   总被引:9,自引:0,他引:9  
由于图形处理器(GPU)最近几年迅速发展,国内外学者已经将基于GPU的通用计算作为一个新的研究领域。本文在研究国外最新文献的基础上,分析了GPU本身的特性,阐明了基于GPU的应用程序的结构,研究了GPU在编程方法上与普通CPU的差别,并以高斯滤波为实例详细描述了GPU编程的方法和过程。  相似文献   

5.
目前,以基于GPU的异构架构为基础构建的计算系统应用越发频繁和广泛.本文研究了基于GPU的异构计算技术在超级计算机、医疗、航天等领域的应用现状,并对其未来发展做出了展望.  相似文献   

6.
很多朋友都知道CPU是一台计算机的运算核心和控制核心,在早期的计算机中,所有的运算几乎都是通过CPU完成的。不过随着显卡GPU的发展,越来越多只需要简单、大数据量的计算,这时便主要依靠GPU了。比如我们之前介绍的比特币挖矿机,它的计算就主要通过GPU来完成。即使是现在的超级计算机也离不开GPU,比如中国的天河一号A,它就拥有7168颗Tesla M2050 GPU(图1)。下面就让我们了解一下GPU的神秘幕后。  相似文献   

7.
基于图形处理器(GPU)的通用计算   总被引:102,自引:20,他引:102  
伴随着PC级微机的崛起和普及,多年来计算机图形的大部分应用发生了从工作站向微机的大转移,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时(中、小规模)应用中.这一切的发生从很大程度上源自于图形处理硬件的发展和革新.近年来,随着图形处理器(GPU)性能的大幅度提高以及可编程特性的发展,人们首先开始将图形流水线的某些处理阶段以及某些图形算法从CPU向GPU转移.除了计算机图形学本身的应用,涉及到其他领域的计算,以至于通用计算近2~3年来成为GPU的应用之一.并成为研究热点.文中从若干图形硬件发展的历史开始,介绍和分析最新GPU在通用计算方面的应用及其技术原理和发展状况,并结合作者自身的实践讨论和探索其发展前景。  相似文献   

8.
图形处理器通用计算关键技术研究综述   总被引:4,自引:0,他引:4  
当前图形处理器的通用计算取得长足发展,为适应通用计算图形处理器在硬件体系结构和软件支持方面完成相应调整和改变,面对各种应用领域中数据规模增大的趋势,多GPU系统和GPU集群的研究应用日趋增多.以流处理器及图形处理器硬件体系为依据,介绍学术和工业领域中流处理器及图形处理器体系变化趋势.从软件编程环境、硬件计算与通信等方面展开讨论,阐述通用计算中图形处理器的关键问题,包括编程模型及语言的发展和方向,存储模型的量化研究、访存模式和行为的优化以及分布式存储管理的热点问题,典型通信原型系统的对比及通信难点的分析,GPU片内和片间的负载均衡,可靠性和容错计算,GPU功耗评测及低功耗优化的研究进展.综述在海量数据处理、智能计算、复杂网络、集群应用领域中图形处理器的研究进展及成果.总结在通用计算发展中存在的技术问题和未来挑战.  相似文献   

9.
DirectX发展及相关GPU通用计算技术综述   总被引:1,自引:0,他引:1  
以DirectX最近几个关键版本的更替为主线,介绍了近年来DirectX及相应的图形处理器(GPU)可编程性的发展.详细阐述了GPU编程模型在DircctX不同版本下的特点与性能,包括着色器架构、着色器语言、浮点纹理格式、程序流程控制等几个方面,以及编程模型方面的不同特点与性能对GPU通用计算带来的影响,并从软件和硬件两方面分析了这一领域未来的机遇和挑战.  相似文献   

10.
赵杨 《信息与电脑》2023,(23):56-58
基于统一计算设备架构(Compute Unified Device Architecture,CUDA)框架实现的主流深度学习框架能够直接利用图形处理器(Graphics Processing Unit,GPU)的硬件优势,并通过集成优化库如CUDA深度神经网络加速库(CUDA Deep Neural Network library,cuDNN)对卷积、循环等不同类型层进行针对性加速。文章首先介绍GPU架构及CUDA框架的工作原理,概述主流深度学习框架的GPU支持,重点分析CNN卷积层、循环神经网络(Recurrent Neural Networks,RNN)循环层等在GPU上的具体实现与优化手段。  相似文献   

11.
图形处理器在通用计算中的应用   总被引:1,自引:1,他引:0  
基于图形处理器(GPU)的计算统一设备体系结构(compute unified device architecture,CUDA)构架,阐述了GPU用于通用计算的原理和方法.在Geforce8800GT下,完成了矩阵乘法运算实验.实验结果表明,随着矩阵阶数的递增,无论是GPU还是CPU处理,速度都在减慢.数据增加100倍后,GPU上的运算时间仅增加了3.95倍,而CPU的运算时间增加了216.66倍.  相似文献   

12.
General purpose computation on graphics processing unit (GPU) is rapidly entering into various scientific and engineering fields. Many applications are being ported onto GPUs for better performance. Various optimizations, frameworks, and tools are being developed for effective programming of GPU. As part of communication and computation optimizations for GPUs, this paper proposes and implements an optimization method called as kernel coalesce that further enhances GPU performance and also optimizes CPU to GPU communication time. With kernel coalesce methods, proposed in this paper, the kernel launch overheads are reduced by coalescing the concurrent kernels and data transfers are reduced incase of intermediate data generated and used among kernels. Computation optimization on a device (GPU) is performed by optimizing the number of blocks and threads launched by tuning it to the architecture. Block level kernel coalesce method resulted in prominent performance improvement on a device without the support for concurrent kernels. Thread level kernel coalesce method is better than block level kernel coalesce method when the design of a grid structure (i.e., number of blocks and threads) is not optimal to the device architecture that leads to underutilization of the device resources. Both the methods perform similar when the number of threads per block is approximately the same in different kernels, and the total number of threads across blocks fills the streaming multiprocessor (SM) capacity of the device. Thread multi‐clock cycle coalesce method can be chosen if the programmer wants to coalesce more than two concurrent kernels that together or individually exceed the thread capacity of the device. If the kernels have light weight thread computations, multi clock cycle kernel coalesce method gives better performance than thread and block level kernel coalesce methods. If the kernels to be coalesced are a combination of compute intensive and memory intensive kernels, warp interleaving gives higher device occupancy and improves the performance. Multi clock cycle kernel coalesce method for micro‐benchmark1 considered in this paper resulted in 10–40% and 80–92% improvement compared with separate kernel launch, without and with shared input and intermediate data among the kernels, respectively, on a Fermi architecture device, that is, GTX 470. A nearest neighbor (NN) kernel from Rodinia benchmark is coalesced to itself using thread level kernel coalesce method and warp interleaving giving 131.9% and 152.3% improvement compared with separate kernel launch and 39.5% and 36.8% improvement compared with block level kernel coalesce method, respectively.Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号