首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
随着GPU功能越来越强大,特别是CUDA的推出,在全世界范围内掀起了一场对GPU通用计算的研究热潮,本文在研究国内最新文献的基础上,从GPU通用计算的发展历程、架构优势、发展方向等方面对其进行了深入解读,提出了GPU通用计算发展普及的一些有效建议。  相似文献   

2.
随着图形硬件的快速发展,GPU的通用计算已经成为了一个新的研究领域。本文分析GPU编程模型,介绍使用图形硬件进行通用计算的方法,并把一些常用的算法映射到了GPU上。通过这些算法与CPU上对应的算法进行比较,分析使用GPU进行通用计算的优势和劣势。  相似文献   

3.
GPU的通用计算应用研究   总被引:9,自引:0,他引:9  
由于图形处理器(GPU)最近几年迅速发展,国内外学者已经将基于GPU的通用计算作为一个新的研究领域。本文在研究国外最新文献的基础上,分析了GPU本身的特性,阐明了基于GPU的应用程序的结构,研究了GPU在编程方法上与普通CPU的差别,并以高斯滤波为实例详细描述了GPU编程的方法和过程。  相似文献   

4.
面向OpenCL模型的GPU性能优化   总被引:1,自引:0,他引:1  
GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式发掘可向量化的存储访问实例,利用数据空间变换对存储访问模式进行转换,进而使用向量数据类型提...  相似文献   

5.
GPU的概念提出后,经过十几年的迅速发展,GPU凭借其超高的计算密度以及超大的存储器带宽已经在图形图像、医疗、高性能计算、计算机网络等领域取得了突出的成果和广泛认可,本文通过了解GPU通用计算的发展历程以及追踪国内外最新的GPU通用计算技术来阐述其在相关领域的应用.  相似文献   

6.
在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算.通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过异构平台的异步并发方法进行优化,提高了求解效率.性能测试结果表明,相比于单纯MPI并行算法,优化后GPU加速的异构并行算法,在化学大分子模型电荷分布计算上,有着明显的性能优势.  相似文献   

7.
GPU通用计算已经在很多领域中得到应用,包括金融、石油、天文学、流体力学、信号处理、电磁仿真、模式识别、视频压缩等领域。将GPU通用计算应用到P2P协议中,通过使用全局存储器和共享存储器两种方法把BitTorrent协议中的随机邻居节点选择算法和随机文件块选择算法(RUB)映射到GPU上,用GPU加速了BitTorrent协议文件块的分发。  相似文献   

8.
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.  相似文献   

9.
大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计算时不仅增加了计算资源的密度,而且提高节点间和节点内的通信复杂度。为了从理论上研究GPU与多核CPU协同计算问题,面向多种计算模式建立一个多阶段的协同计算模型(p-DCOT)。p-DCOT以BSP大同步并行模型为核心,将协同计算过程分成数据层、计算层和通信层三个层次,并且延用DOT模型的矩阵来形式化描述计算和通信行为。通过扩展p-DOT模型描述节点内和节点间的协同计算行为,细化了负载均衡的参数并证明时间成本函数,最后用典型计算作业验证模型及参数分析的有效性。该协同计算模型可成为揭示大数据分析处理中协同计算行为的工具。  相似文献   

10.
由于MapReduce模型进行Map和Reduce操作时需要频繁的CPU计算,面对大量并行计算任务时,CPU占用率甚至达到百分之百.而GPU有比CPU更好的并行计算能力,适度使用GPU,可降低了CPU的占用时间,又能用GPU的参与来平衡系统的计算能力.论文结合GPU技术和MapReduce技术的不同优势,设计出一种基于MapReduce和GPU双重并行计算的云计算模型.通过理论建模与实验验证,结果表明此模型可实现多GPU的MapReduce任务并行处理,提高了高性能计算的性能.  相似文献   

11.
经典隐马尔可夫模型用于语音识别存在的两个主要缺陷是“离散状态假设”和“独立分布假设”。前者忽略了语音信号的非平稳性,后者忽略了语音信号的相关性。文章将混合因子分析方法用于语音建模,提出了基于混合因子分析的隐马尔可夫模型框架,并用动态贝叶斯网络形象地表示。该模型框架不仅从理论上解决了上述问题,而且给出许多语音建模的选择。目前广泛使用的统计声学模型均可视为该模型的特例。  相似文献   

12.
虽然基于对角协方差矩阵高斯分布的隐马尔可夫模型(HiddenMarkovModelBasedonDiagonalGaussiandistributions,HMM-DG)目前在现代大词表连续语音识别系统中得到了广泛的应用,但HMM-DG在帧内特征相关(intra-framefeaturescorrelation)建模方面存在缺陷。该文将因子分析方法与HMM-DG的混合高斯建模相结合,提出了一种具有弹性的帧内特征相关隐马尔可夫模型框架—基于因子分析的隐马尔可夫模型(HiddenMarkovModelBasedonFactorAnalysis,HMM-FA),并导出了HMM-FA的训练算法。仿真实验表明:在相同的条件下,HMM-FA的性能优于HMM-DG。  相似文献   

13.
目的 近年来双目视觉领域的研究重点逐步转而关注其“实时化”策略的研究,而立体代价聚合是双目视觉中最为复杂且最为耗时的步骤,为此,提出一种基于GPU通用计算(GPGPU)技术的近实时双目立体代价聚合算法。方法 选用一种匹配精度接近于全局匹配算法的局部算法——线性立体匹配算法(linear stereo matching)作为代价聚合策略;结合线性代价聚合的原理,对其主要步骤(代价计算、均值滤波及系数求解等)的计算流程进行有针对性地并行优化。结果 对于相同的实验样本,用本文方法在NVIDA GTX780 实验平台上能在更短的时间计算出代价矩阵,与原有的CPU实现方法相比,代价聚合的效率平均有了数十倍的提升。结论 实时双目立体代价聚合方法,为在个人通用PC平台上实时获取高质量双目视觉深度信息提供了一个高效可靠的途径。  相似文献   

14.
GPU上计算流体力学的加速   总被引:1,自引:0,他引:1  
本文将计算流体力学中的可压缩的纳维叶-斯托克斯(Navier-Stokes),不可压缩的Navier-Stokes和欧拉(Euler)方程移植到NVIDIA GPU上.模拟了3个测试例子,2维的黎曼问题,方腔流问题和RAE2822型的机翼绕流.相比于CPU,我们在GPU平台上最高得到了33.2倍的加速比.为了最大程度提...  相似文献   

15.
 报文分类是网络设备的基本处理模式,通常采用报文过滤系统对每个报文进行分类。传统报文分类难以适应当今越来越高的网络流量,分类处理速度低于报文到达网络接口的速度,无法实现实时分析。因此,本文提出使用GPU对大规模报文集进行并行分类的方法,利用GPU的线程级并行处理能力加速报文分类吞吐率,并对其性能及优化方法进行详细分析。实验结果表明,GPU加速的Linear Search和RFC报文分类算法与纯CPU系统执行相比可达到4.4~132.5倍的加速比。  相似文献   

16.
利用GPU的强大浮点数计算能力和并行处理能力,提出一种完全基于GPU的视点相关自适应细分内核进行快速细分计算的方法.在GPU中,依次实现视点相关的面片细分深度值计算、基于基函数表的细分表面顶点求值、细分表面绘制等核心步骤,无须与CPU端系统内存进行几何数据交换.视点相关的自适应细分准则在表面绘制精度保持不变的情况下,有效地降低了细分表面的细分深度和细分的计算量,在此基础上完全基于GPU的细分框架使得曲面细分具有快速高效的特点.该方法还可以在局部重要细节用较大深度值进行实时自适应细分,以逼近极限曲面.  相似文献   

17.
针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,进行有效的性能优化。实验部分通过3个具有代表性的实际应用(稠密矩阵乘法、三对角线性方程组求解、稀疏矩阵矢量乘法)的性能分析证明了该模型的实用性,并有效地实现了算法的优化。  相似文献   

18.
针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和性能优化提供参考依据。  相似文献   

19.
针对非结构网格隐式算法在GPU上的加速效果不佳的问题,通过分析GPU的架构及并行模式,研究并实现了基于非结构网格格点格式的隐式LU-SGS算法的GPU并行加速.通过采用RCM和Metis网格重排序(重组)方法,优化非结构网格的数据局部性,改善非结构网格的隐式算法在GPU上的并行加速效果.通过三维机翼算例验证了本文实现的正确性及效率.结果表明两种网格重排序(重组)方法分别得到了63%和69%的加速效果提高.优化后的LU-SGS隐式GPU并行算法获得了相较于CPU串行算法27倍的加速比,充分说明了本文方法的高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号