期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王欣王宁《硅谷》2009,(16)

简要介绍GPU的存储结构,它是基于GPU的CUDA编程的前提和基础。相似文献

2.

刘伟峰唐先明李媛媛曹邦功《工程图学学报》2009,30(6)

从Mandelbrot集分形算法在GPU上的计算速度和绘制效果角度出发,提出了在追求计算速度的单精度算法和追求绘制效果的双精度算法之外的第三种选择--混合精度算法.首先,分析了Mandelbrot集分形算法;其次,对GPU体系结构和CUDA编程模型进行了介绍;再次,在GPU上实现了单、双精度浮点数算法,基于实验结果提出了精度问题;最后,实现了混合精度算法并进行分析.结果显示,GPU上的混合精度优化是计算速度和绘制效果之间的折中,为分形算法的实现提供了新的选择. 相似文献

3.

基于CPU-GPU异构平台的高层结构地震响应分析方法研究

下载免费PDF全文

李红豫滕军李祚华《振动与冲击》2014,33(13):86-91

为了解决传统的串行有限元分析方法计算耗时多精度低的问题,基于GPU并行计算能力在CUDA架构下建立了一套兼顾精度和效率的高层结构有限元分析的CPU-CPU的异构平台。基于CPU-GPU异构平台研究了高层结构地震响应算法,将整个时间步积分在GPU中计算完成,每一时间步下利用基于GPU的预处理共轭梯度迭代法求解线性方程组获得该时刻的位移,最终实现了基于GPU的Newmark-β法。通过算例验证了本文所提方法的高精度、高效率。相似文献

4.

JPEG2000编码的GPU并行计算可行性分析

曹振宇王建雄王晓森徐嘉何力《影视技术》2014,(2):3-7

本文简要简述了CUDA并行计算的概念和JPG2000算法的核心处理步骤,分析了GPU并行计算计算参与数字电影母版制作过程中最消耗时间的JPG2000编码环节的可行性. 相似文献

5.

A high-speed wideband spectrometer system based on CUDA-GPU

Liu Dongliang Nan Rendong Li Jianbin 《高技术通讯》2012,22(2)

针对射电信号观测的需求,设计并实现了一种基于统一计算设备架构(CUDA)和图形显示卡(GPU)的宽带高速频谱分析系统.该系统通过运用库利-图基(Cooley-Tukey)快速傅立叶变换算法与谱分析算法实现实时宽带高速频谱分析.系统的关键部分在于通过CUDA来完成运用线程合并算法对数据在CPU与GPU之间传递时的转换,并使用并行流水算法在总线中共享多核GPU来降低实时运算时间.该系统主要为500m口径射电望远镜工程的高分辨率微波巡视项目而设计,实测中满足目标需求,并可应用在射电信号观测或类似的高速密集数据运算中. 相似文献

6.

基于CUDA的点匹配合成算法

傅纲《中国科技博览》2014,(25):323-324

纹理合成在计算机动画制作中具有重要地位。为克服传统串行点匹配纹理合成算法效率低下的缺陷，提出一种基于计算统一设备架构（CUDA）的并行合成算法。通过合理安排CPU和GPU之间的数据传输，用GPU进行繁琐耗时的计算，明显地提高了算法效率。相似文献

7.

基于GPU的快速Sobel边缘检测算法 总被引：2，自引：1，他引：1

左颢睿张启衡徐勇赵汝进《光电工程》2009,36(1)

传统的Soble边缘检测算法的优化和实现都是针对常用处理器(CPU、DSP和FPGA等)提出的,难以应用在图像处理器(GPU)上.本文提出了一种基于NVIDIA公司CUDA架构图形处理器(GPU)的快速Sobel边缘检测算法.快速算法根据GPU的并行结构和硬件特点,采用了纹理存储技术、多点访问技术和对称计算技术三种加速技术,优化了数据存储结构,提高了数据访问效率,降低了算法复杂度.实验结果表明,快速算法充分利用了GPU的并行处理能力,在处理4 096x4 096分辨力的8位灰度图像时速度可达190 fps,是基于CPU实现的122倍. 相似文献

8.

GPU-S2S: a source to source compiler for GPU

Li Dan Cao Haijun Dong Xiaoshe Zhang Bao 《高技术通讯》2012,22(4)

针对图形处理器(GPU)架构下的软件可移植性、可编程性差的问题,为了便于在GPU上开发并行程序,通过自动映射与静态编译相结合,提出了一种新的基于制导语句控制的编译优化方法,实现了一个源到源的自动转化工具GPU-S2S,它能够将插入了制导语句的串行C程序转化为统一计算架构(CUDA)程序.实验结果表明,经GPU-S2S转化生成的代码和英伟达(NVIDIA)提供的基准测试代码具有相当的性能;与原串行程序在CPU上执行相比,转换后的并行程序在GPU上能够获取显著的性能提升. 相似文献

9.

钢筋混凝土框架结构非线性静、动力分析的高效计算平台HSNAS(GPU)——Ⅱ验证分析

《振动与冲击》2016,(14)

利用GPU强大的并行计算能力,开发了一种结构非线性有限元静力、动力分析的高精度和高效率分析平台HSNAS(GPU)。为了验证所开发平台的计算精度和效率,分别对反复荷载作用下的钢筋混凝土构件层次和整体结构层次的拟静力试验以及典型框架结构的振动台试验进行模拟。结果表明HSNAS(GPU)平台得到的计算结果与试验结果吻合较好,该平台能较好地模拟构件轴力-弯矩-剪力的多维耦合效应以及刚度和强度退化等非线性行为,求解精度较高。与传统CPU计算平台相比,HSNAS(GPU)平台显示出12倍~14倍以上的加速效率。鉴于GPU的巨大计算潜能空间,所开发的计算平台为工程应用中大规模梁柱结构非线性有限元分析提供了高精度和高效率的分析手段。相似文献

10.

基于CUDA的光线跟踪实现中纹理内存的应用研究

陆建勇焦良葆《中国新技术新产品》2009,(23):40-41

CUDA是由NVIDIA开发的用于通用并行计算的开发平台,可方便地实现并行算法的编程。本文利用光线跟踪算法具有的天然可并行性,采用KD树加速结构,在CUDA上实现光线跟踪的并行算法,经过纹理内存的优化使用后,可达到交互式光线跟踪。相似文献

11.

钢筋混凝土框架结构非线性静、动力分析的高效计算平台HSNAS(GPU)——Ⅰ程序开发

《振动与冲击》2016,(14)

基于传统串行计算平台的有限元分析面临精度不足、耗时巨大的问题成为目前高层钢筋混凝土框架结构非线性动力时程分析面临的瓶颈,利用GPU强大的并行计算能力,开发了一种结构非线性有限元静力、动力分析的高精度和高效率分析平台HSNAS(GPU)。针对静力问题提出了适用于GPU计算,且能有效解决结构负刚度问题的位移增量迭代算法,开发了相应的GPU线性方程组并行求解器;针对动力问题,开发了GPU基于Newmark时间积分算法的动力分析软件平台,结合纤维模型单元技术,引入扭转、剪切变形以及材料非线性。算例模型表明,HSNAS(GPU)平台在满足精度条件下能有效地提高结构非线性静、动力分析的计算效率。相似文献

12.

基于GPU的通用计算研究

吴建《中国科技博览》2012,(19):422-423

随着人们对计算性能要求的不断提高，基于GPU的通用计算逐渐成为个研究热点。本文首先研究了基于GPU的通用计算发展过程中硬件和软件的演变，并进。步讨论了适合GPU通用计算的应用，最后对GPU通用计算在小刖领域的研究力向进行概述。相似文献

13.

利用CUDA加速数字图像处理

赵云松张雪峰《中国科技博览》2009,(13):112-113

提高各种图像处理算法的处理速度具有重要的实用价值。针对像素级图像处理算法具有并行化程度高的特点,利用GPU的高性能并行处理能力,提出基于CUDA的数字图像并行化处理方法,提高了处理速度。相似文献

14.

基于多重网格法和GPU并行计算的大规模壳结构快速计算方法

蔡勇李光耀王琥《工程力学》2014,31(5):20-26

该文采用将EBE计算策略、多重网格法以及GPU并行计算方法三者相结合的计算策略, 设计了一种新颖的迭代求解方法, 可以有效的提高大规模壳结构的有限元分析效率。该方法中, EBE计算策略将总体运算分解到单元上进行, 可以节约计算内存, 提高单机上问题的求解规模, 并且可以有效地提高隐式有限元算法的并行性;多重网格法通过在疏密不同的网格层上进行迭代, 平滑不同频率的误差分量, 可以加快迭代收敛速度;GPU并行计算方法可以在较低硬件成本的前提下实现高效的并行计算。该文采用统一计算架构(Compute Unified Device Architecture, CUDA)进行程序的编制, 并在采用GTX460显卡的个人计算机执行。数值计算结果表明该方法在保证计算精度的同时可以取得较高的计算加速比。相似文献

15.

基于GPU的结构光三维测量快速计算方法

车向前周波何万涛《光电工程》2013,40(6)

针对CCD摄像机高分辨率下CPU进行三维测量计算效率低的问题,提出基于GPU技术的快速计算方法.同时针对三维测量的四个具备并行度的过程,该方法给出了在GPU上可实现的具体算法流程,并根据数据规模及GPU特性,设计了一种新的GPU设备端数据结构组织方式.实验结果表明,该方法有效利用了GPU的大规模并行处理能力,在处理500万像素数据过程中整个测量时间仅需4s左右,计算效率是CPU的160倍. 相似文献

16.

一种基于OpenACC的遥感影像正射纠正快速实现方法

莫德林戴晨光张振超胡玲《影像技术》2014,(2):47-49,23

利用CUDA语言移植旧程序时需要重新设计算法,花费较多的时间,效率不高。针对这一问题,本文在分析正射纠正算法并行性的基础上,提出一种基于OpenACC的遥感影像正射纠正快速实现方法,并与基于CUDA的正射纠正方法进行对比。通过正射纠正实验表明,OpenACC能通过对源代码的较小改动将其移植到GPU中,获得一定的加速比,其可移植性好,代码开发效率较高。相似文献

17.

基于并行处理技术的谷物粒型快速测量算法

蒋霓段凌凤杨万能刘谦《光电工程》2012,39(3):66-71

谷物粒型是决定谷粒品质和产量的重要参数之一。传统人工测量粒型的方法耗时、工作量大、主观性强。本文首先介绍一种基于线阵列采集技术和工业输送技术的谷物粒型自动测量系统。为提高系统测量效率,文章中应用了图形处理器(GPU)并行处理技术,在统一计算设备架构(CUDA)下对测量算法进行优化。实验结果表明,基于GPU的并行加速算法,能有效提高测量效率,当图像中谷粒数近2000颗时,优化后的算法速度为中央处理器(CPU)下算法运行速度的400多倍,且随着采集图像中谷粒数的增多,优化测量算法的加速效果更显著。相似文献

18.

宽带RAM模型在对称多处理器集群上的并行设计 总被引：1，自引：0，他引：1

下载免费PDF全文

王光旭彭朝晖王鲁军《声学技术》2011,30(3):284-288

为了提高声场模型的计算效率以满足当前水声研究对声场计算速度的要求,针对对称多处理器集群系统多节点并且节点内存在多个处理器的特点,利用共享存储模型OpenMP和消息传递编程模型MPI（Message Passing Inter-face）对声学计算模型RAM（Range-dependent Acoustic Model）进行并行编程,构建了并行计算平台,实现了RAM模型在对称多处理器集群系统上节点间和节点内两级并行,并通过实验对该平台的性能进行了测试。实验结果表明,RAM模型适用于并行计算,该并行计算方法具有很高的并行效率,可以大幅度提高声场计算速度。相似文献

19.

面向GPU的循环合并

杨扬崔慧敏冯晓兵《高技术通讯》2013,23(3)

针对现有的将C或Fortran程序映射到通用图形处理单元(GPU)的自动转换工具主要关注将单个循环生成一个独立的GPU内核,从而阻碍了对循环间数据重用的利用的问题,提出一种新的面向GPU的循环合并的代码变换方法,该方法通过循环分块(strip mining)和冗余计算等手段达到消除迭代间数据依赖的目的,并可充分利用GPU片上的共享内存进行线程间数据交换,从而将此类程序高效地映射到GPU上.通过典型程序在GPU上的实验表明,该新方法由于能够减少对全局内存的访问,带来了最多高达1.96倍的加速比. 相似文献

20.

基于GPU加速视频抠像技术

黄栋良周海兵顾炳根《硅谷》2009,(11)

为提高视频抠像处理的速度,提出基于GPU(图形处理器)加速的视频抠像方法,将色度抠像算法转化为GPU中的纹理图像渲染过程,利用GPU并行计算和高速浮点计算特性,使得色度算法在GPU中加速执行,有效的提高了算法计算速度。相似文献