首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 58 毫秒
1.
基于GPU的大规模拓扑优化问题并行计算方法   总被引:1,自引:0,他引:1  
韩琪  蔡勇 《计算机仿真》2015,32(4):221-226,304
针对进行大规模拓扑优化问题计算量庞大且计算效率低的问题,设计并实现了一种基于图形处理器(GPU)的并行拓扑优化方法.采用双向渐进结构拓扑优化(BESO)为基础优化算法,采用一种基于节点计算的共轭梯度求解方法用于有限元方程组求解.通过对原串行算法的研究,并结合GPU的计算特点,实现了迭代过程全流程的并行计算.上述方法的程序设计和编写采用统一计算架构(CUDA),提出了基于单元和基于节点的两种并行策略.编写程序时充分使用CUDA自带的各种数学运算库,保证了程序的稳定性和易用性.数值算例证明,并行计算方法稳定并且高效,在优化结果一致的前提下,采用GTX580显卡可以取得巨大的计算加速比.  相似文献   

2.
为解决高质量的轮廓提取算法计算复杂、实时性差的问题,基于GPU并行计算架构提出了一种针对高质量的轮廓提取算法——Pb(probability boundary,概率轮廓)提取算法的高效并行计算方法。重点讨论了如何利用多计算单元加速计算最耗时的梯度计算部分。详细介绍了多方向直方图并行统计机制及χ2并行计算中访存冲突避免机制。对比实验表明,在GPU上基于该并行方法的轮廓提取相比传统CPU方式具有明显加速效果,且随着图像分辨率变大,加速效果更加明显,例如图像大小为1024×1024时可获得160倍的加速;此外,基于伯克利标准测试集验证了该并行方法可保持原有算法的计算准确度。为大规模图像数据智能分析中的轮廓提取提供了快速、实时的计算方法。  相似文献   

3.
很多朋友都知道CPU是一台计算机的运算核心和控制核心,在早期的计算机中,所有的运算几乎都是通过CPU完成的。不过随着显卡GPU的发展,越来越多只需要简单、大数据量的计算,这时便主要依靠GPU了。比如我们之前介绍的比特币挖矿机,它的计算就主要通过GPU来完成。即使是现在的超级计算机也离不开GPU,比如中国的天河一号A,它就拥有7168颗Tesla M2050 GPU(图1)。下面就让我们了解一下GPU的神秘幕后。  相似文献   

4.
使用GPU技术的数据流分位数并行计算方法   总被引:1,自引:0,他引:1  
周勇  王皓  程春田 《计算机应用》2010,30(2):543-546
数据流实时、连续、快速到达的特点决定了数据流的实时处理能力。在处理低维数据流时经常使用分位数信息来描述数据流的统计信息,利用图形处理器(GPU)的强大计算能力和高内存带宽的特性计算数据流分位数信息,提出了基于统一计算设备架构(CUDA)的数据流处理模型和基于该模型的数据流分位数并行计算方法。实验证明,该方法在提供不低于纯CPU分位数算法相同精度的条件下,使数据流分位数的实时计算带宽得到了显著的提高。  相似文献   

5.
基于GPU的多数据流相关系数并行计算方法研究*   总被引:1,自引:1,他引:1  
为了满足多数据流处理的实时性需求,提出一种跨PCIE总线的四层滑动窗口模型和基于图形处理器的多数据流并行处理框架模型,在此框架模型下可以并行维护数量巨大的滑动实时多数据流统计信息,同时采用精确方法并行计算多数据流间任意两条的相关系数。通过对比在同样的实验环境下只使用CPU的计算处理方法,验证了新方法的实时计算性能具有显著的提高。  相似文献   

6.
基于图形处理器(GPU)的通用计算   总被引:102,自引:20,他引:102  
伴随着PC级微机的崛起和普及,多年来计算机图形的大部分应用发生了从工作站向微机的大转移,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时(中、小规模)应用中.这一切的发生从很大程度上源自于图形处理硬件的发展和革新.近年来,随着图形处理器(GPU)性能的大幅度提高以及可编程特性的发展,人们首先开始将图形流水线的某些处理阶段以及某些图形算法从CPU向GPU转移.除了计算机图形学本身的应用,涉及到其他领域的计算,以至于通用计算近2~3年来成为GPU的应用之一.并成为研究热点.文中从若干图形硬件发展的历史开始,介绍和分析最新GPU在通用计算方面的应用及其技术原理和发展状况,并结合作者自身的实践讨论和探索其发展前景。  相似文献   

7.
针对传统降维非线性有限元计算速度与精确度难以兼顾的问题,提出了一种无条件稳定的显式迭代算法。基于泰勒展开式得到速度、加速度的三阶精度差分表达式从而获得新的有限元显式迭代方程,并分析其单自由度系统下的传递矩阵谱半径。改进迭代方程使谱半径始终小于1从而满足无条件稳定的要求。实验表明,改进后的显式迭代算法在等效阻尼比的精度上优于中心差分法和隐式迭代法;在降维非线性有限元模型计算中的计算耗时优于隐式迭代方法,提高了降维非线性有限元的迭代计算速度。模型在降维后维度数值较高时,仍能维持良好的计算耗时和帧率,保证了模型的精确度。  相似文献   

8.
凡是需要真实场景和人物动画的图形应用场合,织物模拟都是必不可少的环节之一,其模拟速度和效果往往决定应用整体的效率和真实感.以实时织物模拟为目标,利用GPU(Graphics Processing Unit)并行编程语言CUDA,设计了一种基于弹簧-质点模型的显式织物模拟并行算法.该算法将模拟过程分为计算阶段和渲染阶段.在计算阶段,通过将质点与CUDA的线程一一对应,并行更新质点的速度和位置.算法利用线性存储器纹理解决了越界问题,并通过使用CUDA的共享内存减少对全局内存的访问.为了使各线程负载均衡地填充共享内存,提出nPass方法.在渲染阶段,算法利用CUDA与OpenGL的交互性,直接在GPU上渲染,避免了将数据回传到主存的额外开销.实验结果表明,与CPU算法和传统的GPU算法相比,该算法的模拟速度分别加快了30倍和5倍.  相似文献   

9.
GPU上的非侵入式风格化渲染   总被引:1,自引:2,他引:1  
提出一种基于硬件加速的算法,在实时图形应用中非侵入式地获得各种风格化渲染特效.通过实时地截获OpenGL API函数调用,修改了常规的渲染流程.该算法完全采用硬件加速的方法,在图形处理器中对颜色缓冲区和深度缓冲区进行后处理;同时采用OpenGL绘制语言作为高级绘制语言,从而可以和其他硬件加速算法(如置换式贴图、矩阵调色盘变形等)完全兼容.实验结果表明:文中算法适用于交互式非真实感渲染的应用,可以作为一种风格化渲染的强有力的工具.  相似文献   

10.
DirectX发展及相关GPU通用计算技术综述   总被引:1,自引:0,他引:1  
以DirectX最近几个关键版本的更替为主线,介绍了近年来DirectX及相应的图形处理器(GPU)可编程性的发展.详细阐述了GPU编程模型在DircctX不同版本下的特点与性能,包括着色器架构、着色器语言、浮点纹理格式、程序流程控制等几个方面,以及编程模型方面的不同特点与性能对GPU通用计算带来的影响,并从软件和硬件两方面分析了这一领域未来的机遇和挑战.  相似文献   

11.
随着许多工程领域的计算量在不断加大,就提出了并行计算技术问题。而在目前高性能计算机系统中,最广泛使用的一种标准是MPI,它已成为一种并行程序的标准。MPI的理念就是需要将问题的并行求解算法转化为特定的适合并行计算模型的并行算法。麦克斯韦旋度方程的数值分析有多种方法,但其中的时域有限差分法是一种较好的方法。在用时域有限差分法进行数值计算时,需要进行大量的数据采集与计算。在这里,采用并行的方法给予实现,提高计算速度。  相似文献   

12.
利用GPU计算的双线性插值并行算法   总被引:1,自引:0,他引:1  
双线性插值算法在数字图像处理中有广泛的应用,但计算速度慢.为提高其计算速度,提出一种基于图形处理器加速的双线性插值并行算法.主要利用Wallis变换双线性插值中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行双线性插值算法映射到CUDA并行编程模型,并从线程分配,内存使用,硬件资源划分等方面进行优化,来充分利用GPU的巨大运算能力.实验结果表明,随着图像分辨率的增大,双线性内插并行算法可以把计算速度提高28倍.  相似文献   

13.
有限单元法是现代工程设计和分析的重要数值方法之一,但要对这些大型或超大型复杂结构进行有效的结构分析,需要有高性能的计算资源、有效的算法和先进的软件编制手段。Java多线程技术是构建并行系统的有效手段,文章基于分布式系统用Java多线程技术实现了一个有限元并行应用系统。  相似文献   

14.
为研究基于GPU的高性能并行计算技术,利用集成448个处理核心的NVIDIA GPU GTX470实现了脉冲压缩雷达的基本数据处理算法,包括脉冲压缩算法与相参积累算法;同时根据GPU的并行处理架构,将脉冲压缩、相参积累算法完成了并行优化设计,有效地将算法并行映射到GPU GTX470的448个处理核心中,完成了脉冲压缩雷达基本处理算法的GPU并行处理实现;最后验证了并行计算的结果,并针对处理结果效果与实时性进行了评估。  相似文献   

15.
由于MapReduce模型进行Map和Reduce操作时需要频繁的CPU计算,面对大量并行计算任务时,CPU占用率甚至达到百分之百.而GPU有比CPU更好的并行计算能力,适度使用GPU,可降低了CPU的占用时间,又能用GPU的参与来平衡系统的计算能力.论文结合GPU技术和MapReduce技术的不同优势,设计出一种基于MapReduce和GPU双重并行计算的云计算模型.通过理论建模与实验验证,结果表明此模型可实现多GPU的MapReduce任务并行处理,提高了高性能计算的性能.  相似文献   

16.
We show how computations such as those involved in American or European-style option price valuations with the explicit finite difference method can be performed in parallel. Towards this we introduce a latency tolerant parallel algorithm for performing such computations efficiently that achieves optimal theoretical speedup p, where p is the number of processor of the parallel system. An implementation of the parallel algorithm has been undertaken, and an evaluation of its performance is carried out by performing an experimental study on a high-latency PC cluster, and at a smaller scale, on a multi-core processor using in addition the SWARM parallel computing framework for multi-core processors. Our implementation of the parallel algorithm is not only architecture but also communication library independent: the same code works under LAM-MPI and Open MPI and also BSPlib, two sets of library frameworks that facilitate parallel programming. The suitability of our approach to multi-core processors is also established.  相似文献   

17.
ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共享内存、合并访存,提高了数据访问效率。之后对ASIFT计算中的其它部分进行GPU优化,形成GASIFT。整个GASIFT计算过程中使用显存池来减少对显存的申请和释放。最后分别在CPU/GPU协同工作的两种方式上进行了尝试。实验表明,CPU负责逻辑计算、GPU负责并行计算的模式最适合于GASIFT计算,在该模式下GASIFT有很好的加速效果,尤其针对大、中图片。对于2048*1536的大图片,GASIFT与标准ASIFT相比加速比可达16倍,与OpenMP优化过的ASIFT相比加速比可达7倍,极大地提高了ASIFT在实时计算中应用的可能性。  相似文献   

18.
基于光线追踪,将屏幕图像像素分解为投射光线与场景对象交点面片辐射亮度和 纹理贴图的合成,每个面片的辐射亮度计算基于双向反射分布函数(BRDF)基的线性组合,并通 过图形处理器(GPU)处理核心并行绘制进行加速,最后与并行计算的纹理映射结果进行合成。 提出了一种基于BRDF 和GPU 并行计算的全局光照实时渲染算法,利用GPU 并行加速,在提 高绘制效率的前提下,实现动态交互材质的全局光照实时渲染。重点研究:对象表面对光线的 多次反射用BRDF 基的线性组合来表示,将非线性问题转换为线性问题,从而提高绘制效率; 利用GPU 并行加速,分别计算对象表面光辐射能量和纹理映射及其线性组合,进一步提高计算 效率满足实时绘制需求。  相似文献   

19.
针对目前油藏数值模拟普遍采用的有限差分法计算精度低的问题,提出了兼顾计算精度、计算速度问题的有限元油藏数值模拟方法,即在建立了油藏数值模拟数学模型的基础上通过有限元数值分析方法建立有限元数值模型,但有限元在油藏数值模拟时存在单机计算困难、计算时间长的问题,为此提出了利用区域分解技术的油藏数值模拟并行计算方法,最后将该方法通过实例进行检验,取得了良好的加速比和并行效率。  相似文献   

20.
邵桢  蔡红星  徐春风 《计算机工程》2010,36(24):278-280
采用图形处理器(GPU)为主计算核心,应用时域有限差分法(FDTD)实现电磁学中麦克斯韦方程组的快速求解。通过对FDTD求解麦克斯韦旋度方程的直接时间域的分析,给出FDTD的仿真算法。根据GPU能高效地提高FDTD的仿真速度,解决FDTD仿真算法中的计算量庞大问题。利用GPU在FDTD计算中的处理能力,实现了更长的脉冲持续时间和庞大的模型求解与仿真,在适当的时间内完成了超大量的仿真计算。根据在CPU和FDTD上的实际计算结果表明,基于GPU的FDTD仿真算法具有高精度和高效率等特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号