首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 459 毫秒
1.
正2013年12月,ANSYS宣布推出其业界领先的工程仿真解决方案ANSYS 15.0,独特的新功能,为指导和优化产品设计带来了最优的方法。其中,ANSYS 15.0的流体动力学仿真解决方案可提供更快的前处理、求解器和优化技术。得益于智能优化技术、更快的求解器速度、突破性的并行可扩展性、直观的几何结构功能和并行网格剖分技术,ANSYS 15.0的流体动力学用户能够比以往任何时候都更快更精确地设计新产品。  相似文献   

2.
随着工业计算需求的激增,计算流体力学 (Computational Fluid Dynamics, CFD) 学科对计算效率问题越来越重视。作者基于自行开发的 Navier-Stokes 解算器,引入多重网格加速收敛算法,并结合NVIDIA GPU 计算平台,从数值方法和高性能计算两个方面为 CFD 实现加速。数值加速算例测试结果表明,基于多重网格算法的 GPU 解算器相对 CPU 版本代码双精度可获得 45 倍以上的加速。  相似文献   

3.
为了提高柔性体变形仿真运行速度并且解决切割对变形计算稳定性的负面影响,提出了能与GPU加速的变形算法协同运作的基于虚拟节点法的柔性体实时切割仿真方法.柔性体模型由真实四面体网格嵌入虚拟四面体网格中构成,前者用于碰撞处理和图形渲染,而后者则用于变形计算.切割算法首先分裂真实四面体网格;然后复制包含超过一块真实四面体连通碎片的虚拟四面体,每个复制品包含一块真实四面体碎片;再根据真实四面体之间的连接关系更新虚拟四面体之间的连接关系;最后更新真实四面体网格与虚拟四面体网格之间的镶嵌关系.为了确保仿真系统不被限制在NVIDIA公司的GPU上,GPU加速使用OpenCL实现.仿真测试结果表明,该方法可以在任意多次切割情况下保持变形计算稳定不发散,并且在NVIDIA公司和AMD公司的GPU上都可以正确运行.  相似文献   

4.
本期热点     
《微型计算机》2009,(15):91-91
标清变高清CUOA加速视频倍线播放软件 NVIDIA的CUDA GPU加速软件又添新军,常见于数码影像产品附赠软件光盘中的ArcSoft公司日前推出了一款视频处理插件SimHD,能够利用GPU运算能力,将低分辨率的DVD视频差值处理为高清视频。  相似文献   

5.
2015年2月4日,浪潮正式发布了基于NVIDIA Tesla GPU加速器的整机柜服务器--SmartRack协处理加速整机柜服务器,这是一款密集型高度并行计算服务器,主要面向人工智能、深度学习等应用。
  通过与NVIDIA公司紧密合作,浪潮SmartRack协处理加速整机柜服务器可在1U空间里完美部署4个Tesla GPU加速器,实现“CPU+协处理器”协同计算加速,合理分配计算资源,充分释放计算能力,在并行计算方面有绝佳的表现,以高效、低耗、可靠。智能的特性,满足深度学习和人工智能等应用。此外,该产品还融合了广泛使用的NVIDIA CUDA并行计算平台以及cuDNN GPU加速库,最大效能发挥了GPU的强大处理性能,另外还能够完美支持Caffe、Torch等业界广泛使用的深度学习计算框架。  相似文献   

6.
2016年11月15日,在美国盐湖城SC16超算大会上, NVIDIA宣布将与微软共同加速企业内部的人工智能. 得益于首款基于微软Azure云端或内部运行的NVIDIA Tesla GPUs定制式人工智能框架,企业现在可实施覆盖数据中心和微软云的人工智能平台.该优化平台可在NVIDIA GPU(包括采用了Pascal架构的GPU和NVLink 互联技术的NVIDIA DGX-1超级计算机)和Azure N系列虚拟机(目前仍是测试版本)上运行微软的Cognitive Toolkit.  相似文献   

7.
为了得到虚拟外科手术中人体软组织的实时变形仿真,采用了基于模态分析的模型约简方法,同时结合了GPU加速技术,实现了人体软组织的实时仿真计算,为虚拟手术提供了良好的人机交互.模型约简以有限元理论为基础,将软组织模型的动力学方程投射到约筒子空间,减少系统自由度.在实时仿真过程中,首先需在子空间中对低维动力学模型进行数值计算,然后利用GPU通用计算技术来加速重建原始空间中的形变向量.以心脏大变形实时仿真为例,验证方法的性能,实验结果表明心脏的变形仿真可以在很高的刷新率下运行.提出的模型约简和GPU加速方法,为人体软组织的变形实现了实时仿真,为虚拟手术提供了理论基础和技术支撑.  相似文献   

8.
近年来,随着统一计算设备构架(CUDA)的出现,高端图形处理器(GPU)在图像处理、计算流体力学等科学计算领域的应用得到了快速发展.属于介观数值方法的格子Boltzmann方法(LBM)是1种新的计算流体力学(CFD)方法,具有算法简单、能处理复杂边界条件、压力能够直接求解等优势,在多相流、湍流、渗流等领域得到了广泛应用.LBM由于具有内在的并行性,特别适合在GPU上计算.采用多松弛时间模型(MRT)的LBM,受松弛因子的影响较小并且数值稳定性较好.本文实现了MRT-LBM在基于CUDA的GPU上的计算,并通过计算流体力学经典算例--二维方腔流来验证计算的正确性.在雷诺数Re=[10,104]之间,计算了多达26种雷诺数的算例,并将Re=102,4×102,103,2×103,5×103,7.5×103算例对应的主涡中心坐标与文献中结果进行了对比.计算结果与文献数值实验符合较好,从而验证了算法实现的正确性,并显示出MRT-LBM具有更优的数值稳定性.本文还分析了在GPU上MRT-LBM的计算性能并与CPU的计算进行了比较,结果表明,GPU可以极大地加快MRT-LBM的计算,NVIDIA Tesla C2050相对于单核Intel Xeon 5430 CPU的加速比约为60倍.  相似文献   

9.
NVIDIA公司于美国时间2008年2月21日正式推出了用于笔记本电脑和便携式膝上工作站的NVIDIA Quadro FX 3600M专业GPU(图形处理器)。新的移动版专业GPU具有许多技术特色,包括支持Shader Model 4.0、OpenGL 2.1、CUDA技术以及可视化GPU计算技术。Quadro FX 3600M完全符合MXM v2.1AⅢ 标准,  相似文献   

10.
通量分裂是在方程组条件下实现迎风特性的主要手段,为了实现典型通量分裂格式在CPU/GPU异构平台的性能分析。在NVIDIA GTX1660super上,使用统一设备计算架构(CUDA)编程模型实现一维欧拉求解器;以激波管Riemann问题为算例,对矢通量分裂格式van leer、通量差分分裂格式Roe以及混合通量分裂AUSMPW+进行计算分析;数值结果表明,三种格式在异构计算体系能够得到合理且可用的计算结果;Roe格式激波分辨率最高且在CPU/GPU体系加速效果最好;Van Leer激波分辨率较低于Roe和AUSMPW+,计算效率高但其格式构造中存在大量判断分支,影响了加速性能;AUSMPW+格式激波分辨率与Roe相当,加速性能略好于Van Leer。  相似文献   

11.
利用GPGPU(General Purpose GPU)强大的并行处理能力,基于NVIDIA CUDA框架对已有的稀疏磁共振(Sparse MRI)重建算法进行了并行化改造,使其能够适应实际应用的要求。稀疏磁共振成像的重建算法包含大量的浮点运算,计算耗时严重,难以应用于实际,必须对其进行加速和优化。实验结果显示,NVIDIA GTX275 GPU使运算时间从4分多钟缩短到3.4秒左右,与Intel Q8200 CPU相比,达到了76倍的加速。  相似文献   

12.
通过求解Euler方程获得运动翼段的非定常流场,并用CUDA语言对流场求解器进行GPU并行计算.使用ARMA(auto-regressive-moving-average)模型对非定常气动力进行辨识,由系统辨识模型得到的结果与全阶CFD计算结果十分吻合.基于降阶气动模型与结构的耦合,计算了具有S型颤振边界的气动弹性标准算例-Isogai Wing的跨音速颤振.本文给出的方法可以在保证气动弹性计算精度的前提下大幅提高计算效率.  相似文献   

13.
张延松  刘专  韩瑞琛  张宇  王珊 《软件学报》2023,34(11):5205-5229
GPU数据库近年来在学术界和工业界吸引了大量的关注. 尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统, 但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问, 如果能够超越, 那什么样的负载/数据/查询处理模型更加适合, 则需要更深入的研究. 基于GPU的OLAP引擎有两个主要的技术路线: GPU内存处理模式和GPU加速模式. 前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能, 不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率. 后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集, 主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率. 致力于将两种技术路线集成到OLAP加速引擎中, 研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator, 设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型, 实现GPU平台向量化查询处理技术, 优化显存利用率和查询性能, 探索GPU数据库的不同的技术路线和性能特征. 实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能, 与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速. 基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载, 能够比GPU内存模式支持更大的数据集.  相似文献   

14.
PhysX是NVIDIA(英伟达)公司推出的一款功能强大的物理效果计算引擎,它可以通过计算机上的NVIDIA图形卡的GPU实现高速的硬件物理效果加速计算,比传统的通过CPU计算效率高出很多,可以轻松实现复杂的大量的粒子碰撞效果。在国内,冶金机械设备种类很多,但这类设备通常体积庞大,这给产品的宣传和功能演示造成很大困难。本文将这些庞大、复杂的设备用三维软件,并通过PhysX物理计算引擎,进行虚拟、仿真,并利用多媒体软件制作交互,模拟设备运行,为设计者反馈动态数据,并让客户直观地了解设备的运行原理和新功能,这对冶金机械设备制造行业的发展将起到非常积极的促进作用。  相似文献   

15.
二维扩散方程的GPU加速   总被引:1,自引:0,他引:1  
近几年来,GPU因拥有比CPU更强大的浮点性能备受瞩目。NVIDIA推出的CUDA架构,使得GPU上的通用计算成为现实。本文将计算流体力学中Benchmark问题的二维扩散方程移植到GPU,并采用了全局存储和纹理存储两种方法。结果显示,当网格达到百万量级的时候,得到了34倍的加速。  相似文献   

16.
线性系统求解中迭代算法的GPU加速方法   总被引:1,自引:0,他引:1  
在求解线性系统时,迭代法是一种基本的方法,特别是在系数矩阵为大规模稀疏矩阵的情况下,高效地使用迭代法求解变得十分重要。本文通过分析迭代法的一般特点,提出了使用具有强大计算能力和存储带宽的GPU加速迭代法的一般方法。利用这些方法,在两种主流GPU平台上实现了一个经典的迭代法PQMRCGSTAB,并且针对不同的GPU平台特点提出了具体的优化方法。与AMD Opteron 2.4GHz 4核处理器相比,双精度版本的PQMRCGSTAB算法经NVIDIA Tesla S1070加速后性能提高31倍,经AMD Radeon HD 4870 X2加速后性能提高9倍。  相似文献   

17.
基于LS-DYNA的汽车保险杠碰撞仿真研究   总被引:1,自引:0,他引:1  
于英华  郎国军 《计算机仿真》2007,24(12):235-238
以显式动态有限元理论为基础,对汽车保险杠的碰撞进行了计算机仿真研究.作者根据台车碰撞试验对汽车吸能装置的要求及设计的汽车保险杠的结构尺寸,用Pro/ENGINEER建立了碰撞体及保险杠的仿真模型,用ANSYS对模型作了前处理,调用LS-NYNA 求解器ls970进行了求解,最后用LS-PREPOSTD作了后处理,并对仿真结果进行了分析.通过仿真可预测出汽车保险杠发生碰撞时受力、变形和吸能情况,从而为保险杠的优化设计提供了依据.  相似文献   

18.
快速傅里叶变换(fast Fourier transform,FFT)在科学和工程界中具有着广泛的应用,尤其是在信号处理、图像处理以及求解偏微分方程领域.基于图形处理器(graphic processing unit,GPU)和加速处理器(accelerated processing unit,APU)的异构平台,提出了自适应性能优化的大规模并行FFT(massively parallel FFT,MPFFT)框架.MPFFT框架采用了安装时和运行时2层自适应策略.安装时借助代码产生器可以生成被GPU程序内核(kernel)调用的任意长度的代码模板库(codelet);运行时根据自动调优技术使代码产生器生成高度优化的GPU计算代码.实验结果表明:MPFFT在APU平台上,一维、二维以及三维FFT相对于AMD clAmdFft 1.6取得的平均加速比分别为3.45,15.20以及4.47,在AMD HD7970GPU上平均加速比分别为1.75,3.01和1.69.在NVIDIA Tesla C2050GPU上取得的整体性能都达到了CUFFT 4.1的93%,最大加速比能够达到1.28.  相似文献   

19.
2016年1月4日,在美国拉斯维加斯举办的国际消费类电子产品展览会(CES)上,NVIDIA发布了NVIDIA DRIVE PX 2,全球最强大的车载人工智能引擎. DRIVE PX 2是NVIDIA为其汽车领域的合作伙伴而打造的产品,这套系统相当于150台MacBook Pro,为深度学习提供了前所未有的处理性能.它包含2颗第二代Tegra处理器和2颗基于Pascal架构的新一代独立GPU,每秒最多可完成24万亿次深度学习运算.该平台采用专门的指令集,这些指令集可加速深度学习网络推理中所运用的数学运算,平台计算性能比上一代产品快10倍以上.在通用浮点运算方面, DRIVE PX 2的多精度GPU架构每秒最多能够完成8万亿次运算,比上一代产品快了4倍以上.  相似文献   

20.
邓亮  徐传福  刘巍  张理论 《计算机应用》2013,33(10):2783-2786
交替方向隐格式(ADI)是常见的偏微分方程离散格式之一,目前对ADI格式在计算流体力学(CFD)实际应用中的GPU并行工作开展较少。从一个有限体积CFD应用出发,通过分析ADI解法器的特点和计算流程,基于统一计算架构(CUDA)编程模型设计了基于网格点与网格线的两类细粒度GPU并行算法,讨论了若干性能优化方法。在天河-1A系统上,采用128×128×128网格规模的单区结构网格算例,无粘项、粘性项及ADI迭代计算的GPU并行性能相对于单CPU核,分别取得了100.1、40.1和10.3倍的加速比,整体ADI CFD解法器的GPU并行加速比为17.3  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号