期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈曦王章野何戬延诃彭群生《计算机辅助设计与图形学学报》2010,22(3)

为了实时模拟真实的大规模流体场景,提出一种基于平滑粒子流体力学(SPH)进行流体场景模拟的算法.首先提出了新的精细程度函数作为非均匀采样的依据,以减少实际模拟时所需的粒子数,提高模拟的速度;然后引入一种三维空间网格划分算法和改进的并行基数排序算法,以加快模拟过程中对邻域粒子和边界的查找及其相互作用的计算;最后使用最新的NVIDIA(CUDA(架构,将SPH的全部模拟计算分配到GPU流处理器中,充分利用GPU的高并行性和可编程性,使得对SPH方法的流体计算和模拟达到实时.实验结果表明,采用文中算法能对流体场景的计算模拟达到实时,并实现比较真实的模拟效果.与已有的SPH流体CPU模拟方法相比,其加速比达到2个数量级以上,同时相比已有GPUSPH方法,能模拟出更为丰富的细节效果. 相似文献

2.

GPU通用计算平台上的SPH流体模拟 总被引：3，自引：1，他引：2

温婵娟欧嘉蔚贾金原《计算机辅助设计与图形学学报》2010,22(3)

针对流体模拟需要大量计算资源从而很难达到实时模拟的问题,提出一种完全在GPU上实现的基于平滑粒子流体动力学的流体模拟方法.首先通过在GPU上构造基于哈希函数的空间均匀网格来实现任意大小场景的快速邻近粒子查找,并在GPU上并行求解SPH流体方程来实现流体模拟;渲染流体时,通过在顶点着色器中进行纹理采样,利用粒子坐标缓存数据直接更新流体粒子系统的顶点缓存,从而避免了CPU—GPU之间的数据传输,充分利用了GPU的并行性.实验对比表明,与纯CPU实现以及CPU和GPU混合实现的模拟结果相比,采用该方法能显著地减少单个时间片的计算时间,大幅度提高流体模拟和渲染的整体性能. 相似文献

3.

基于GPU加速的粒子流体动力学流血模拟算法

《计算机应用与软件》2018,(2)

流血模拟是虚拟手术训练系统的重要组成部分。然而,流血模拟的真实性和庞大的计算量对手术训练系统具有很大的挑战。提出一种基于GPU加速的方法以解决虚拟手术中的流血效果模拟的实时性问题。该方法利用网格法实时划分问题区域,创建以支持域为边长的空间网格。通过临近网格搜索最近相邻粒子,并且通过并行计算架构(CUDA)多线程并行加速技术完成粒子控制方程的求解以及血液与固体交互的计算,大大提高了运算效率,从而提高了手术训练的实时性。一种改进的移动立方体算法(marching cube)用于流体表面的渲染,大大提高了手术训练的真实性。实验结果表明,该方法能够满足虚拟手术过程中流血的模拟需求,相比于CPU的实现,速度明显提升。相似文献

4.

基于CPU-GPU混合加速的SPH流体仿真方法 总被引：1，自引：0，他引：1

胡鹏飞袁志勇廖祥云郑奇陈二虎《计算机工程与科学》2014,36(7):1231-1237

基于光滑粒子流体力学SPH的流体仿真是虚拟现实技术的重要研究内容,但SPH流体仿真需要大量的计算资源,采用一般计算方法难以实现流体仿真的实时性。流体仿真通常由物理计算、碰撞检测和渲染等部分组成,借助GPU并行加速粒子的物理属性计算和碰撞过程使SPH方法的实时流体仿真成为可能。为了满足流体仿真应用中的真实性和实时性需求,提出一种基于CPU GPU混合加速的SPH流体仿真方法,流体计算部分采用GPU并行加速,流体渲染部分采用基于CPU的OpenMP加速。实验结果表明,基于CPU GPU混合加速的SPH流体仿真方法与CPU实现相比,能显著地减少流体仿真单帧计算时间且能更快速地完成渲染任务。相似文献

5.

一个SPH流体实时模拟的全GPU实现框架

郭秋雷唐逸之刘诗秋李桂清《计算机应用与软件》2011,28(11)

怎样实时地进行高度逼真的大规模流体模拟是图形学要研究的一个重要内容。流体的模拟由物理计算、碰撞检测、表面重构和渲染几个部分组成,因此有大量工作针对流体模拟中的各个部分算法进行GPU加速。提出一整套基于GPU的SPH流体模拟加速框架。在利用平滑粒子动力学(SPH)求解Navier-Stokes方程的基础上,借助基于GPU的空间划分PSS(Parallel Spatial Subdivision)来大幅度提升粒子碰撞的检测速度。同时,设计一种基于几何着色器(Geometry Shader)的流体表面信息的重建算法,并进一步地实现基于索引的优化,使得在流体表面重建过程无须遍历不包含表面的区域。实验结果表明,该方法能实时模拟出具有较好真实感的流体场景。相似文献

6.

基于GPU的分子动力学模拟Cell Verlet算法实现及其并行性能分析

张帅徐顺刘倩金钟《计算机科学》2018,45(10):291-294, 299

分子动力学模拟存在空间和时间的复杂性,并行加速分子的模拟过程尤为重要。基于GPU硬件数据并行架构的特点,组合分子动力学模拟的原子划分和空间划分的并行策略,优化实现了短程作用力计算Cell Verlet算法,并对分子动力学核心基础算法的GPU实现做了优化和性能分析。Cell Verlet算法实现首先采用原子划分的方式,将每个粒子的模拟计算任务映射到每个GPU线程,并采用空间划分的方式将模拟区域进行元胞划分,建立元胞索引表,实现粒子在模拟空间的实时定位;而在计算粒子间的作用力时,引入希尔伯特空间填充曲线方法来保持数据的线性存储与数据的三维空间分布的局部相关性,以便通过缓存加速GPU的全局内存访问;也利用了访存地址对齐和块内共享等技术来优化设计GPU分子动力学模拟过程。实例测试与对比分析显示,当前的算法实现具有强可扩展性和加速比等优势。相似文献

7.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

8.

CPU与GPU并行计算的火焰模拟

王栋栋庄雷《计算机应用》2009,29(6):1702-1710

采用基于粒子插值的SPH方法对火焰流体进行模拟,用GPU加速粒子状态地计算,同时用CPU并行地计算粒子邻接关系并控制粒子产生速率。在SPH模型中,较为高效地加入了漩涡场的计算,增加了粒子运动的细节。在粒子渲染过程中,采用了色度场、有向点扩散和颜色锐化技术,由离散的粒子空间分布得到了较为理想的连续火焰图像。由于该方法属于流体模拟的拉格朗日法,所以火焰具有物理真实性,又由于采用GPU为主CPU为辅的计算架构,使得模拟达到了实时。相似文献

9.

GPU加速的高精度数字地面模型建模方法

闫长青岳天祥《计算机工程与应用》2012,48(22):22-27

以曲面轮为基础发展的高精度曲面建模方法（HASM）可以建立具有高精度的数字高程模型,但使用该方法需要求解偏微分方程离散产生的大规模线性方程组,计算量巨大,严重制约了对大规模数据的模拟应用;而现代GPU技术的发展使GPU越来越广泛地应用于通用计算加速。为了提高HASM方法的模拟速度,把高精度曲面模拟与GPU通用技术相结合,提出了GPU加速的高精度曲面建模方法。把HASM模拟过程中的有限差分离散、离散后的大规模线性系统求解分别使用GPU进行分解,使用共轭梯度（CG）和预处理共轭梯度方法（PCG）将求解任务分解为可以并行处理的独立的多任务,使得计算任务并行化,同时并行运行大规模线程,每个线程执行一个独立的任务,充分利用了现代GPU强大的通用计算能力,并行处理以获得加速。利用并行化加速的高精度曲面建模算法使用英伟达公司的统一计算开发架构（CUDA）编程实现,GPU采用该公司的Quadro 2000。分别应用该算法进行了数值实验和实际项目区数字高程模型（DEM）模拟实验。实验结果表明,充分利用GPU的并行处理能力加速后的HASM方法,在保证达到相同曲面模拟的精度条件下,和传统的CPU方法相比,算法可以获得超过一个数量级的加速。相似文献

10.

基于GPU的LARED-P算法加速

刘来国徐炜遐杨灿群陈娟《计算机工程与科学》2009,31(Z1)

GPU拥有几百GFlops甚至上TFlops的浮点计算能力,将GPU应用于粒子模拟,可有效提高大规模粒子模拟的速度,降低计算成本。本文利用GPU加速三维激光等离子体模拟算法LARED-P,提出了基于CPU+GPU的任务划分、GPU上任务分解、大规模计算核心的分解方法,结合使用了寄存器、纹理内存对算法进行加速。在双精度条件下,移植后的算法在工作频率为1.44GHz的NVIDIA Tesla S1070的单个GPU上获得了相当于主频2.4GHz的Intel(R)Core(TM)2 Quad CPU Q6600单核的6倍加速比。相似文献

11.

CPU–GPU hybrid parallel strategy for cosmological simulations

Yueqing Wang Yong Dou Song Guo Yuanwu Lei Dan Zou 《Concurrency and Computation》2014,26(3):748-765

Gadget is a simulation application for N‐body and smoothed particle hydrodynamics problems in cosmology, and it is widely applied in solving series of cosmological problems. N‐body focuses on the motion of the interaction of N particles, and smoothed particle hydrodynamics is a fluid simulation algorithm that studies the movement of fluid through particle simulation. Most scholars focus their attention on accelerating Gadget on multi‐core CPU or graphics processing units (GPUs) platforms. However, these research activities failed to achieve CPU–GPU hybrid computing, which resulted in tremendous waste of CPU computing resources. In this paper, we propose a CPU–GPU hybrid parallel strategy to accelerate Gadget‐2, a massively parallel structure formation code for cosmological simulations. This strategy uses CPU and GPU to process the calculation of short‐range force. To ensure CPU and GPU workload balance, a dynamic task allocation scheme is proposed according to the computational performance difference between the CPU and GPU. Experimental results showed that our CPU–GPU hybrid parallel strategy achieved an overall speedup factor of 18.6 and a partial speedup factor for short‐range force calculation of 28.35 compared with a single‐core CPU implementation for particles in million‐size magnitudes. Moreover, compared with a GPU platform that contained 12 CPU cores and one GPU, our hybrid parallel strategy obtained overall speedup and partial speedup factors of 6% and 20%, respectively. Furthermore, the scalability of the hybrid strategy is very fine – its performance will be enhanced when the problem scale is increasing. However, this strategy also has its limitation that the performance enhancement will be decreasing if the ratio(the number of CPU cores divides that of the GPU cards) reduces. Finally, in our hybrid strategy, the CPU coefficient of utilization improved by 17.14% or better. Copyright © 2013 John Wiley & Sons, Ltd. 相似文献

12.

SPH-GPU并行计算在风沙流中的应用

下载免费PDF全文

梁岚博金阿芳闻腾腾《计算机工程与应用》2022,58(1):248-254

为了实现小尺度范围风沙运动的真实感模拟,采用基于拉格朗日力学无网格形式的光滑粒子流体动力学（smooth particle hydrodynamics,SPH）方法解决了基于欧拉网格法因网格大变形或者变形边界等引起的各种问题,并克服了不能用固定欧拉网格追踪任意单颗粒子运动轨迹的困难,因此该方法在研究风沙运动方面有着独特的优势。然而,随着风沙流动中SPH粒子数目的增加,该方法计算效率低,计算规模大的缺陷在风沙模拟过程中尤为明显。为了提高其计算效率,在CUDA软硬件平台上,建立SPH-GPU并行加速的二维气沙两相耦合模型,对串行的热点程序进行分析,找出最耗时且适合并行的热点程序;其次对GPU并行计算模型进行验证,宏观上得到了沙粒群运动的时空变化规律,微观上得到了典型沙粒的跃移轨迹和变异的尖角轨迹;最后对比了三种不同粒子数下CPU与GPU的计算效率。模拟结果证明SPH-GPU并行计算方法能够进一步应用在风沙流的数值模拟研究中。相似文献

13.

Parallel computing of 3D smoking simulation based on OpenCL heterogeneous platform

Zhiyong Yuan Weixin Si Xiangyun Liao Zhaoliang Duan Yihua Ding Jianhui Zhao 《The Journal of supercomputing》2012,61(1):84-102

Open Computing Language (OpenCL) is an open royalty-free standard for general purpose parallel programming across Central Processing Units (CPUs), Graphic Processing Units (GPUs) and other processors. This paper introduces OpenCL to implement real-time smoking simulation in a virtual surgery training simulation system. Firstly, the Computational Fluid Dynamics (CFD) is adopted to construct the real-time smoking simulation model based on the Navier?CStokes (N-S) equations of an incompressible fluid under the condition of normal temperature and pressure. Then we propose a parallel computing technique based on OpenCL to accomplish the parallel computing of smoking simulation model on CPU and GPU, respectively. Finally, we render the smoke in real time by using a three-dimensional (3D) texture volume rendering method. Experimental results show that the parallel computing technique we have proposed achieve a satisfactory effect on image quality and rendering rate both on CPU and GPU. 相似文献

14.

可扩展的实时自然景物模拟算法

肖何饶云波李佳邓利平《计算机工程与科学》2014,36(9):1795-1800

针对传统的粒子系统实时仿真存在只能针对单一自然景物模拟、计算耗时、图像不真实、算法复杂等问题,提出了一种基于粒子系统和图形处理器（GPU）加速通用可扩展的自然景物模拟算法。在该算法中,粒子的物理运动计算过程和渲染阶段完全由CPU转移至GPU,可以增加粒子数量和提高渲染速度;同时,在渲染过程中,可以较好地利用硬件支持的粒子图技术来改善渲染中粒子的外表,选择不同纹理,从而能够较方便地模拟不同的自然景物。最后,在GPU上实现了雪花、喷泉、烟花、瀑布等模拟,算法充分利用了GPU的多通道并行处理性和可编程性,提高了自然景物模拟的实时性,可运用于虚拟现实系统。相似文献

15.

基于图形处理器的边缘检测算法 总被引：1，自引：0，他引：1

张楠王建立王鸣浩《计算机科学》2010,37(1):265-267

边缘检测是一种高度并行的算法,计算量较大,传统的CPU处理难以满足实时要求。针对图像边缘检测问题的计算密集性,在分析常用边缘检测算法的基础上,利用CUDA(Compute Unified Device Architecture,计算统一设备架构)软硬件体系架构,提出了图像边缘检测的GPU(Graphics Processing Unit,图形处理器)实现方案。首先介绍GPU高强度并行运算的体系结构基础,并将Roberts和Sobel这两个具有代表性的图像边缘检测算法移植到GPU,然后利用当前同等价格的CPU和GPU进行对比实验,利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率。实验结果表明,与相同算法的CPU实现相比,其GPU实现获得了相同的处理效果,并将计算效率最高提升到了17倍以上,以此证明GPU在数字图像处理的实际应用中大有潜力。相似文献

16.

Fast Fluid Simulations with Sparse Volumes on the GPU

下载免费PDF全文

Kui Wu Nghia Truong Cem Yuksel Rama Hoetzlein 《Computer Graphics Forum》2018,37(2):157-167

We introduce efficient, large scale fluid simulation on GPU hardware using the fluid‐implicit particle (FLIP) method over a sparse hierarchy of grids represented in NVIDIA^® GVDB Voxels. Our approach handles tens of millions of particles within a virtually unbounded simulation domain. We describe novel techniques for parallel sparse grid hierarchy construction and fast incremental updates on the GPU for moving particles. In addition, our FLIP technique introduces sparse, work efficient parallel data gathering from particle to voxel, and a matrix‐free GPU‐based conjugate gradient solver optimized for sparse grids. Our results show that our method can achieve up to an order of magnitude faster simulations on the GPU as compared to FLIP simulations running on the CPU. 相似文献

17.

层流扩散燃烧在GPU上的并行计算和数值分析

魏浩洋曾国荪丁春玲《计算机应用》2013,33(9):2428-2431

在实际工程应用中,使用传统的CPU串行计算来开展燃烧数值模拟往往难以满足对模拟速度的要求。利用GPU比CPU更强的计算能力,通过在交错网格上将燃烧物理方程离散化,使用预处理稳定双共轭梯度法(PBiCGSTAB)求解离散化方程,并且探索面向GPU编程的矩阵向量乘并行算法和逆矩阵向量乘并行算法,从而给出一种在GPU上数值求解层流扩散燃烧的可行方法。实验结果表明,GPU并行程序获得了相对串行CPU程序约10倍以上的加速效果,且计算结果与实际情况相符,因而所提方法是可行且高效的。相似文献

18.

在线光束平差法的高速计算方法研究

谢双镱孙瑞鑫郭雪亮柴志雷《计算机应用研究》2022,39(7)

光束平差法（bundle adjustment,BA）是同步定位和地图构建（simultaneous localization and mapping,SLAM）后端优化的关键技术。在线使用光束平差时能否满足实时性要求,是将其应用于自动驾驶车端等实时系统的关键因素。首先分析特定场景中SLAM数据特点,提出滑动窗口机制降低计算规模;分析局部BA计算中稀疏矩阵性质提升算法的可并行性;最后基于嵌入式GPU对算法进行并行加速。将其应用于车载SLAM系统并在真实场景下测试,实验结果表明,在AGX Xavier嵌入式GPU上,针对720P道路场景,该方法比同平台CPU上处理性能平均提升4.8倍,可以处理15 fps的相机位姿地图数据,满足了30 fps的视频处理需求,达到了车载系统的实时性要求。相似文献