期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王凯封卫兵晁媛《计算机工程与设计》2009,30(19)

提出了一种结合GPU通用计算与计算流体力学中的LBM算法来模拟二维流场的方法.根据GPU通用计算和LBM方法的基本原理,利用OpenGL的离屏渲染技术FBO和Cg语言,基于LBM方法中的D2Q9模型对二维方腔流进行数值模拟,并设计出基于OpenGL的GPU通用计算的二维流场数值计算框架.实验结果表明,利用GPU模拟与CPU模拟流场的数值结果相当吻合,特别地,利用GPU进行数值模拟实验的速度是利用CPU的4倍左右. 相似文献

2.

基于LBM模型在GPU上实时草波动的实现研究 总被引：1，自引：0，他引：1

王国锦陈雷霆何明耘《计算机应用》2006,26(Z2):271-272

对室外复杂场景真实感的渲染的需求越来越高.越来越多能体现真实感渲染的物理模型用于实时渲染中.LBM(Lattice Boltzmann Model)模型在保证质量守恒和动量守恒的前提下,能模拟复杂流体运动.而图形硬件(GPU)的发展,使LBM模型能在GPU上实现,提高了算法的运行效率,使之能用于实时渲染.为了实现对室外复杂场景真实感的渲染,提出了基于物理模型实现实时渲染草地波动效果的算法.用LBM模型模拟风力场,用简单且实用的方法建模草地,实现实时渲染大规模草地的波动效果,且能达到比较真实的效果. 相似文献

3.

多图形处理器上Lattice-Boltzmann方法的加速

吴亮钟诚文郑彦奎刘沙卓丛山陈效鹏《计算机辅助设计与图形学学报》2010,22(11)

为了提高计算流体领域中复杂流动现象模拟计算的高效性和准确性,充分利用图形硬件的并行性,提出一种在单机多图形处理器下基于CUDA架构的Lattice Boltzmann方法(LBM)的模拟算法.采用区域划分策略将域上的LBM网格平均分配到不同的GPU设备上,在分区边界处搭接一层网格以方便计算该处网格的迁移过程,减少GPU间的通信量,并合理地利用CUDA存储层次架构中的全局内存和纹理内存为计算网格分配设备空间;采用多线程技术,用每个线程控制不同的GPU设备,同时引入线程同步机制信号量实现线程间的数据通信同步控制,按照LBM方程组的求解过程实现模拟计算.实验结果表明,双GPU将计算加速到单GPU的1.77倍左右,同时将流场计算网格规模从单GPU下的4160×4160扩大到双GPU下的6144×6144. 相似文献

4.

多松弛时间格子Boltzmann方法在GPU上的实现

张云王小伟葛蔚杨朝合《计算机与应用化学》2011,28(3)

近年来,随着统一计算设备构架(CUDA)的出现,高端图形处理器(GPU)在图像处理、计算流体力学等科学计算领域的应用得到了快速发展.属于介观数值方法的格子Boltzmann方法(LBM)是1种新的计算流体力学(CFD)方法,具有算法简单、能处理复杂边界条件、压力能够直接求解等优势,在多相流、湍流、渗流等领域得到了广泛应用.LBM由于具有内在的并行性,特别适合在GPU上计算.采用多松弛时间模型(MRT)的LBM,受松弛因子的影响较小并且数值稳定性较好.本文实现了MRT-LBM在基于CUDA的GPU上的计算,并通过计算流体力学经典算例--二维方腔流来验证计算的正确性.在雷诺数Re=[10,104]之间,计算了多达26种雷诺数的算例,并将Re=102,4×102,103,2×103,5×103,7.5×103算例对应的主涡中心坐标与文献中结果进行了对比.计算结果与文献数值实验符合较好,从而验证了算法实现的正确性,并显示出MRT-LBM具有更优的数值稳定性.本文还分析了在GPU上MRT-LBM的计算性能并与CPU的计算进行了比较,结果表明,GPU可以极大地加快MRT-LBM的计算,NVIDIA Tesla C2050相对于单核Intel Xeon 5430 CPU的加速比约为60倍. 相似文献

5.

LBM算法在GPU组中的应用

王鹏封卫兵《计算机工程与设计》2011,32(12):4237-4240

为提高大规模并行计算的并行效率,充分发挥CPU与GPU的功能特点,特别是体现GPU强大的运算能力,提出了用消息传递接口(MPI)将一组GPU连接起来。使GPU通用计算与计算流体力学中的LBM(latticeBoltzmannmethod)算法相结合。根据GPU通用计算与LBM算法的原理,使MPI作为计算分配的机制,CUDA(compute unified device architecture)作为主要的计算执行引擎,建立支持CUDA的GPU集群,在集群上对LBM算法中的D2Q9模型进行二维方腔流数值模拟。实验结果表明,利用GPU组模拟与CPU模拟结果一致,更充分发挥了GPU的计算能力,提高了并行效率。相似文献

6.

GPU通用计算平台上的SPH流体模拟 总被引：2，自引：1，他引：2

温婵娟欧嘉蔚贾金原《计算机辅助设计与图形学学报》2010,22(3)

针对流体模拟需要大量计算资源从而很难达到实时模拟的问题,提出一种完全在GPU上实现的基于平滑粒子流体动力学的流体模拟方法.首先通过在GPU上构造基于哈希函数的空间均匀网格来实现任意大小场景的快速邻近粒子查找,并在GPU上并行求解SPH流体方程来实现流体模拟;渲染流体时,通过在顶点着色器中进行纹理采样,利用粒子坐标缓存数据直接更新流体粒子系统的顶点缓存,从而避免了CPU—GPU之间的数据传输,充分利用了GPU的并行性.实验对比表明,与纯CPU实现以及CPU和GPU混合实现的模拟结果相比,采用该方法能显著地减少单个时间片的计算时间,大幅度提高流体模拟和渲染的整体性能. 相似文献

7.

基于GPU的多属性数据快速融合渲染研究

朱化红邓飞刘静玮《广东电脑与电讯》2015,1(6):27-30

由于传统的渲染技术是使用CPU 进行数据体颜色计算或融合处理的,这种技术对大规模数据体进行渲染时效率低、时间长,针对这种情况提出一种采用GPU 进行数据体颜色计算和融合处理的方法。该方法充分利用GPU 强大的并行处理能力,将待渲染的数据以纹理形式提交给GPU,由GPU 进行必要的颜色插值和融合处理后直接渲染。实验结果表明, 该方法能够将多种属性融为一体,有机地结合了各属性的优点,能对油气储层进行综合评价,提高储层分析和解释的准确度, 并且使用了硬件加速功能,渲染速度快。相似文献

8.

一种基于哈尔小波的软阴影渲染算法在GPU上的实现

李凌春杨旭波肖双九《计算机应用与软件》2009,26(7):228-231

由于小波相比球面谐波函数能够更好地表现许多高频光照细节,哈尔小波被越来越多地被应用在许多基于PRT的全局光照渲染算法中.在PRT框架下,利用小波变换对光照、遮挡、BRDF等函数进行预处理.然后,利用所得到的预处理数据,在GPU上来实时地渲染软阴影.在渲染过程中,使用Tree-structured算法来计算渲染方程.为了能在GPU上实现该算法,对该算法中所用到数据结构的实现方式进行重新设计,并对该算法的实现过程进行调整和优化.同时,利用GPU的一些特性,在一些实现细节上也进行了相应优化. 相似文献

9.

基于GPU的大规模波动草叶实时渲染技术

刘明徐飞刘玉《微计算机信息》2008,24(15):293-295

本文通过有效利用图形硬件图形处理单元(GPU)的运算能力和编程性,将大量计算从CPU中分离出来,实现了自然逼真而且高效的大规模波动草叶的实时渲染.利用GPU的顶点程序进行草叶的运动计算,利用GPU的片元程序进行静态阴影的计算.本文技术由OpenGL结合Cg编程实现,达到了自然逼真的渲染效果和较高的渲染效率. 相似文献

10.

GPU视频纹理技术在三维电影播放中的应用

成效万旺根余小清徐鸿玮《计算机工程与设计》2010,31(18)

研究了三维电影播放应用中的视频纹理技术,分析了该方法的国内外研究现状、难题和挑战,提出了有效地解决方案,并对该方案进行设计.采用 DirectShow进行视频数据的调度与管理,Direct3D作为图形渲染API,提取出传统渲染管道下的并行运算部分,利用可编程GPU并行运算的特性对其进行加速渲染,并利用GPU纹理压缩方法解决了显存容量有限的问题.实验结果表明,该设计方法能够有效地提高帧速率,缓解CPU负担,解决实时渲染中的性能瓶颈问题,在实际应用中具有较强的使用价值. 相似文献

11.

基于GPU的遥感影像数据融合IHS变换算法 总被引：5，自引：1，他引：4

下载免费PDF全文

卢俊张保明黄薇李二森《计算机工程》2009,35(7):261-263

提出基于图形处理单元（GPU）的遥感影像IHS融合算法,利用图形硬件的可编程渲染器和其处理数据的并行性,把IHS的正反变换映射到GPU中进行计算。应用RTT和MRT技术实现IHS正反变换中3个分量的并行渲染输出,加速计算过程。实验结果表明,在数据量较大时,该算法的处理速度比基于CPU的算法速度更快。相似文献

12.

基于GPU的立体图像对的快速校正

朱宾张丽艳韦虎《计算机与现代化》2010,(9):1-4

随着图形处理器（GPU）的发展,特别是其构架的改变,显卡已经不再是固定流水线的图形处理器,而是类似单指令多数据结构的并行可编程流处理器。近几年兴起了GPU通用计算（GPGPU）的研究热潮,并在许多领域中得到了应用。本文将GPGPU应用到立体图像对的校正过程中,有效解决了其中图像插值算法的计算效率较低的问题。实例验证了本文算法的有效性。相似文献

13.

基于GPU的图像特征并行计算方法

张杰柴志雷喻津《计算机科学》2015,42(10):297-300, 324

特征提取与描述是众多计算机视觉应用的基础。局部特征提取与描述因像素级处理产生的高维计算而导致其计算复杂、实时性差,影响了算法在实际系统中的应用。研究了局部特征提取与描述中的关键共性计算模块——图像金字塔机制及图像梯度计算。基于NVIDIA GPU/CUDA架构设计并实现了共性模块的并行计算,并通过优化全局存储、纹理存储及共享存储的访问方式进一步实现了其高效计算。实验结果表明,基于GPU的图像金字塔和图像梯度计算比CPU获得了30倍左右的加速,将实现的图像金字塔和图像梯度计算应用于HOG特征提取与描述算法,相比CPU获得了40倍左右的加速。该研究对于基于GPU实现局部特征的高速提取与描述具有现实意义。相似文献

14.

CUDA架构下的三维弹性静力学边界元并行计算

王英俊王启富王钢王书亭黄运保《计算机辅助设计与图形学学报》2012,24(1):112-119

针对传统边界元法计算量大、计算效率低的问题,以三维弹性静力学的边界元法为对象,将基于CUDA的GPU并行计算应用到其边界元计算中,提出了基于CUDA架构的GPU并行算法.该算法首先对不同类型的边界元系数积分进行并行性分析,描述了相关的GPU并行算法,然后阐述了边界元方程组的求解方法及其并行策略.实验结果表明,文中算法较传统算法具有显著的加速效果. 相似文献

15.

A Fuzzy Neural Network Based Dynamic Data Allocation Model on Heterogeneous Multi-GPUs for Large-scale Computations

Chao-Long Zhang Yuan-Ping Xu Zhi-Jie Xu Jia He Jing Wang Jian-Hua Adu 《国际自动化与计算杂志》2018,15(2):181-193

The parallel computation capabilities of modern graphics processing units (GPUs) have attracted increasing attention from researchers and engineers who have been conducting high computational throughput studies. However, current single GPU based engineering solutions are often struggling to fulfill their real-time requirements. Thus, the multi-GPU-based approach has become a popular and cost-effective choice for tackling the demands. In those cases, the computational load balancing over multiple GPU “nodes” is often the key and bottleneck that affect the quality and performance of the real-time system. The existing load balancing approaches are mainly based on the assumption that all GPU nodes in the same computer framework are of equal computational performance, which is often not the case due to cluster design and other legacy issues. This paper presents a novel dynamic load balancing (DLB) model for rapid data division and allocation on heterogeneous GPU nodes based on an innovative fuzzy neural network (FNN). In this research, a 5-state parameter feedback mechanism defining the overall cluster and node performance is proposed. The corresponding FNN-based DLB model will be capable of monitoring and predicting individual node performance under different workload scenarios. A real-time adaptive scheduler has been devised to reorganize the data inputs to each node when necessary to maintain their runtime computational performance. The devised model has been implemented on two dimensional (2D) discrete wavelet transform (DWT) applications for evaluation. Experiment results show that this DLB model enables a high computational throughput while ensuring real-time and precision requirements from complex computational tasks. 相似文献

16.

Partial migration technique for GPGPU tasks to Prevent GPU Memory Starvation in RPC-based GPU Virtualization

JiHun Kang JongBeom Lim HeonChang Yu 《Software》2020,50(6):948-972

Graphics processing unit (GPU) virtualization technology enables a single GPU to be shared among multiple virtual machines (VMs), thereby allowing multiple VMs to perform GPU operations simultaneously with a single GPU. Because GPUs exhibit lower resource scalability than central processing units (CPUs), memory, and storage, many VMs encounter resource shortages while running GPU operations concurrently, implying that the VM performing the GPU operation must wait to use the GPU. In this paper, we propose a partial migration technique for general-purpose graphics processing unit (GPGPU) tasks to prevent the GPU resource shortage in a remote procedure call-based GPU virtualization environment. The proposed method allows a GPGPU task to be migrated to another physical server's GPU based on the available resources of the target's GPU device, thereby reducing the wait time of the VM to use the GPU. With this approach, we prevent resource shortages and minimize performance degradation for GPGPU operations running on multiple VMs. Our proposed method can prevent GPU memory shortage, improve GPGPU task performance by up to 14%, and improve GPU computational performance by up to 82%. In addition, experiments show that the migration of GPGPU tasks minimizes the impact on other VMs. 相似文献

17.

基于GPU的散斑三维重建系统

韩磊徐波黄向生张彦峰《计算机科学》2015,42(8):294-299

散斑相关算法可以用来估计场景的深度信息,但因易受到噪声干扰且计算量大而难以应用在基于普通计算机的三维重建系统中。采取零均值归一化互相关函数(ZNCC)作为相关算法的匹配代价函数,对传统的ZNCC快速计算方法进行修改并将其应用于计算机的通用图形处理器(GPU),实现了实时的场景三维重建效果。对比实验表明,在精度一致的前提下,提出的GPU计算方法的速度是CPU算法的39倍。相似文献

18.

GPU acceleration of the stochastic grid bundling method for early-exercise options

Álvaro Leitao Cornelis W. Oosterlee 《国际计算机数学杂志》2015,92(12):2433-2454

In this work, a parallel graphics processing units (GPU) version of the Monte Carlo stochastic grid bundling method (SGBM) for pricing multi-dimensional early-exercise options is presented. To extend the method's applicability, the problem dimensions and the number of bundles will be increased drastically. This makes SGBM very expensive in terms of computational costs on conventional hardware systems based on central processing units. A parallelization strategy of the method is developed and the general purpose computing on graphics processing units paradigm is used to reduce the execution time. An improved technique for bundling asset paths, which is more efficient on parallel hardware is introduced. Thanks to the performance of the GPU version of SGBM, a general approach for computing the early-exercise policy is proposed. Comparisons between sequential and GPU parallel versions are presented. 相似文献

19.

Real-time brain extraction method from cerebral MRI volume based on graphic processing units

Shaofeng Jiang Yu Wang Zhen Chen Kaiqiong Sun 《Neural computing & applications》2014,25(5):1145-1151

In this paper, we proposed a method for accelerating brain extraction computations from cerebral MRI volume using compute unified device architecture (CUDA) based on multi-core graphic processing units (GPU). This algorithm is based on the well-known brain extraction method—Brain Extraction Tool (BET). In order to significantly reduce the computational time for real-time processing, the algorithm was performed in a parallel way by assigning one thread in GPU to calculate the new position of one vertex on the brain surface and all the vertices on the brain surface on one slice are processed in the same thread block, thus all the positions of the vertices on the brain’s surface can be updated in the same time. Experiments showed the computational time of this parallel method was less than one second and much less than that of normal BET. A slice-by-slice way was also used to improve the accuracy of our algorithm, and both the result and consuming time are desirable. 相似文献

20.

异构平台下格子Boltzmann方法实现及性能分析

张丹丹徐莹徐磊《计算机科学》2012,39(4):296-298,303

对CPU+GPU异构平台下的多种并行编程模式进行了研究,并针对格子Boltzmann方法实现了CUDA,MPI+CUDA,MPI+OpenMP+CUDA多级并行算法。结果表明,算法具有较好的加速性能;提出的根据计算量比例参数调节CPU和GPU之间负载均衡的方法,对于在异构平台上实现多级并行处理及资源的有效利用具有一定的参考和应用价值。相似文献