首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。  相似文献   

2.
基于光线追踪,将屏幕图像像素分解为投射光线与场景对象交点面片辐射亮度和 纹理贴图的合成,每个面片的辐射亮度计算基于双向反射分布函数(BRDF)基的线性组合,并通 过图形处理器(GPU)处理核心并行绘制进行加速,最后与并行计算的纹理映射结果进行合成。 提出了一种基于BRDF 和GPU 并行计算的全局光照实时渲染算法,利用GPU 并行加速,在提 高绘制效率的前提下,实现动态交互材质的全局光照实时渲染。重点研究:对象表面对光线的 多次反射用BRDF 基的线性组合来表示,将非线性问题转换为线性问题,从而提高绘制效率; 利用GPU 并行加速,分别计算对象表面光辐射能量和纹理映射及其线性组合,进一步提高计算 效率满足实时绘制需求。  相似文献   

3.
编写实现了六方点阵中拉普拉斯模型的随机行走雪花生长的CUDA(Compute Unified Device Architecture)程序,分析了GPU(Graphic Processing Unit)随机行走计算效率,对比了拉普拉斯模型随机行走雪花生长的GPU与CPU加速特性,给出了该模型随机计算环境尺寸增加的用时增长曲线。  相似文献   

4.
基于CUDA的并行粒子群优化算法的设计与实现   总被引:1,自引:0,他引:1  
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。  相似文献   

5.
针对目前基于GPU的FIR算法速度低、扩展性差的缺点,提出一种高速的多通道FIR数字滤波的并行算法,并利用平衡并行运算负载的技术以及降低内存访问密度的方法进行加速.该算法采用矩阵乘法的并行运算技术在GPU上建立并行滤波模型,通过每个线程在单个指令周期内执行2个信号运算,实现了多通道信号的高速滤波.实验结果表明,在GTX260+平台上,采用文中算法的平均加速比达到了203,效率超过40%,并且具有更好的扩展性.  相似文献   

6.
提出一种基于GPU的高程并行插值算法,实现了对三维地表上海量离散点的并行加速渲染。通过高程纹理组织三维地表网格高程数据作为离散点渲染的基础,并通过GLSL编写GPU着色器程序动态控制图形渲染管线,实现视点相关的高程并行插值算法。实验结果表明,提出的基于GPU的高程并行插值算法较传统的内存插值算法,将三维地表上海量离散点的渲染量级从百万级提高到了千万级。  相似文献   

7.
张延松  刘专  韩瑞琛  张宇  王珊 《软件学报》2023,34(11):5205-5229
GPU数据库近年来在学术界和工业界吸引了大量的关注. 尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统, 但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问, 如果能够超越, 那什么样的负载/数据/查询处理模型更加适合, 则需要更深入的研究. 基于GPU的OLAP引擎有两个主要的技术路线: GPU内存处理模式和GPU加速模式. 前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能, 不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率. 后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集, 主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率. 致力于将两种技术路线集成到OLAP加速引擎中, 研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator, 设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型, 实现GPU平台向量化查询处理技术, 优化显存利用率和查询性能, 探索GPU数据库的不同的技术路线和性能特征. 实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能, 与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速. 基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载, 能够比GPU内存模式支持更大的数据集.  相似文献   

8.
在分析GPU并行计算特点的基础上,提出并实现了基于GPU编程的地形纹理快速渲染方法,其核心是用GPU编程对地形纹理图像进行快速解压.与传统渲染流程不同,该方法首先把压缩纹理图像传输到图形卡中,然后通过GPU编程实现对压缩图像解压的硬件加速,从而解决了海量纹理数据存储;传输带宽以及解压速度等一系列问题.实验结果表明基于GPU编程的地形纹理快速渲染方法在虚拟场景的渲染速度方面优势明显,并且随着地形纹理图像分辨率的增大这种优势体现得更加充分.  相似文献   

9.
雷达信号处理算法的高性能实现是雷达系统设计中的关键技术。而恒虚警检测技术是雷达信号目标检测系统中控制虚警率的重要手段之一,也是最耗费系统资源的地方。传统的恒虚警检测技术主要采用DSP和FPGA等定制化设备,但存在的问题主要有开发周期长、调试难度大、耗费资源。为了满足脉冲多普勒雷达回波数据的实时处理需求以及国产化GPU的生态扩充,文章针对恒虚警检测技术分析了有序统计类恒虚警检测方法(OSCFAR)的可并行性问题,并基于OpenCL平台提出了对OSCFAR进行GPU加速的方法。该方法中提出了OSCFAR在GPU中避免条件分支的并行化技术,优化了适用于GPU的并行化排序方法,减少了系统访问全局内存所花费的时间。最后从性能测试和误差分析角度评估了OSCFAR的实时性和准确性,实验结果表明,在所使用的硬件平台上相比于传统CPU实现达到了60倍以上的加速比,处理精度可以达到与原有方案相同的水平。  相似文献   

10.
基于流体动力学模拟技术提出了一种新的水墨效果渲染方法,利用高级着色器语言(HLSL)通过图形处理单元(GPU)就纹理的顶点与像素进行处理。通过交互,计算出逐像素的外力及其所引起的加速度,将其作用于待处理纹理中,从而实现对该纹理实时水墨效果的渲染。实验结果表明,该方法具有较好的水墨动态特性的仿真效果,可以对渲染过程进行控制和干预,并能够实时显示。  相似文献   

11.
为加快TIP(Tour Into the Picture)的绘制速度,提出1种基于GPU(Graphics Processing Unit)的方法,充分利用GPU的运算能力,把背景纹理提取过程从CPU转移到GPU中进行,利用GPU固定管道进行TIP绘制,CPU负责前景模型的深度计算及纹理提取.因此,CPU与GPU可以并行运算,显著提高纹理映射速度从而缩短整个TIP绘制时间,满足用户在虚拟场景中漫游的实时性要求.  相似文献   

12.
目前,GPU渲染技术仍然存在不足之处,在分配渲染任务时,没有充分发挥各个处理器的优势,浪费了性能较好的处理器,影响了渲染速度的提高。针对以上问题,根据武进区邹区现代农业产业园人口疏散地域接收安置动画的项目,在原有GPU渲染架构的基础上提出了一种基于sort-last架构的带反馈的动态负载均衡算法。在分配渲染任务之前,对所有处理器进行性能统计,将时长较长的场景分配给性能较好的处理器,时长短的分配给剩余的处理器,待有处理器完成渲染任务时,将剩余场景时间较长的,分配给第一轮任务先完成的处理器,以此类推。实验结果表明,该方法对解决上述问题具有较好的效果,解决了目前集群渲染存在的不足之处和负载不平衡的问题,最终实现了加速渲染。  相似文献   

13.
彭伟  李建新  闫镔  童莉  陈健  管士勇 《计算机应用》2011,31(8):2221-2224
GPU加速体绘制已成为体可视化领域的研究热点,然而超出显存的大规模数据无法直接载入,成为GPU应用的瓶颈。分块技术能够在保证图像质量的条件下解决该问题,但分块数据的频繁加载和访问明显降低了绘制速度。针对上述问题,通过建立最优化分块模型得到了大规模数据的最优分块,并通过构造节点编号纹理和改进距离模板设计的方法进一步提高了基于八叉树的分块体绘制算法的绘制速度。实验结果表明,该方法加速效果明显。  相似文献   

14.
基于综合LOD因子的自适应GPU地形渲染   总被引:1,自引:0,他引:1       下载免费PDF全文
根据四叉树的地形分块数据组织形式,提出一种面向图形处理器(GPU)的自适应地形渲染算法。将综合细节层次因子作为地形块节点评价函数,对静态地形块误差、动态视点依赖误差和视点移动速度进行量化,在顶点着色器上实现高程值的平滑过渡,消除突跃现象,并通过添加“裙”遮盖裂缝。实验结果表明,该算法的地形自适应性较好,具有较高的帧率和GPU利用率。  相似文献   

15.
针对传统光线投射算法计算量大、速度慢、在没有硬件加速情况下难以实时重建的问题,提出了一种基于GPU编程的快速计算重采样点值的光线投射算法。首先,设计一个GPU程序确定投射光线的终点与方向;其次,采用加速度步长采样方法确定重采样点的位置并利用快速复合插值方法计算重采样点的颜色值;最后,采用不透明度提前截止法进一步加速重建过程。实验结果表明,该方法计算复杂度低、执行效率高。在保证重建图像质量的同时,与现有基于CPU的光线投射算法相比,重建速度提高6倍,与基于GPU的传统光线投射算法相比,速度提高2倍。  相似文献   

16.
提高功耗效率是高端GPU的关键设计目标之一,在3D图形渲染流水线的多个阶段使用数据压缩技术能够显著减少GPU片外存储器的访问量,从而达到提高图形绘制性能和降低功耗的效果。为了对图形处理器流水线数据压缩技术的应用现状进行总结和分析,立足于GPU图形渲染流水线和存储系统的结构特征,归纳了各种缓冲区对象、纹理数据专用压缩算法的关键特性;分析了图形流水线数据压缩技术的研究现状、不足与挑战;并基于应用需求指明GPU流水线数据压缩技术进一步的研究内容。  相似文献   

17.
In medical area, interactive three-dimensional volume visualization of large volume datasets is a challenging task. One of the major challenges in graphics processing unit (GPU)-based volume rendering algorithms is the limited size of texture memory imposed by current GPU architecture. We attempt to overcome this limitation by rendering only visible parts of large CT datasets. In this paper, we present an efficient, high-quality volume rendering algorithm using GPUs for rendering large CT datasets at interactive frame rates on standard PC hardware. We subdivide the volume dataset into uniform sized blocks and take advantage of combinations of early ray termination, empty-space skipping and visibility culling to accelerate the whole rendering process and render visible parts of volume data. We have implemented our volume rendering algorithm for a large volume data of 512 x 304 x 1878 dimensions (visible female), and achieved real-time performance (i.e., 3-4 frames per second) on a Pentium 4 2.4GHz PC equipped with NVIDIA Geforce 6600 graphics card ( 256 MB video memory). This method can be used as a 3D visualization tool of large CT datasets for doctors or radiologists.  相似文献   

18.
Great advancements in commodity graphics hardware have favoured graphics processing unit (GPU)‐based volume rendering as the main adopted solution for interactive exploration of rectilinear scalar volumes on commodity platforms. Nevertheless, long data transfer times and GPU memory size limitations are often the main limiting factors, especially for massive, time‐varying or multi‐volume visualization, as well as for networked visualization on the emerging mobile devices. To address this issue, a variety of level‐of‐detail (LOD) data representations and compression techniques have been introduced. In order to improve capabilities and performance over the entire storage, distribution and rendering pipeline, the encoding/decoding process is typically highly asymmetric, and systems should ideally compress at data production time and decompress on demand at rendering time. Compression and LOD pre‐computation does not have to adhere to real‐time constraints and can be performed off‐line for high‐quality results. In contrast, adaptive real‐time rendering from compressed representations requires fast, transient and spatially independent decompression. In this report, we review the existing compressed GPU volume rendering approaches, covering sampling grid layouts, compact representation models, compression techniques, GPU rendering architectures and fast decoding techniques.  相似文献   

19.
Computation on programmable graphics hardware   总被引:1,自引:0,他引:1  
GPUs have evolved into powerful and flexible streaming processors with fully programmable floating-point pipelines and tremendous aggregate computational power and memory bandwidth. With these advances, modern GPUs can now perform more functions than the specific graphics computations for which they were designed. This article describes approaches to using GPU processing power to accelerate traditionally CPU-based tasks. We discuss some important characteristics of algorithms that make them good candidates for GPU acceleration. We discuss a specific GPU image-processing application that is a common postprocess for many physically based rendering systems.  相似文献   

20.
A CPU-GPU hybrid approach for the unsymmetric multifrontal method   总被引:1,自引:0,他引:1  
Multifrontal is an efficient direct method for solving large-scale sparse and unsymmetric linear systems. The method transforms a large sparse matrix factorization process into a sequence of factorizations involving smaller dense frontal matrices. Some of these dense operations can be accelerated by using a graphic processing unit (GPU). We analyze the unsymmetric multifrontal method from both an algorithmic and implementational perspective to see how a GPU, in particular the NVIDIA Tesla C2070, can be used to accelerate the computations. Our main accelerating strategies include (i) performing BLAS on both CPU and GPU, (ii) improving the communication efficiency between the CPU and GPU by using page-locked memory, zero-copy memory, and asynchronous memory copy, and (iii) a modified algorithm that reuses the memory between different GPU tasks and sets thresholds to determine whether certain tasks be performed on the GPU. The proposed acceleration strategies are implemented by modifying UMFPACK, which is an unsymmetric multifrontal linear system solver. Numerical results show that the CPU-GPU hybrid approach can accelerate the unsymmetric multifrontal solver, especially for computationally expensive problems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号