期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于CUDA的汇流分析并行算法的研究与实现* 总被引：2，自引：0，他引：2

赵向辉苗青付忠良苏畅李昕《计算机应用研究》2010,27(7):2445-2447

针对基于数字高程模型（DEM）生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构（CUDA）平台同时可发挥图形处理器（GPU）并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。相似文献

2.

面向异构架构的传递闭包并行算法

肖汉郭宝云李彩林周清雷《计算机工程》2021,47(8):131-139

传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言（OpenCL）框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器（GPU）的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。相似文献

3.

层流扩散燃烧在GPU上的并行计算和数值分析

魏浩洋曾国荪丁春玲《计算机应用》2013,33(9):2428-2431

在实际工程应用中,使用传统的CPU串行计算来开展燃烧数值模拟往往难以满足对模拟速度的要求。利用GPU比CPU更强的计算能力,通过在交错网格上将燃烧物理方程离散化,使用预处理稳定双共轭梯度法(PBiCGSTAB)求解离散化方程,并且探索面向GPU编程的矩阵向量乘并行算法和逆矩阵向量乘并行算法,从而给出一种在GPU上数值求解层流扩散燃烧的可行方法。实验结果表明,GPU并行程序获得了相对串行CPU程序约10倍以上的加速效果,且计算结果与实际情况相符,因而所提方法是可行且高效的。相似文献

4.

多重网格格子Boltzmann方法的并行算法

刘智翔宋安平徐磊郑汉垣张武《计算机应用》2014,34(11):3065-3068

针对复杂流动数值模拟中的格子Boltzmann方法存在计算网格量大、收敛速度慢的缺点,提出了基于三维几何边界的多重笛卡儿网格并行生成算法,并基于该网格生成方法提出了多重网格并行格子Boltzmann方法（LBM）。该方法结合不同尺度网格间的耦合计算,有效减少了计算网格量,提高了收敛速度;而且测试结果也表明该并行算法具有良好的可扩展性。相似文献

5.

多图像同态滤波的 CPU 和 GPU 并行计算磁

玉易钟诚郑明叶波《计算机与数字工程》2014,(10)

采取 CPU 分发图像滤波任务和回收滤波结果、将多个图像数据划分分配给多个 GPU 及其线程块、GPU 调用核函数库对图像进行傅里叶变换和反傅里叶变换的方法,设计实现了 CPU 和 GPU 协同计算的多图像同态滤波并行算法。实验结果表明,给出的多图像同态滤波并行算法高效,与单 GPU 计算的并行算法相比,多 GPU 协同计算的并行算法显著缩短了多个图像同态滤波处理所需的时间。相似文献

6.

基于非结构网格隐式算法的GPU加速研究

陈龙徐添豪田书玲《计算机系统应用》2018,27(5):238-243

针对非结构网格隐式算法在GPU上的加速效果不佳的问题,通过分析GPU的架构及并行模式,研究并实现了基于非结构网格格点格式的隐式LU-SGS算法的GPU并行加速.通过采用RCM和Metis网格重排序（重组）方法,优化非结构网格的数据局部性,改善非结构网格的隐式算法在GPU上的并行加速效果.通过三维机翼算例验证了本文实现的正确性及效率.结果表明两种网格重排序（重组）方法分别得到了63%和69%的加速效果提高.优化后的LU-SGS隐式GPU并行算法获得了相较于CPU串行算法27倍的加速比,充分说明了本文方法的高效性. 相似文献

7.

CUDA架构下的三维弹性静力学边界元并行计算

王英俊王启富王钢王书亭黄运保《计算机辅助设计与图形学学报》2012,24(1):112-119

针对传统边界元法计算量大、计算效率低的问题,以三维弹性静力学的边界元法为对象,将基于CUDA的GPU并行计算应用到其边界元计算中,提出了基于CUDA架构的GPU并行算法.该算法首先对不同类型的边界元系数积分进行并行性分析,描述了相关的GPU并行算法,然后阐述了边界元方程组的求解方法及其并行策略.实验结果表明,文中算法较传统算法具有显著的加速效果. 相似文献

8.

基于GPU的加锁并行化非结构网格生成方法研究

蔡云龙肖素梅齐龙《计算机工程与应用》2014,50(6):56-60

非结构网格的生成在时间和内存上有一定的缺陷,这里提出了一种新的方法,命名为GPU-PDMG,是基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行计算能力与Delaunay三角化的优点,在英伟达GPU模块下采用CUDA程序模型,开发出了加锁并行区划分技术,通过对NACA0012翼型、多段翼型等算例进行测试,分析此方法的加速比和效率,对其计算性能展开评估。实验结果表明,GPU-PDMG优于现存在的CPU算法的速度,在保证网格质量的同时,提高了效率。相似文献

9.

交替方向隐式CFD解法器的GPU并行计算及其优化

邓亮徐传福刘巍张理论《计算机应用》2013,33(10):2783-2786

交替方向隐格式(ADI)是常见的偏微分方程离散格式之一,目前对ADI格式在计算流体力学（CFD）实际应用中的GPU并行工作开展较少。从一个有限体积CFD应用出发,通过分析ADI解法器的特点和计算流程,基于统一计算架构(CUDA)编程模型设计了基于网格点与网格线的两类细粒度GPU并行算法,讨论了若干性能优化方法。在天河-1A系统上,采用128×128×128网格规模的单区结构网格算例,无粘项、粘性项及ADI迭代计算的GPU并行性能相对于单CPU核,分别取得了100.1、40.1和10.3倍的加速比,整体ADI CFD解法器的GPU并行加速比为17.3 相似文献

10.

海量数据流的提升小波变换并行算法研究

刘光敏陈庆奎王海峰《小型微型计算机系统》2015,(2):343-348

提升小波变换算法在图像去噪中有广泛的应用,但是对于海量数据流该算法计算速度缓慢无法达到实时性.为了提高计算速度,提出一种基于图形处理器(GPU)的并行计算策略,把传统提升小波变换算法映射到CUDA编程模型,利用具有大规模并行计算特征的GPU作为计算设备,结合GPU存储器的优势实现了基于滑动窗口的提升小波变换并行算法.实验的测试结果表明,在现有的实验条件下,随着图像的增加,提升小波变换并行算法可以把计算速度提高50倍,效率提高明显.本文提出的方法也可以用其他图像处理算法的并行化. 相似文献

11.

基于GPU并行的点云数据简化的改进算法

李普山李伟波冯智莉万权王海荣《计算机应用研究》2020,37(9)

受环境因素影响,卤水下矿床表面地势平缓,采集的矿床点云冗余点较多,为了提高对矿床进行三维建模的效率,设计了一种基于GPU并行的点云简化的改进算法。对每个小栅格内的点进行最小二乘的平面拟合,根据各个点到拟合平面的距离精简了大部分冗余点,并通过剩余点的曲率进行了第二次精简。将整个处理过程限定在每个小栅格内,在降低计算量的同时避免了因过度简化而出现的空洞现象。另外,对点云的简化过程进行了基于GPU的多线程并行处理,极大地提高了整个处理过程的效率。实验表明,算法改进后达到原算法效果的同时提高了算法效率,利用GPU加速后,大大缩短了算法的执行时间。相似文献

12.

地震资料逆时偏移中的图形处理器加速算法

柯璇石颖刘诗竹《计算机系统应用》2013,22(11):115-118

叠前逆时偏移（RTM）方法是目前地震勘探领域最为精确的一种地震数据成像方法,其运用双程声波方程进行波场延拓,可实现对复杂构造介质的准确成像．文中采用互相关成像条件对震源波场与检波点波场在同时刻相关成像．针对RTM方法计算量大的问题,将图形处理器（GPU）引入到RTM计算中,充分挖掘GPU的众核结构优势,利用基于CUDA架构的并行加速算法取代传统CPU的串行运算,对逆时偏移算法中较为耗时的波场延拓和相关成像过程进行加速．复杂模型测试结果表明,在确保RTM成像精度的前提下,相比于传统CPU计算,GPU并行加速算法可大幅度地提高计算效率,进而实现基于GPU加速的叠前逆时偏移算法对复杂介质的高效率、高精度成像．相似文献

13.

基于GPU的快速Level Set图像分割 总被引：5，自引：1，他引：5

下载免费PDF全文

吴仲乐王遵亮罗立民《中国图象图形学报》2004,9(6):679-683

水平集(1evel set)图像分割方法是图像分割中的一个重要方法，但是该算法的计算量大，往往不能达到实时处理的要求。给出了利用新一代的可编程图形处理器(GPU)实现level set的加速算法。首先介绍了如何在GPU上利用片元渲染程序进行网格化的线性运算和有限差分PDE计算，把level set方法的离散化算子映射到GPU上。由于以数据流处理方式的GPU的存储访问快，具有并行运算能力，同时level set算法演化的显示不再需要把数据从CPU传到GPU，因此较大地提高了算法速度与交互显示。文中实现并测试了一个与初始化状态独立的二维level set的算子用于图像分割，并对其运算结果和性能进行了比较，结果表明该方法具有更快的速度。相似文献

14.

PMVS算法的CPU多线程和GPU两级粒度并行策略

刘金硕江庄毅徐亚渤邓娟章岚昕《计算机科学》2017,44(2):296-301

PMVS(Patch-based Multi-View Stereo)三维重建算法被广泛应用于无人机航拍影像的三维场景重建中。针对PMVS三维重建算法计算量大、时间复杂度高的问题,提出了PMVS算法的CPU多线程和GPU两级粒度并行策略(Multithread and GPU Parallel Schema,MGPS),方法具体包括:基于GPU的PMVS算法特征提取和片面扩散的并行设计;多影像的GPU和CPU任务分配机制,以使得部分任务分配给CPU采用多线程并行,部分任务分配给GPU并行时,程序总运行时间最短。实验采用搭载24核CPU和NVIDIA Tesla K20 GPU的高性能服务器作为测试平台,针对分辨率为4081×2993的16幅无人机影像进行三维重建。实验结果表明,相比串行的PMVS算法,基于MGPS的PMVS算法取得4倍左右的加速比,其中特征提取最高加速13倍,计算误差在10%以内,该方法实现了更高效的PMVS三维重建。基于MGPS的PMVS算法还可用于文物保护、医学图像处理、虚拟现实等领域。相似文献

15.

基于Fork/Join框架的等值面快速生成并行算法

鲍婷婷焦圣明殷笑茹陈景丽牛霭琛《计算机技术与发展》2020,(3):187-193

针对传统串行等值面提取算法在处理离散点数量多、网格点密度大的数据时生成效率差的问题,提出一种新的基于Fork/Join框架下的等值面快速生成并行算法。通过对传统串行算法中的关键步骤进行并行计算可行性分析,提出可以实施并行计算的四个单独步骤:离散点数据网格化处理、等值点计算、等值线追踪与光滑、等值面标记识别。通过将并行计算作用于等值面生成的这四个步骤中,减少了等值面计算的执行时间,加快了等值面的生成速度。实验结果表明,在数据计算量较大时,与传统串行算法相比,并行算法能在2秒内快速生成等值面,最大加速比高于5.0,提高了等值面的生成效率并取得了良好的绘制效果,满足了高实时性的业务需求。相似文献

16.

基于GPU多流并发并行模型的NDVI提取算法

左宪禹张哲苏岳瀚刘扬葛强田军锋《计算机科学》2020,47(4):25-29

利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根据NDVI提取算法的特性,文中提出了一种基于GPU多流并发并行模型的NDVI提取算法。通过CUDA流和Hyper-Q特性,GPU多流并发并行模型可以使数据传输与弱相关计算、弱相关计算与弱相关计算之间达到重叠,从而进一步提高算法并行度及GPU资源利用率。文中首先通过GPU多线程并行模型对NDVI提取算法进行优化,并对优化后的计算过程进行分解,找出包含数据传输及弱相关性计算的部分;其次,对数据传输和弱相关计算部分进行重构,并利用GPU多流并发并行模型进行优化,使弱相关计算之间、弱相关计算和数据传输之间达到重叠的效果;最后,以高分一号卫星拍摄的遥感影像作为实验数据,对两种基于GPU实现的NDVI提取算法进行实验验证。实验结果表明,与传统基于GPU多线程并行模型的NDVI提取算法相比,所提算法在影像大于12000*12000像素时平均取得了约1.5倍的加速,与串行提取算法相比取得了约260倍的加速,具有更好的加速效果和并行性。相似文献

17.

基于GPU的海量离散点高程并行插值算法

王智广张腾畅吴相锦鲁强《计算机工程与科学》2021,43(4):614-619

提出一种基于GPU的高程并行插值算法,实现了对三维地表上海量离散点的并行加速渲染。通过高程纹理组织三维地表网格高程数据作为离散点渲染的基础,并通过GLSL编写GPU着色器程序动态控制图形渲染管线,实现视点相关的高程并行插值算法。实验结果表明,提出的基于GPU的高程并行插值算法较传统的内存插值算法,将三维地表上海量离散点的渲染量级从百万级提高到了千万级。相似文献

18.

广义稠密对称特征问题标准化算法在GPU集群上的有效实现

刘世芳赵永华于天禹黄荣锋《计算机科学》2020,47(4):6-12

广义稠密对称特征问题的求解是许多应用科学和工程的主要任务,并且是计算电磁学、电子结构、有限元模型和量子化学等计算中的重要部分。将广义对称特征问题转化为标准对称特征问题是求解广义稠密对称特征问题的关键计算步骤。针对GPU集群,文中给出了广义稠密对称特征问题标准化块算法在GPU集群上基于MPI+CUDA的实现。为了适应GPU集群的架构,广义对称特征问题标准化算法将正定矩阵的Cholesky分解与传统的广义特征问题标准化块算法相结合,降低了标准化算法中不必要的通信开销,并且增强了算法的并行性。在基于MPI+CUDA的标准化算法中,GPU与CPU之间的数据传输操作被用来掩盖GPU内的数据拷贝操作,这消除了拷贝所花费的时间,进而提高了程序的性能。同时,文中还给出了矩阵在二维通信网格中行通信域和列通信域之间完全并行的点对点的转置算法和基于MPI+CUDA的具有多个右端项的三角矩阵方程BX=A求解的并行块算法。在中科院计算机网络信息中心的超级计算机系统“元”上,每个计算节点配置2块Nvidia Tesla K20 GPGPU卡及2颗Intel E5-2680 V2处理器,使用多达32个GPU对不同规模矩阵的基于MPI+CUDA的广义对称特征问题标准化算法进行测试,取得了较好的加速效果与性能,并且具有良好的可扩展性。当使用32个GPU对50000×50000阶的矩阵进行测试时,峰值性能达到了约9.21 Tflops。相似文献