期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵明伟《中国图象图形学报》2014,19(2)

目的：为了进一步提高高精度曲面建模（HASM）方法的模拟精度和计算速度,进而拓宽该模型的应用领域。方法：本研究采用新的差分格式计算HASM高斯方程中的一阶偏导数,以HASM预处理共轭梯度算法为例分析了改进的差分格式对HASM的优化效果。结果：数值试验表明：在计算耗时及内存需求不变的情况下,采用新的差分格式的HASM算法可以显著提高单次迭代的模拟精度,同时能够降低关键采样点缺失对模拟结果精度的影响。进一步研究发现,当HASM采用新差分格式与原始差分格式（中心差分）交替迭代时,能够快速降低模拟结果的误差。结论：本文基于HASM模型控制方程的离散差分改进格式,提出了新的HASM模型算法,新算法一方面当达到指定的精度条时能够显著减小计算耗时,另一方面还能降低关键采样点缺失对模拟结果的影响。相似文献

2.

基于CUDA的并行粒子群优化算法的设计与实现 总被引：1，自引：0，他引：1

蔡勇李光耀王琥《计算机应用研究》2013,30(8):2415-2418

针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构（CUDA）, 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。相似文献

3.

高精度曲面建模优化方案

下载免费PDF全文

赵明伟岳天祥赵娜《中国图象图形学报》2014,19(2):290-296

目的为了进一步提高高精度曲面建模（HASM）方法的模拟精度和计算速度,进而拓宽该模型的应用领域,提出了新的HASM模型算法。方法采用新的差分格式计算HASM高斯方程中的一阶偏导数,以HASM预处理共轭梯度算法为例分析改进的差分格式对HASM的优化效果。结果数值实验表明：在计算耗时及内存需求不变的情况下,采用新的差分格式的HASM算法可以显著提高单次迭代的模拟精度,同时能够降低关键采样点缺失对模拟结果精度的影响。进一步研究发现,当HASM采用新差分格式与原始差分格式（中心差分）交替迭代时,能够快速降低模拟结果的误差。结论本文算法当达到指定的精度条时能够显著减小计算耗时,同时还能降低关键采样点缺失对模拟结果的影响。相似文献

4.

由等高线重构曲面的HASMOC方法应用研究

宋敦江毕诚岳天祥《计算机工程与应用》2013,49(18):171-175

HASM优化控制方法（High Accuracy Surface Modeling-Optimal Control,HASMOC）是在高精度曲面建模（HASM）方法的基础上,增加更多约束条件方程后形成的一种方法。通过对等高线间格网点高程范围的约束优化控制,最小化HASM基本方程的模,HASMOC方法既能保证地形曲面的整体光滑性,又保证地形曲面对于原始等高线数据的忠实性。实际案例表明,HASMOC方法得到的地形曲面结果优于TIN方法的地形曲面模拟结果;比较分析地形曲面的回放等高线、地形光滑程度和地形曲面的高程分布频率等,可以看出,HASMOC方法能较好地克服TIN的缺点。相似文献

5.

基于CUDA的并行布谷鸟搜索算法设计与实现 总被引：1，自引：0，他引：1

韦向远 ;杨辉华 ;谢谱模《计算机科学与探索》2014,(6):665-673

布谷鸟搜索（cuckoo search,CS）算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构（compute unified device architecture,CUDA）的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器（graphic processing unit,GPU）线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。相似文献

6.

一种基于GPU加速的细粒度并行蚁群算法 总被引：1，自引：0，他引：1

李建明胡祥培庞占龙钱昆明《控制与决策》2009,24(8)

为改善蚁群算法对大规模旅行商问题的求解性能,提出一种基于图形处理器(GPU)加速的细粒度并行蚁群算法.将并行蚁群算法求解过程转化为统一计算设备架构的线程块并行执行过程,使得蚁群算法在GPU中加速执行.实验结果表明,该算法能提高全局搜索能力,增大细粒度并行蚁群算法的蚂蚁规模,从而提高了算法的运算速度. 相似文献

7.

高精度曲面建模方法的系统构建

田会张承明赵娜岳天祥《计算机工程与应用》2015,51(12):38-42

高精度曲面建模方法（HASM）是一种基于微分几何学曲面理论的曲面建模方法。大量数值实验表明,HASM的模拟精度高于Kriging、IDW、Spline等经典的插值方法,并已成功应用于土壤属性曲面建模、气温要素、DEM构建及生态系统变化趋势等领域。由于目前的HASM程序大多是用Matlab、C++、Fortran等语言开发的,受开发工具的限制,尚没有便于使用的图形界面,阻碍了方法的推广应用。针对这个问题,利用C#语言,在Visual Studio中构建了基于windows窗体的HASM模型系统,并做了一定的数值测试实验,结果表明了该系统的有效性。相似文献

8.

RSA算法的CUDA高效实现技术 总被引：1，自引：1，他引：0

下载免费PDF全文

孙迎红童元满王志英《计算机工程与应用》2011,47(2):84-87

CUDA（Compute Unified Device Architecture）作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。相似文献

9.

GPU通用计算平台上中心差分格式显式有限元并行计算 总被引：3，自引：0，他引：3

蔡勇李光耀王琥《计算机研究与发展》2013,50(2):412-419

显式有限元是解决平面非线性动态问题的有效方法.由于显式有限元算法的条件稳定性,对于大规模的有限元问题的求解需要很长的计算时间.图形处理器(GPU)作为一种高度并行化的通用计算处理器,可以很好解决大规模科学计算的速度问题.统一计算架构(CUDA)为实现GPU通用计算提供了高效、简便的方法.因此,建立了基于GPU通用计算平台的中心差分格式的显式有限元并行计算方法.该方法针对GPU计算的特点,对串行算法的流程进行了优化和调整,通过采用线程与单元或节点的一一映射策略,实现了迭代过程的完全并行化.通过数值算例表明,在保证计算精度一致的前提下,采用NVIDIA GTX 460显卡,该方法能够大幅度提高计算效率,是求解平面非线性动态问题的一种高效简便的数值计算方法. 相似文献

10.

一种基于GPU加速的细粒度并行蚁群算法

李建明胡祥培庞占龙钱昆明《控制与决策》2009,24(8):1132-1136

为改善蚁群算法对大规模旅行商问题的求解性能,提出一种基于图形处理器(GPU)加速的细粒度并行蚁群算法.将并行蚁群算法求解过程转化为统一计算设备架构的线程块并行执行过程,使得蚁群算法在GPU 中加速执行.实验结果表明,该算法能提高全局搜索能力,增大细粒度并行蚁群算法的蚂蚁规模,从而提高了算法的运算速度.

相似文献

11.

GPU在缪子快速模拟中的应用

易培淮李卫东林韬邹佳恒邓子艳刘言《计算机工程》2021,47(8):100-108

江门中微子实验(JUNO)拥有当前世界上能量精度最高、规模最大的液体闪烁体探测器。缪子是JUNO的主要本底,每个缪子事例在大型探测器中产生百万量级的光子,但复杂的光子模拟计算量巨大,传统串行计算方式耗时较长。为此,提出一种基于GPU的分布式缪子快速模拟方法。利用多GPU卡并行加速闪烁光在液闪探测器中的传输过程,采用信息传递接口通信向多节点分发模拟任务和收集结果。测试结果表明,GPU方法具有良好的加速比,和CPU方法相比,加速比最高可达约250倍。相似文献

12.

基于GPU加速的定向凝固相场模拟计算研究

胡延苏高昂王志军慕德俊《计算机科学》2015,42(7):19-21, 56

相场法作为一种极具优势的微观组织数值模拟方法,已经在凝固微观组织演化机制的研究中得到了广泛应用。然而无论是从计算尺度还是微观组织演化时间上考虑,相场模拟计算量均非常大,对计算机有着非常高的要求。相对于传统的中央处理器(CPU)计算,图形处理器(GPU)计算是最近发展的一种高效计算手段。提出了一种基于GPU加速的定向凝固相场模拟计算策略,实现了大尺度条件下的定向凝固界面形态演化的加速计算。计算结果表明,对于单个计算机,GPU计算与CPU计算的加速比可以高达30余倍。GPU加速将为相场模拟的发展及应用带来新的契机。相似文献

13.

基于图形处理器的可变形部件模型算法的并行化

刘宝平陈庆奎李金静刘伯成《计算机应用》2015,35(11):3075-3078

目前目标识别领域,在人体检测中精确度最高的算法就是可变形部件模型(DPM)算法,针对DPM算法计算量大的缺点,提出了一种基于图形处理器(GPU)的并行化解决方法.采用GPU编程模型OpenCL,对DPM算法的整个算法的实现细节采用了并行化的思想进行重新设计实现,优化算法实现的内存模型和线程分配.通过对OpenCV库和采用GPU重新实现的程序进行对比,在保证了检测效果的前提下,使得算法的执行效率有了近8倍的提高. 相似文献

14.

基于CUDA的弱可压SPH流体建模与仿真

段兴锋任鸿翔神和龙《计算机工程与科学》2018,40(8):1375-1382

为了实现小尺度范围流体场景的实时、真实感模拟,采用弱可压SPH方法对水体进行建模,提出了流体计算的CPU GPU混合架构计算方法。针对邻域粒子查找算法影响流体计算效率的问题,采用三维空间网格对整个模拟区域进行均匀网格划分,利用并行前缀求和和并行计数排序实现邻域粒子的查找。最后,采用基于CUDA并行加速的Marching Cubes算法实现流体表面提取,利用环境贴图表现流体的反射和折射效果,实现流体表面着色。实验结果表明,所提出的流体建模和模拟算法能实现小尺度范围流体的实时计算和渲染,绘制出水的波动、翻卷和木块在水中晃动的动态效果,当粒子数达到1 048 576个时,GPU并行计算方法相较CPU方法的加速比为60.7。相似文献

15.

Algorithm level power efficiency optimization for CPU-GPU processing element in data intensive SIMD/SPMD computing

Da Qi Ren^{Author Vitae} 《Journal of Parallel and Distributed Computing》2011,71(2):245-253

Power efficiency investigation has been required in each level of a High Performance Computing (HPC) system because of the increasing computation demands of scientific and engineering applications. Focusing on handling the critical design constraints in the software level that run beyond a parallel system composed of huge numbers of power-hungry components, we optimize HPC program design in order to achieve the best possible power performance on the target hardware platform. The power performance of a CUDA Processing Element (PE) is determined by both hardware factors including power features of each component including with CPU, GPU, main memory and PCI buses, and their interconnection architecture; and software factors including algorithm design and the character of executable instructions performed on it. In this paper, approaches to model and evaluate the power consumption of large scale SIMD computation by CUDA PEs on multi-core and GPU platforms are introduced. The model allows obtaining design characteristic values at the early programming stage, thus benefitting programmers by providing the necessary environment information for choosing the best power-efficient alternative. Based on the model, CPU Dynamic frequency scaling (DFS) can be applied on CUDA PE architecture that adjusts CPU frequency to enhance power efficiency of the entire PE without compromising its computing performance. The power model and power efficiency improvements of the new designs have been validated by measuring the new programs on the real GPU multiprocessing system. 相似文献

16.

GPU加速希尔加解密方法的研究 总被引：1，自引：1，他引：0

下载免费PDF全文

刘丹赵广辉钟珞《计算机工程与应用》2010,46(18):49-51

GPU有效地利用了数量巨大的晶体管制造大量的处理单元,适用于处理单任务多数据（SIMD）的计算任务。研究了GPU的体系结构及CUDA的编程模式,改进了基于CPU的希尔加解密方法,使用多个线程将计算中耗时的矩阵相乘部分改造成SIMD模式,并分析了线程块内线程数对加速比的影响。实验结果表明,基于GPU的并行矩阵相乘的希尔加解密方法成功实现了硬件加速,相对于CPU上运行的希尔加解密方法,其执行效率明显提高,可获取12倍以上的加速,并易于扩展,对大规模数据加密和解密处理呈现出高效的处理能力。相似文献

17.

Accelerating data gravitation-based classification using GPU

Peng Lizhi Zhang Haibo Hassan Houcine Chen Yuehui Yang Bo 《The Journal of supercomputing》2019,75(6):2930-2949

Data gravitation-based classification model, a new physic law inspired classification model, has been demonstrated to be an effective classification model for both standard and imbalanced tasks. However, due to its large scale of gravitational computation during the feature weighting process, DGC suffers from high computational complexity, especially for large data sets. In this paper, we address the problem of speeding up gravitational computation using graphics processing unit (GPU). We design a GPU parallel algorithm namely GPU–DGC to accelerate the feature weighting process of the DGC model. Our GPU–DGC model distributes the gravitational computing process to parallel GPU threads, in order to compute gravitation simultaneously. We use 25 open classification data sets to evaluate the parallel performance of our algorithm. The relationship between the speedup ratio and the number of GPU threads is discovered and discussed based on the empirical studies. The experimental results show the effectiveness of GPU–DGC, with the maximum speedup ratio of 87 to the serial DGC. Its sensitivity to the number of GPU threads is also discovered in the empirical studies.

相似文献

18.

基于CUDA的快速大整数乘法

下载免费PDF全文

许亮王震《计算机工程与应用》2013,49(16):221-224

针对快速傅里叶变换下的快速大整数乘法,给出了一种基于CUDA架构的GPU并行化加速的实现方法。通过分析整数快速乘法中的每一步骤,分别给出各步骤的并行化实现方法,并采用数据压缩等策略,对算法进行优化。实验表明该方法有效地提高了算法效率,随着数据规模的增长,可获得18倍以上的加速比。相似文献