期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘光敏陈庆奎王海峰《小型微型计算机系统》2015,(2):343-348

提升小波变换算法在图像去噪中有广泛的应用,但是对于海量数据流该算法计算速度缓慢无法达到实时性.为了提高计算速度,提出一种基于图形处理器(GPU)的并行计算策略,把传统提升小波变换算法映射到CUDA编程模型,利用具有大规模并行计算特征的GPU作为计算设备,结合GPU存储器的优势实现了基于滑动窗口的提升小波变换并行算法.实验的测试结果表明,在现有的实验条件下,随着图像的增加,提升小波变换并行算法可以把计算速度提高50倍,效率提高明显.本文提出的方法也可以用其他图像处理算法的并行化. 相似文献

2.

基于滑动门中心点计算的K均值聚类并行算法研究

下载免费PDF全文

龚运鸿周新志雷印杰《计算机测量与控制》2018,26(2):273-275

随着GPU硬件设备的普及和GPGPU技术的快速发展,越来越多的研究人员投入到GPGPU的研究当中。当前,GPU具有很强大的并行计算能力、浮点运算能力、计算单元集成能力等特点,显示出了GPU在并行计算领域的巨大潜力。CUDA是由NVIDIA公司提出的一种利用GPU进行并行计算的架构,CUDA使得GPU具有友好的可编程性,为研究人员能够在GPU上实现各种领域的科学计算提供了方便的途径。K均值聚类算法由于其概念简单,易于实现等优点成为并行计算研究的一个热门方向。对于K均值并行算法的研究,有基于8核CPU并配备FPGA加速板的方法,但对于一个需要启动数千个线程的复杂模型,基于传统CPU并行计算方法难以实现;也有使用CUDA并行计算平台对K均值聚类算法进行处理,但处理算法时通常忽略对CUDA平台上K均值聚类算法自身的优化。基于以上缺陷,介绍K均值聚类算法的同时对算法在CUDA平台上进行了相应优化,特别针对更新中心点的耗时问题,提出了一种基于滑动门中心点计算的K均值聚类并行计算。实验结果表明,当聚类数较多时,相对于传统的更新中心点算法,基于滑动门中心点并行算法的效率更高。相似文献

3.

GPU加速分子动力学模拟的热力学量提取*

刘丹赵广辉夏红霞胡磊《计算机应用研究》2010,27(5):1820-1822

近年来,统一计算设备架构(CUDA)的提出和图形处理器（GPU）快速提升的并行处理能力和数据传输能力,使得基于CUDA的GPU通用计算迅速成为一个研究热点。针对含有大规模分子动力学模拟的热力学量提取效率低下的问题,提出了分子动力学模拟的热力学量提取的新方法,利用CUDA设计了并行算法,实现了利用GPU加速分子动力学模拟的热力学量提取。实验结果表明,与基于CPU的算法相比, GPU可以提高速度500倍左右。相似文献

4.

利用GPU计算的双线性插值并行算法 总被引：1，自引：0，他引：1

肖汉《小型微型计算机系统》2010,31(11)

双线性插值算法在数字图像处理中有广泛的应用,但计算速度慢.为提高其计算速度,提出一种基于图形处理器加速的双线性插值并行算法.主要利用Wallis变换双线性插值中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行双线性插值算法映射到CUDA并行编程模型,并从线程分配,内存使用,硬件资源划分等方面进行优化,来充分利用GPU的巨大运算能力.实验结果表明,随着图像分辨率的增大,双线性内插并行算法可以把计算速度提高28倍. 相似文献

5.

基于图形硬件的显式织物模拟

戎旭涛刘卉《计算机应用与软件》2011,28(5)

凡是需要真实场景和人物动画的图形应用场合,织物模拟都是必不可少的环节之一,其模拟速度和效果往往决定应用整体的效率和真实感.以实时织物模拟为目标,利用GPU(Graphics Processing Unit)并行编程语言CUDA,设计了一种基于弹簧-质点模型的显式织物模拟并行算法.该算法将模拟过程分为计算阶段和渲染阶段.在计算阶段,通过将质点与CUDA的线程一一对应,并行更新质点的速度和位置.算法利用线性存储器纹理解决了越界问题,并通过使用CUDA的共享内存减少对全局内存的访问.为了使各线程负载均衡地填充共享内存,提出nPass方法.在渲染阶段,算法利用CUDA与OpenGL的交互性,直接在GPU上渲染,避免了将数据回传到主存的额外开销.实验结果表明,与CPU算法和传统的GPU算法相比,该算法的模拟速度分别加快了30倍和5倍. 相似文献

6.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

7.

基于GPU的H.264并行解码算法

陈鹏曹剑炜陈庆奎《计算机工程》2014,(1):283-286

针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。相似文献

8.

基于CUDA的汇流分析并行算法的研究与实现* 总被引：2，自引：0，他引：2

赵向辉苗青付忠良苏畅李昕《计算机应用研究》2010,27(7):2445-2447

针对基于数字高程模型（DEM）生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构（CUDA）平台同时可发挥图形处理器（GPU）并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。相似文献

9.

CUDA下受体评分网格生成并行算法 总被引：1，自引：0，他引：1

李正夫王希诚郭权《计算机应用研究》2013,30(3):814-816

针对分子对接中生成评分网格需要花费很多的计算时间这一问题, 提出了一种基于统一计算设备架构（CUDA）的评分网格生成并行算法。该算法把传统计算方法中三维计算空间中的一维通过在图形处理单元（GPU）上进行并行处理, 使得总生成时间得到了降低, 提高了评分网格的生成效率。实验结果表明, 借助于GPU的浮点计算能力, 提出的并行算法对比传统的计算方法可以显著缩短评分网格的生成时间, 为评分网格的生成提供一种新的方式。相似文献

10.

GPU加速分子动力学模拟中的电荷分布计算

张德好刘青昆宫利东《计算机应用与软件》2012,(10):79-81,93

在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算.通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过异构平台的异步并发方法进行优化,提高了求解效率.性能测试结果表明,相比于单纯MPI并行算法,优化后GPU加速的异构并行算法,在化学大分子模型电荷分布计算上,有着明显的性能优势. 相似文献

11.

基于CUDA的声辐射力弹性成像算法研究

下载免费PDF全文

曾博雷友诚王丛知邱维宝冯歌曾成志杨戈郑海荣《计算机工程与应用》2015,51(18):249-254

声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。相似文献

12.

2D/3D image registration on the GPU 总被引：1，自引：0，他引：1

A. Kubias F. Deinzer T. Feldmann D. Paulus B. Schreiber Th. Brunner 《Pattern Recognition and Image Analysis》2008,18(3):381-389

We present a method that performs a rigid 2D/3D image registration efficiently on the Graphical Processing Unit (GPU). As one main contribution of this paper, we propose an efficient method for generating realistic DRRs that are visually similar to x-ray images. Therefore, we model some of the electronic post-processes of current x-ray C-arm-systems. As another main contribution, the GPU is used to compute eight intensity-based similarity measures between the DRR and the x-ray image in parallel. A combination of these eight similarity measures is used as a new similarity measure for the optimization. We evaluated the performance and the precision of our 2D/3D image registration algorithm using two phantom models. Compared to a CPU + GPU algorithm, which calculates the similarity measures on the CPU, our GPU algorithm is between three and six times faster. In contrast to single similarity measures, our new similarity measure achieved precise and robust registration results for both phantom models. 相似文献

13.

小场景交互式稠密三维重建系统

下载免费PDF全文

杨淑云刘永春《图学学报》2019,40(2):364

近年来,随着 GPU 技术的深入发展和并行算法的日益成熟,使得实时三维重建成为可能。文中实现了一种针对小场景的交互式稠密三维重建系统,此系统借助先进的移动跟踪技术,可以准确地估计相机的即时位置。提出了一种改进的多视深度生成算法,在 GPU 加速下能够实时计算场景的深度。改进算法中的亚像素级的半全局匹配代价累积提高了多视立体匹配的精度,并结合全局优化的方法计算出了准确的场景深度信息。深度图被转换为距离场,使用全局优化的直方图压缩融合算法和并行的原始对偶算法实现了深度的实时融合。实验结果证明了重建系统的可行性和重建算法的正确性。相似文献

14.

基于CUDA的弱可压SPH流体建模与仿真

段兴锋任鸿翔神和龙《计算机工程与科学》2018,40(8):1375-1382

为了实现小尺度范围流体场景的实时、真实感模拟,采用弱可压SPH方法对水体进行建模,提出了流体计算的CPU GPU混合架构计算方法。针对邻域粒子查找算法影响流体计算效率的问题,采用三维空间网格对整个模拟区域进行均匀网格划分,利用并行前缀求和和并行计数排序实现邻域粒子的查找。最后,采用基于CUDA并行加速的Marching Cubes算法实现流体表面提取,利用环境贴图表现流体的反射和折射效果,实现流体表面着色。实验结果表明,所提出的流体建模和模拟算法能实现小尺度范围流体的实时计算和渲染,绘制出水的波动、翻卷和木块在水中晃动的动态效果,当粒子数达到1 048 576个时,GPU并行计算方法相较CPU方法的加速比为60.7。相似文献

15.

基于GPU的3D距离变换*

田绪红司徒志远陈茂资韩国强《计算机应用研究》2008,25(9):2847-2849

距离变换在图像处理中有着非常广泛的应用。由于3D图像数据的复杂性,传统基于CPU的3D距离变换效率较低。为此,研究了将3D图像数据有效地组织到纹理中存储的方法,设计并实现了基于GPU的3D距离变换并行算法。实验结果表明,相对基于CPU的算法,该方法具有非常高的加速比。相似文献

16.

基于GPU的四维医学图像动态快速体绘制 总被引：2，自引：0，他引：2

秦绪佳王建奇朱思达郑红波徐晓刚《计算机辅助设计与图形学学报》2011,23(11):1789-1798

传统的三维医学图像重建技术无法满足四维医学图像动态重建的需求,而四维医学图像庞大的数据量使传统重建技术很难实现高性能实时绘制.基于以上需求,提出了一种四维医学图像动态快速体绘制方法.首先采用GPU强大的并行计算能力,提出一种基于GPU、利用CUDA技术实现的光线投射算法;然后分析了算法框架、体数据及计算结果的存储策略、... 相似文献

17.

并行时空处理模型下的快速N-body算法

下载免费PDF全文

王伟曾栩鸿王福焕傅丽丽曾国荪《计算机科学与探索》2011,5(11):1006-1013

图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。相似文献

18.

Structural shape optimisation using boundary elements and the biological growth method

C. Wessel A. Cisilino B. Sensale 《Structural and Multidisciplinary Optimization》2004,28(2-3):221-227

A numerical evolutionary procedure for the structural optimisation for stress reduction of two-dimensional structures is presented in this paper. The proposed procedure couples the biological growth method (BGM) with the boundary element method (BEM). The boundary-only intrinsic characteristic of BEM together with its accuracy in the boundary displacement and stress solutions make BEM especially attractive for solving shape-optimisation problems. Two formulations of BEM are used in this work: the standard for two-dimensional elastostatics for the stress analysis and the dual reciprocity method (DRM), which is used to model the swelling or shrinking of the material. Two examples are analysed to illustrate the proposed methodology and to demonstrate its versatility and robustness. 相似文献

19.

GPU accelerated novel particle filtering method

Subhra Kanti Das Chandan Mazumdar Kumardeb Banerjee 《Computing》2014,96(8):749-773

In this paper, a graphics processor unit (GPU) accelerated particle filtering algorithm is presented with an introduction to a novel resampling technique. The aim remains in the mitigation of particle impoverishment as well as computational burden, problems which are commonly associated with classical (systematic) resampled particle filtering. The proposed algorithm employs a priori-space dependent distribution in addition to the likelihood, and hence is christened as dual distribution dependent (D3) resampling method. Simulation results exhibit lesser values for root mean square error (RMSE) in comparison to that for systematic resampling. D3 resampling is shown to improve particle diversity after each iteration, thereby affecting the overall quality of estimation. However, computational burden is significantly increased owing to few excessive computations within the newly formulated resampling framework. With a view to obtaining parallel speedup we introduce a CUDA version of the proposed method for necessary acceleration by GPU. The GPU programming model is detailed in the context of this paper. Implementation issues are discussed along with illustration of empirical computational efficiency, as obtained by executing the CUDA code on Quadro 2000 GPU. The GPU enabled code has a speedup of 3 and 4 over the sequential executions of systematic and D3 resampling methods respectively. Performance both in terms of RMSE and running time have been elaborated with respect to different selections for threads per block towards effective implementations. It is in this context that, we further introduce a cost to performance metric (CPM) for assessing the algorithmic efficiency of the estimator, involving both quality of estimation and running time as comparative factors, transformed into a unified parameter for assessment. CPM values for estimators obtained from all such different choices for threads per block have been determined and a final value for the chosen parameter is resolved for generation of a holistic effective estimator. 相似文献

20.

基于GPU的快速Level Set图像分割 总被引：5，自引：1，他引：5

下载免费PDF全文

吴仲乐王遵亮罗立民《中国图象图形学报》2004,9(6):679-683

水平集(1evel set)图像分割方法是图像分割中的一个重要方法，但是该算法的计算量大，往往不能达到实时处理的要求。给出了利用新一代的可编程图形处理器(GPU)实现level set的加速算法。首先介绍了如何在GPU上利用片元渲染程序进行网格化的线性运算和有限差分PDE计算，把level set方法的离散化算子映射到GPU上。由于以数据流处理方式的GPU的存储访问快，具有并行运算能力，同时level set算法演化的显示不再需要把数据从CPU传到GPU，因此较大地提高了算法速度与交互显示。文中实现并测试了一个与初始化状态独立的二维level set的算子用于图像分割，并对其运算结果和性能进行了比较，结果表明该方法具有更快的速度。相似文献