期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Parallel multi‐level 2D‐DWT on CUDA GPUs and its application in ring artifact removal

Leqing Zhu Yadong Zhou Daxing Zhang Dadong Wang Huiyan Wang Xun Wang 《Concurrency and Computation》2015,27(17):5188-5202

This paper presented two schemes of parallel 2D discrete wavelet transform (DWT) on Compute Unified Device Architecture graphics processing units. For the first scheme, the image and filter are transformed to spectral domain by using Fast Fourier Transformation (FFT), multiplied and then transformed back to space domain by using inverse FFT. For the second scheme, the image pixels are convolved directly with filters. Because there is no data relevance, the convolution for data points on different positions could be executed concurrently. To reduce data transfer, the boundary extension and down‐sampling are processed during data loading stage, and transposing is completed implicitly during data storage. A similar skill is adopted when parallelizing inverse 2D DWT. To further speed up the data access, the filter coefficients are stored in the constant memory. We have parallelized the 2D DWT for dozens of wavelet types and achieved a speedup factor of over 380 times compared with that of its CPU version. We applied the parallel 2D DWT in a ring artifact removal procedure; the executing speed was accelerated near 200 times compared with its CPU version. The experimental results showed that the proposed parallel 2D DWT on graphics processing units can significantly improve the performance for a wide variety of wavelet types and is promising for various applications. Copyright © 2015 John Wiley & Sons, Ltd. 相似文献

2.

并行时空处理模型下的快速N-body算法

下载免费PDF全文

王伟曾栩鸿王福焕傅丽丽曾国荪《计算机科学与探索》2011,5(11):1006-1013

图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。相似文献

3.

一种快速的小波变换图象编码算法 总被引：9，自引：2，他引：7

下载免费PDF全文

乔世杰智贵连《中国图象图形学报》2001,6(5):434-438

首先分析并指出了对于零数编码来说,小波变换时应当使用原始滤波器系数参与运算,而对滤波器系数进行缩放会影响其编码性能,此外,低通滤波器时延参数对零树编码性能也有重要影响,为了保证小波变换后各小波子带图象之间的自相似性,就必须使低通滤波器的时延为零,在此基础上,针对具有二进系数的双正交小波滤波器,提出了一种适合零树编码的快速小波变换算法,此算法不但以移位代替了乘法运算,而且与使用原始滤波器系数的变换等效,最后,结合快速零树编码算法,实现了一种快速高效的编码系统。相似文献

4.

基于GPU的快速Level Set图像分割 总被引：5，自引：1，他引：5

下载免费PDF全文

吴仲乐王遵亮罗立民《中国图象图形学报》2004,9(6):679-683

水平集(1evel set)图像分割方法是图像分割中的一个重要方法，但是该算法的计算量大，往往不能达到实时处理的要求。给出了利用新一代的可编程图形处理器(GPU)实现level set的加速算法。首先介绍了如何在GPU上利用片元渲染程序进行网格化的线性运算和有限差分PDE计算，把level set方法的离散化算子映射到GPU上。由于以数据流处理方式的GPU的存储访问快，具有并行运算能力，同时level set算法演化的显示不再需要把数据从CPU传到GPU，因此较大地提高了算法速度与交互显示。文中实现并测试了一个与初始化状态独立的二维level set的算子用于图像分割，并对其运算结果和性能进行了比较，结果表明该方法具有更快的速度。相似文献

5.

大规模稀疏矩阵的主特征向量计算优化方法 总被引：1，自引：0，他引：1

王伟陈建平曾国荪俞莉花谭一鸣《计算机科学与探索》2012,6(2):118-124

矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。相似文献

6.

Accelerating computation of Euclidean distance map using the GPU with efficient memory access

《International Journal of Parallel, Emergent and Distributed Systems》2013,28(5):383-406

Recent graphics processing units (GPUs), which have many processing units, can be used for general purpose parallel computation. To utilise the powerful computing ability, GPUs are widely used for general purpose processing. Since GPUs have very high memory bandwidth, the performance of GPUs greatly depends on memory access. The main contribution of this paper is to present a GPU implementation of computing Euclidean distance map (EDM) with efficient memory access. Given a two-dimensional (2D) binary image, EDM is a 2D array of the same size such that each element stores the Euclidean distance to the nearest black pixel. In the proposed GPU implementation, we have considered many programming issues of the GPU system such as coalesced access of global memory and shared memory bank conflicts, and so on. To be concrete, by transposing 2D arrays, which are temporal data stored in the global memory, with the shared memory, the main access from/to the global memory enables to be performed by coalesced access. In practice, we have implemented our parallel algorithm in the following three modern GPU systems: Tesla C1060, GTX 480 and GTX 580. The experimental results have shown that, for an input binary image with size of 9216 × 9216, our implementation can achieve a speedup factor of 54 over the sequential algorithm implementation. 相似文献

7.

图像小波分解的FPGA实现

黄本雄段善维胡海《计算机工程与科学》2005,27(3):32-34

小波分析作为信号处理领域中的一种重要方法,在信号处理、模式分析和图像处理等方面得到了广泛的应用。然而小波变换巨大的运算量却使得它在实时处理领域中的应用受到了限制。本文根据离散小波变换的Mallat算法,提出了一种EPGA实现高速小波分解的方法,设计出的小波变换模块结构清晰而且规则,易于级联,可实现多级变换。同时,,运算精度和处理速度均满足实时图像处理的要求。相似文献

8.

A Fuzzy Neural Network Based Dynamic Data Allocation Model on Heterogeneous Multi-GPUs for Large-scale Computations

Chao-Long Zhang Yuan-Ping Xu Zhi-Jie Xu Jia He Jing Wang Jian-Hua Adu 《国际自动化与计算杂志》2018,15(2):181-193

The parallel computation capabilities of modern graphics processing units (GPUs) have attracted increasing attention from researchers and engineers who have been conducting high computational throughput studies. However, current single GPU based engineering solutions are often struggling to fulfill their real-time requirements. Thus, the multi-GPU-based approach has become a popular and cost-effective choice for tackling the demands. In those cases, the computational load balancing over multiple GPU “nodes” is often the key and bottleneck that affect the quality and performance of the real-time system. The existing load balancing approaches are mainly based on the assumption that all GPU nodes in the same computer framework are of equal computational performance, which is often not the case due to cluster design and other legacy issues. This paper presents a novel dynamic load balancing (DLB) model for rapid data division and allocation on heterogeneous GPU nodes based on an innovative fuzzy neural network (FNN). In this research, a 5-state parameter feedback mechanism defining the overall cluster and node performance is proposed. The corresponding FNN-based DLB model will be capable of monitoring and predicting individual node performance under different workload scenarios. A real-time adaptive scheduler has been devised to reorganize the data inputs to each node when necessary to maintain their runtime computational performance. The devised model has been implemented on two dimensional (2D) discrete wavelet transform (DWT) applications for evaluation. Experiment results show that this DLB model enables a high computational throughput while ensuring real-time and precision requirements from complex computational tasks. 相似文献

9.

基于图形处理器的模糊C均值聚类分割算法

刘刚梁晓庚贺学剑《计算机科学》2012,39(1):285-286,294

针对模糊C均值聚类图像分割算法运算量大、难于实时处理的问题,提出了一种基于图形处理器的加速算法。通过分析模糊C均值聚类算法各阶段可以并行处理的运算部分,利用计算统一设备架构软硬件结构,分别将隶属度矩阵计算、聚类中心计算和像素按隶属度归类3个部分改造成适合图形处理器硬件并行运行的形式。实验结果表明,相对于CPU串行算法,基于图形处理器的加速算法效率提升明显。鉴于大多数图像处理算法均具有可并行处理的部分,利用图形处理器进行加速具有普适性。相似文献

10.

基于GPU的遥感图像配准并行程序设计与存储优化

周海芳赵进《计算机研究与发展》2012,(Z1):281-286

遥感图像配准是遥感图像应用的一个重要处理步骤.随着遥感图像数据规模与遥感图像配准算法计算复杂度的增大,遥感图像配准面临着处理速度的挑战.最近几年,GPU计算能力得到极大提升,面向通用计算领域得到了快速发展.结合GPU面向通用计算领域的优势与遥感图像配准面临的处理速度问题,研究了GPU加速处理遥感图像配准的算法.选取计算量大计算精度高的基于互信息小波分解配准算法进行GPU并行设计,提出了GPU并行设计模型;同时选取GPU程序常用面向存储级的优化策略应用于遥感图像配准GPU程序,并利用CUDA(compute unified device architecture)编程语言在nVIDIA Tesla M2050GPU上进行了实验.实验结果表明,提出的并行设计模型与面向存储级的优化策略能够很好地适用于遥感图像配准领域,最大加速比达到了19.9倍.研究表明GPU通用计算技术在遥感图像处理领域具有广阔的应用前景. 相似文献

11.

基于GPU的视频流拼接算法研究

张燕赵新灿谭同德《计算机工程与设计》2012,33(4):1472-1476

为解决视频流的稳定实时拼接,结合图形处理器GPU强大的并行计算能力,提出了一种基于GPU的视频流拼接算法.提取视频流的帧图像,利用尺度不变特征变换(scale invariant feature transform,SIFT)算法在GPU上实现帧图像的特征提取与匹配,实现图像拼接,进而实现视频流的稳定实时拼接.基于GPU的SIFT算法充分利用了GPU的并行处理能力,加快了视频流拼接算法执行的速度,真正意义上实现了几个差异较大但具有公共视野的视频流快速稳定的拼接. 相似文献

12.

SAR复图像数据的CCSDS-IDC编码性能分析与四叉树编码 总被引：1，自引：0，他引：1

下载免费PDF全文

侯兴松韩敏龚晨《中国图象图形学报》2014,19(5):659-669

目的：CCSDS-IDC (国际空间数据系统咨询委员会-图像数据压缩) 是NASA制定的基于离散小波变换(DWT)尺度间衰减性的空间图像数据压缩标准,适用于合成孔径雷达(SAR)幅度图像及各类遥感图像的压缩。然而,与光学图像不同,常见的SAR图像都是复图像数据,其在干涉测高等许多场合具有广泛应用,分析研究CCSDS-IDC对SAR复图像数据的编码性能具有重要的应用价值。方法：由于SAR复图像数据不具有尺度间的衰减性,因此将其用于SAR复图像数据编码时性能较低。考虑到SAR复图像数据DWT系数呈现出聚类特性,提出将四叉树(QC)用于DWT域的SAR复图像数据编码,发现QC对SAR复图像数据具有高效的压缩性能。结果：实验结果表明,在同等码率下,对基于DWT的SAR复图像数据压缩, QC比CCSDS-IDC最多可提高幅度峰值信噪比4.4dB,平均相位误差最多可降低0.368;与基于方向提升小波变换（DLWT）的CCSDS-IDC相比,QC可提高峰值信噪比3.08dB,降低平均相位误差0.25;对其它类型的图像压缩,基于聚类的QC仍能获得很好的编码性能。结论：CCSDS-IDC对SAR复图像数据编码性能低下,而QC能获得很好的编码性能。对应于图像平滑分布的尺度间衰减性,其在某些特殊图像中可能不存在,而对应于图像结构分布的聚类特性总是存在的,故在基于DWT的图像编码算法设计中,应优先考虑利用小波系数的聚类特性,从而实现对更多种类图像的高效编码。相似文献

13.

A fast Hough Transform algorithm for straight lines detection in an image using GPU parallel computing with CUDA-C

R. Yam-Uicab J. L. Lopez-Martinez J. A. Trejo-Sanchez H. Hidalgo-Silva S. Gonzalez-Segura 《The Journal of supercomputing》2017,73(11):4823-4842

The Hough Transform (HT) is a digital image processing method for the detection of shapes which has multiple uses today. A disadvantage of this method is its sequential computational complexity, particularly when a single processor is used. An optimized algorithm of HT for straight lines detection in an image is presented in this article. Optimization is realized by using a decomposition of the input image recently proposed via central processing unit (CPU), and the technique known as segment decomposition. Optimized algorithms improve execution times significantly. In this paper, the optimization is implemented in parallel using graphics processing unit (GPU) programming, allowing a reduction of total run time and achieving a performance more than 20 times better than the sequential method and up to 10 times better than the implementation recently proposed. Additionally, we introduce the concept of Performance Ratio, to emphasize the outperforming of the GPU over the CPUs. 相似文献

14.

一种改进的DWT域图像篡改检测算法

李春娟《计算机安全》2008,(6):30-32

改进一种DWT域图像篡改检测算法。该算法将置乱的有意义的二值水印图像利用量化的方法隐藏在载体图像Haar小波变换系数中。图像认证时,对提取的水印和原水印图像的差值图像进行反混沌置乱,再进行形态学处理,从中可以看出认证图像的篡改区域。此算法与Kunder等人提出的基于Haar小波的半易损水印算法相比,能够有效地区分JPEG压缩和恶意篡改,不需要设置阈值来区分JPEG压缩和恶意篡改,可以从水印差值图像直接看出恶意篡改的区域。相似文献

15.

一种基于小波变换的图像数字水印方法

张光桃乐红兵《计算机工程与设计》2006,27(13):2480-2481,2510

提出一种结合置乱技术的小波域图像水印算法。利用Arnold置换方法对水印图像作时域上的变换,将秘图变换成无意义的图像,达到加密的效果,再根据提出的一种小波变换域的数字水印算法,将水印图像嵌入到小波变换的不同方位的重要系数当中,文中实现了标志图像水印。实验结果表明,该水印算法对图像处理有较强的鲁棒性。相似文献

16.

基于PDF417和提升小波的数字图像水印算法 总被引：1，自引：0，他引：1

下载免费PDF全文

乔社娟张菊香高振江《计算机工程与应用》2008,44(7):117-119

根据PDF417与提升小波变换的特点,提出一种基于PDF417和提升小波变换的数字图像水印算法。首先将水印信息进行PDF417编码,并在密钥控制下进行混沌序列置乱后得到二值水印图像;最后使用小波提升技术对原始图像进行小波三级变换,在小波变换域低频子带中嵌入二值水印图像。实验结果证明：该算法能很好地保持图像质量,对常见的图像处理具有很强的鲁棒性,同时不仅能保持传统小波多分辨率图像水印的优势,而且处理速度更快,对图像尺寸没有特殊要求。相似文献

17.

一种基于GPU 加速细粒度并行遗传算法的实现方法 总被引：1，自引：0，他引：1

李建明迟忠先万单领《控制与决策》2008,23(6):697-700

为改善遗传算法对大规模多变量求解的性能,提出一种基于图形处理器(GPU)加速细粒度并行遗传算法的实现方法.将并行遗传算法求解过程转化为GPU纹理渲染过程,使得遗传算法在GPU中加速执行.实验结果表明,该算法抑制了早熟现象,增大了并行遗传算法的种群规模,提高了算法的运算速度,并为普通用户研究并行遗传算法提供了一种可行的方法. 相似文献

18.

基于GPU的图像快速旋转算法的研究及实现 总被引：2，自引：0，他引：2

下载免费PDF全文

刘耀林邱飞岳王丽萍《计算机工程与科学》2008,30(6):48-50

本文提出一种基于GPU（图形处理器）的图像旋转并实时绘制方法。首先,文章概述了一种由GPU完成旋转变换的算法,指出其存在的问题与局限性;然后,引出基于GPU的图像旋转算法,并利用DirectX9．0作为软件开发包,在VC＋＋6．0平台实现了图像的旋转以及实时显示;最后,对两种方法的实验结果进行了比较与分析。算法充分吸收GPU在速度以及节约CPU资源等方面的优势,保证了图像旋转的运算速度与旋转质量。相似文献

19.

Fermi架构下超声成像组织运动可视化并行算法

何兴无《计算机系统应用》2013,22(4):147-152

在临床超声实时成像系统中组织运动情况是医生想要获取的重要诊断信息, 例如心脏运动. 基于线积分卷积的二维矢量场可视化技术可以同时展现运动矢量场的强度和方向. 但这一算法在处理时涉及大量的复杂计算, 尤其是流线追踪处理部分, 使其成为临床实时成像系统中的一大性能提升瓶颈. 为此研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(graphics processing unit图形处理单元)的并行运动可视化算法. 数据测试结果显示, 与基于CPU的实现相比, 采用Fermi架构的GPU处理不仅可相似文献

20.

一个基于DWT的自适应数字水印算法 总被引：2，自引：0，他引：2

黄松张伟陈军杨华千《计算机科学》2006,33(7):155-157

本文提出了一个新的DWT域自适应数字水印算法。该算法利用小波域高、低频部分嵌入水印的优势互补特点,在载体图像的高频和低频子带分别嵌入相同水印来增强水印抵抗多种攻击的能力;水印的嵌入采用量化调制方式,其量化步长可根据人类视觉系统和载体图像的局部特点自适应地调整。此外,由于奇异值分解具有良好的性能,因而被用于高频部分水印的嵌入以提高其鲁棒性。实验结果表明水印具有良好的鲁棒性和不可见性,与相近算法相比,本文方法可以有效抵抗更多的攻击。相似文献