期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

牛彤刘立东武忆涵《计算机系统应用》2023,32(1):146-155

针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features, SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的检测和描述进行CUDA并行优化;基于FLANN和RANSAC算法,采用双向匹配策略进行特征匹配,提高配准精度.结果表明,相对串行算法,本文并行算法对不同分辨率的图像均可实现10倍以上的加速比,而且配准精度较传统配准算法提高17%,精度最优可高达96%.基于CUDA加速的SURF算法可广泛应用于安防监控领域,实现全景图像的实时配准. 相似文献

2.

基于GPU的快速三维医学图像刚性配准技术* 总被引：3，自引：1，他引：2

秦安徐建冯前进孟晓林陈武凡《计算机应用研究》2010,27(3):1198-1200

自动三维配准将多个图像数据映射到同一坐标系中,在医学影像分析中有广泛的应用。但现有主流三维刚性配准算法(如FLIRT)速度较慢,2563大小数据的刚性配准需要300 s左右,不能满足快速临床应用的需求。为此提出了一种基于CUDA(compute unified device architecture)架构的快速三维配准技术,利用GPU(gra-phic processing unit)并行计算实现配准中的坐标变换、线性插值和相似性测度计算。临床三维医学图像上的实验表明,该技术在保持配准精度的前提下将速度提相似文献

3.

基于CUDA的2D-3D配准技术的研究

下载免费PDF全文

徐建秦安卜祥磊冯前进《计算机工程与应用》2010,46(11):56-59

Nvidia从GeForce8系列开始,在显卡上推出统一计算设备框架技术,使GPU的通用计算（GPGPU）从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式（SIMD）下完成高性能并行计算。在医学图像分析中,图像配准通常是一个耗时的过程,不利于临床应用,为了加速医学图像的2D-3D配准过程,研究了CUDA的设计思想和编程方式,提出了一种基于CUDA并行编程模型的加速配准新技术,在构建的虚拟X线摄像系统下,采用并行计算的方式快速生成高质量DRR图像,以对应像素的灰度值残差作为相似性测度,使用Powell优化方法寻找最优变换。实验结果表明,该技术既很好地保持了配准精度,同时又大大提高了配准速度,加速比达到了十几甚至几十倍。相似文献

4.

参数合成空间变换网络的遥感图像一致性配准

下载免费PDF全文

陈颖张祺李文举石艳娇陈磊《中国图象图形学报》2021,26(12):2964-2980

目的遥感图像配准是对多组图像进行匹配和叠加的过程。该技术在地物检测、航空图像分类和卫星图像融合等方面发挥着重要作用，主要有传统方法和基于深度学习的方法。其中，传统遥感图像配准算法在进行配准时会耗费大量人力，并且运行时间过长。而基于深度学习的遥感图像配准算法虽然减少了人工成本，提高了模型自适应学习的能力，但是算法的配准精度和运行时间仍有待提高。针对基于深度学习的配准算法存在的问题，本文提出了参数合成的空间变换网络对遥感图像进行双向一致性配准。方法通过增加空间变换网络的深度、合成网络内部的参数对空间变换模型进行改进，并将改进后的模型作为特征提取部分的骨干网络，有效地提高网络的鲁棒性。同时，将单向配准方法改为双向配准方法，进行双向的特征匹配和特征回归，保证配准方向的一致性。然后将回归得到的双向参数加权合成，提高模型的可靠性和准确性。结果将本文实验结果与两种经典的传统方法SIFT（scale-invariant feature transform）、SURF（speeded up robust features）对比，同时与近3年提出的CNNGeo（convolutional neural network architecture for geometric matching）、CNN-Registration（multi-temporal remote sensing image registration）和RMNet（robust matching network）3种最新的方法对比，配准结果表明本文方法不仅在定性的视觉效果上较为优异，而且在定量的评估指标上也有不错的效果。在Aerial Image Dataset数据集上，本文使用"关键点正确评估比例"与以上5种方法对比，精度分别提高了36.2%、75.9%、53.6%、29.9%和1.7%；配准时间分别降低了9.24 s、7.16 s、48.29 s、1.06 s和4.06 s。结论本文所提出的配准方法适用于时间差异变化（多时相）、视角差异（多视角）与拍摄传感器不同（多模态）的3种类型的遥感图像配准应用。在这3种类型的配准应用下，本文算法具有较高的配准精度和配准效率。相似文献

5.

基于邻域几何特征约束的植株三维形态配准方法研究

《计算机应用与软件》2016,(9)

为提高不同角度多次测量得到的植株点云配准速度和精度,提出一种基于植株点云邻域几何特征约束改进的三维形态配准方法。首先,针对点云量大并缺少拓扑信息,选取关键点集并估计其中每个点的支撑邻域来拟合出支撑曲面,进一步计算出邻域几何特征。其次,采用特征相似度的方法实现点云的初始配准。最后,在初始配准的基础上,加入两个新的夹角几何特征约束匹配点对改进ICP算法进行配准优化。利用bunny、兵马俑模型点云对算法的精度和通用性进行测试,并在实际应用中验证了配准效果和算法鲁棒性。结果表明,与传统的特征配准方法相比,该方法配准速度提高约10%以上,精确配准误差约为传统算法误差的1%。相似文献

6.

融合密集残差块和GAN变体的医学图像非刚性配准

下载免费PDF全文

张桂梅胡强龚磊《中国图象图形学报》2020,25(10):2182-2194

目的现有的医学图像配准算法在处理较大非刚性形变的医学图像时,存在配准精度低和泛化能力不足的问题。针对该问题,提出结合密集残差块和生成对抗网络（generative adversarial network,GAN）的图像配准方法,用于多模态医学图像的非刚性配准。方法将密集残差块引入到生成器,提取待配准图像对的更多高层特征,从而提高配准精度;在GAN中采用最小二乘损失代替逻辑回归构造的交叉熵损失,由于最小二乘损失的收敛条件更严格,同时能缓解梯度消失和过拟合,从而提高配准模型的稳定性;在判别器网络中引入相对平均GAN（relative average GAN,RaGAN）,即在标准判别器的基础上增加一项梯度惩罚因子,降低判别器的判别误差,从而相对减少配准模型的配准误差,有助于稳定配准精度。结果在DRIVE（digital retinal images for vessel extraction）数据集上进行训练和验证,在Sunybrook Cardiac数据集和Brain MRI数据集上进行泛化性能测试,并与几种主流医学图像非刚性配准算法进行对比实验,表明,本文配准模型在精度和泛化能力上均有一定程度的提升,相比其他方法,视网膜图像、心脏图像和脑部图像的配准Dice值分别提升了3.3%、3.0%、1.5%。结论提出的配准方法能够获取更多高层特征信息,从而提升配准精度;同时基于最小二乘法构建损失函数并对判别器进行加强,能够使得配准模型在训练阶段快速收敛,提高了配准模型的稳定性和泛化能力,适合存在较大非刚性形变的医学图像的配准。相似文献

7.

基于最小生成树的DoG关键点医学图像配准

下载免费PDF全文

支力佳张少敏赵大哲于红绯赵宏林树宽《中国图象图形学报》2011,16(4):647-653

针对医学图像配准对鲁棒性强、准确性高和速度快的要求,提出一种基于最小生成树的DoG(difference of Gaussian)关键点配准算法。该算法首先从图像上提取DoG关键点,然后将关键点对应的灰度信息融入联合Rényi熵中,最后使用最小生成树来估计联合Rényi熵。新算法结合了DoG关键点的鲁棒性和最小生成树估计Rényi熵的高效性。实验结果表明,在图像含有噪声、灰度不均匀和初始变换范围较大的情况下,该算法在达到良好配准精度的同时,具有较强的鲁棒性和较快的速度。相似文献

8.

基于局部特征描述的多模态视网膜图像配准*

邢雨郑健徐敏杨鑫《计算机应用研究》2010,27(9):3567-3569

提出了一种基于局部特征描述的多模态视网膜图像配准方法,该方法采用圆环结构划分关键点周围区域,通过局部梯度方向直方图构造特征描述子,并对所提取的特征向量进行规范化。实验证明,该算法在多模态视网膜数据集上提高了配准的成功率,相比于经典算法提高了算法的速度和鲁棒性。相似文献

9.

基于层进模型的快速人脸配准方法及其在智能移动设备上的应用

邓健康王灿田刘青山《计算机科学》2014,41(12):297-302

主要研究了移动智能手机上人脸关键点的快速定位问题。在活动形状模型的基础上,提出了一种基于层进模型的快速人脸配准方法:首先,在人脸检测的结果上,采用二值特征快速定位眼角、嘴角等关键点,并对其进行校验修正;然后,通过眼角和嘴角的关键点,并结合边缘约束,对眼睛、嘴巴和人脸外轮廓进行局部配准;最后,对整个人脸形状进行基于加权投影的形状配准。实验结果表明,提出的方法在8~10次迭代后即可收敛,在三星I9300智能手机上,每幅人脸图像的配准时间在40ms以下,满足实时性要求。相似文献

10.

光子映射在CUDA中的研究与实现 总被引：1，自引：0，他引：1

林其选王毅刚《计算机系统应用》2010,19(5):174-178

通过修改光子映射算法的实现过程,使得该算法能够通过CUDA完全运行在最新的GPU上,从而能够充分利用GPU强大的并行计算能力,加速光子映射的实现。光子映射在CUDA中的实现主要通过两个方面来完成：构建光子图和估计辐射能。同时为了提高对光子图中的光子信息的查找速度,采用了kd-tree结构来存储光子信息,使得可以通过KNN（K-Nearest Neighbor）快速搜索光子图。在所测试环境中,渲染速度是CPU中的近1O倍。相似文献

11.

GPU平台下针对SAR地面快视系统的RD算法优化与实现

杨仁忠张萄林波涛韦宏卫《遥感技术与应用》2012,27(2):237-242

针对SAR地面系统实时关键成像技术进行研究,采用GPU(Graphic Processing Unit)硬件平台CUDA(Computer Uniformed Device Architecture)编程模型,对传统合成孔径雷达的RDA(Range Doppler Algorithm)算法核心部分进行了针对性的设计与实现,并在GPU专用科学计算平台Tesla C1060上进行了实验。结果表明其处理速度是一台主流4核心8线程CPU的20倍以上,并且相对RadarSat\|1卫星可以达到10倍左右的实时率;基于GPU的处理方式较好地实现了SAR实时成像系统。相似文献

12.

栅元有效共振积分的CUDA算法设计与实现

任成磊蒲鹏韩定定《计算机工程与科学》2016,38(2):224-230

核反应堆中需要实时精确地计算堆芯和增殖材料的有效共振积分或群截面来实现反应堆的安全控制。整个计算过程因为涉及大量的积分运算和庞大的核素截面数据,采用常规的计算方法,计算时耗相当大。基于统一计算设备架构(CUDA)平台,利用图形处理器(GPU)的计算能力,对整个计算过程进行并行化分解,多线程同时运算,大幅度提升计算速度,降低时耗。实验结果表明,在GPU上并行计算所得结果与原始数据没有明显差异,且加速效果显著。相似文献

13.

基于MPI+CUDA异步模型的并行矩阵乘法

刘青昆马名威阎慰椿《计算机应用》2011,31(12):3327-3330

矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。相似文献

14.

基于图形处理器的边缘检测算法 总被引：1，自引：0，他引：1

张楠王建立王鸣浩《计算机科学》2010,37(1):265-267

边缘检测是一种高度并行的算法,计算量较大,传统的CPU处理难以满足实时要求。针对图像边缘检测问题的计算密集性,在分析常用边缘检测算法的基础上,利用CUDA(Compute Unified Device Architecture,计算统一设备架构)软硬件体系架构,提出了图像边缘检测的GPU(Graphics Processing Unit,图形处理器)实现方案。首先介绍GPU高强度并行运算的体系结构基础,并将Roberts和Sobel这两个具有代表性的图像边缘检测算法移植到GPU,然后利用当前同等价格的CPU和GPU进行对比实验,利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率。实验结果表明,与相同算法的CPU实现相比,其GPU实现获得了相同的处理效果,并将计算效率最高提升到了17倍以上,以此证明GPU在数字图像处理的实际应用中大有潜力。相似文献

15.

Performance evaluation of unified memory and dynamic parallelism for selected parallel CUDA applications

Łukasz Jarząbek Paweł Czarnul 《The Journal of supercomputing》2017,73(12):5378-5401

The aim of this paper is to evaluate performance of new CUDA mechanisms—unified memory and dynamic parallelism for real parallel applications compared to standard CUDA API versions. In order to gain insight into performance of these mechanisms, we decided to implement three applications with control and data flow typical of SPMD, geometric SPMD and divide-and-conquer schemes, which were then used for tests and experiments. Specifically, tested applications include verification of Goldbach’s conjecture, 2D heat transfer simulation and adaptive numerical integration. We experimented with various ways of how dynamic parallelism can be deployed into an existing implementation and be optimized further. Subsequently, we compared the best dynamic parallelism and unified memory versions to respective standard API counterparts. It was shown that usage of dynamic parallelism resulted in improvement in performance for heat simulation, better than static but worse than an iterative version for numerical integration and finally worse results for Golbach’s conjecture verification. In most cases, unified memory results in decrease in performance. On the other hand, both mechanisms can contribute to simpler and more readable codes. For dynamic parallelism, it applies to algorithms in which it can be naturally applied. Unified memory generally makes it easier for a programmer to enter the CUDA programming paradigm as it resembles the traditional memory allocation/usage pattern. 相似文献

16.

Real‐Time Fluid Effects on Surfaces using the Closest Point Method

S. Auer C. B. Macdonald M. Treib J. Schneider R. Westermann 《Computer Graphics Forum》2012,31(6):1909-1923

The Closest Point Method (CPM) is a method for numerically solving partial differential equations (PDEs) on arbitrary surfaces, independent of the existence of a surface parametrization. The CPM uses a closest point representation of the surface, to solve the unmodified Cartesian version of a surface PDE in a 3D volume embedding, using simple and well‐understood techniques. In this paper, we present the numerical solution of the wave equation and the incompressible Navier‐Stokes equations on surfaces via the CPM, and we demonstrate surface appearance and shape variations in real‐time using this method. To fully exploit the potential of the CPM, we present a novel GPU realization of the entire CPM pipeline. We propose a surface‐embedding adaptive 3D spatial grid for efficient representation of the surface, and present a high‐performance approach using CUDA for converting surfaces given by triangulations into this representation. For real‐time performance, CUDA is also used for the numerical procedures of the CPM. For rendering the surface (and the PDE solution) directly from the closest point representation without the need to reconstruct a triangulated surface, we present a GPU ray‐casting method that works on the adaptive 3D grid. 相似文献

17.

Optimizations of a GPU accelerated heat conduction equation by a programming of CUDA Fortran from an analysis of a PTX file

Shin-ichi Satake Hajime Yoshimori Takayuki Suzuki 《Computer Physics Communications》2012,183(11):2376-2385

The Fortran language has been commonly used for many kinds of scientific computation. In this paper, we focus on the solution of an unsteady heat conduction equation, which is one of the simplest problems for thermal dynamics. Recently, a GPU (graphics processing unit) has been enhanced with a Fortran programming language capability employing CUDA (compute unified device architecture), known as CUDA Fortran. We find that the speed performance of a system using an ordinary program coding of CUDA Fortran is lower than that of systems using a program coding of CUDA C. We also find that intermediate assembly files PTX (parallel thread execution) of the two languages are not coincident. Therefore, by comparing the PTX files from the two coding programs we could detect the bottleneck that causes the speed reduction. We propose three optimization techniques that can enable the calculated speeds using CUDA Fortran and CUDA C to be coincident. The optimizations can be performed by the Fortran language when improved by an analyzed PTX file. It is thus possible to improve the performance of CUDA Fortran by adding a correction to it, which happens to be at a programming language level. 相似文献

18.

CUDA架构下H.264快速去块滤波算法 总被引：1，自引：0，他引：1

刘虎孙召敏陈启美《计算机应用》2010,30(12):3252-3254

针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构（CUDA）平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器（GPU）的并发结构特点,对BS判定与滤波计算进行了并行优化,降低了算法复杂度,利用共享内存提高了数据访问速率,实现了去块滤波器的并行处理。实验结果表明,在图像质量基本不变的情况下,GPU算法能够明显提高运算速度,平均加速比在20倍左右,取得了良好的效果。相似文献

19.

基于改进DenseNet网络的人体姿态估计

石跃祥许湘麒《控制与决策》2021,36(5):1206-1212

针对图像中由于人数不确定对处理速度的影响,以及不同人体或人体自身部位的相对大小不同等尺度因素影响导致通用的关键点检测方法的检测效果不佳等问题,提出一种改进的稠密卷积网络(DenseNet)结构用于人体姿态估计.该网络结构为单阶段的端对端的网络结构,利用深度卷积神经网络进行特征提取,在卷积网络末端通过特定的尺度转换结构得到6种不同尺度的特征图,使得网络能同时使用不同层次的特征进行多尺度关键点检测,可以有效提高检测精度.所提出方法采用自底向上的方式,使得网络进行多人姿态估计任务的处理速度得到保证.实验表明,所提出方法相比几种主流方法在多人关键点检测的平均精度上提升了1个百分点,为平衡姿态估计的速度与精度提供了一种新方法. 相似文献

20.

Legendre序列快速生成的CUDA实现

赵家威房九龄苏明《计算机工程与应用》2014,(8):66-71,153

序列设计在信息安全,无线通信等诸多领域中有着重要应用。在流密码系统中,要求产生的随机序列具有理想的随机复杂度度量如线性复杂度,k阶相关复杂度等。其中Legendre序列具有这些理想的随机性质。实用中序列的生成速度也是很重要的考虑因素。探讨了大素数周期的Legendre序列生成的相关算法,并运用统一计算设备架构平台（CUDA）对其进行优化以加快序列的生成速度。实验结果表明,运用CUDA进行序列的并行生成,序列的生成速度有数量级的提高。相似文献