共查询到17条相似文献,搜索用时 78 毫秒
1.
2.
基于GPU的快速三维医学图像刚性配准技术* 总被引:2,自引:1,他引:2
自动三维配准将多个图像数据映射到同一坐标系中,在医学影像分析中有广泛的应用。但现有主流三维刚性配准算法(如FLIRT)速度较慢,2563大小数据的刚性配准需要300 s左右,不能满足快速临床应用的需求。为此提出了一种基于CUDA(compute unified device architecture)架构的快速三维配准技术,利用GPU(gra-phic processing unit)并行计算实现配准中的坐标变换、线性插值和相似性测度计算。临床三维医学图像上的实验表明,该技术在保持配准精度的前提下将速度提 相似文献
3.
针对目前图像处理算法日益复杂,对CPU的性能要求越来越高,而传统的基于CPU的图像处理方法无法满足需求的情况,本文对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行研究和实现。通过充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现相关算法。研究并设计高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,并通过与CPU实现相同效果的性能的对比,证明基于GPU图像处理算法的高效性。 相似文献
4.
为提高图像处理领域协方差矩阵的计算效率,满足其在实时要求下的应用,借助GPU通用计算技术,结合CUDA编程模型,对协方差矩阵的计算进行有针对性的并行化优化,设计并实现一种高效的并行图像协方差矩阵算法。为在通用PC平台上使用协方差矩阵并满足实时性需求的各种图像处理应用提供了一个可行的解决方法,对其它领域涉及到协方差矩阵的实时计算也有良好的借鉴作用。与原有的CPU实现方法相比,GPU的效率有了平均数千倍的提升。 相似文献
5.
随着GPU技术的发展,GPU比CPU拥有了更高的处理能力。本文提出将多层显微图像融合计算由CPU转移到GPU上进行,提升融合速度,最终达到图像融合与图像采集同步。两者的对比实验结果表明GPU在进行图像融合有明显的速度优势;将图像融合嵌入到图像采集程序后的测试表明通过GPU进行图像融合完全可以与相机采集相同步,完成采集、融合实时进行。这一结果改变了长期以来研究人员进行图像融合时,先拍照,再融合的工作流程,只需要将相机在不同聚焦高度扫描一次即可得到多层聚焦位置的融合图。 相似文献
6.
走时计算是叠前时间偏移计算中最耗时的部分,通过分析传统的串行走时算法,发现静态8点插值算法非常适合在GPU上运行。首先利用CUDA技术对静态8点插值算法进行并行化改造,设计静态8点并行插值算法,然后测试其正确性,统计其相对误差情况。实验表明此算法比工业生产上的动态插值算法更准确,最后我们利用体偏作性能测试。试验结果表明,运行在GPU上的静态8点并行插值算法内核性能是运行在CPU上的动态插值算法内核的22.76倍。这说明,静态8点并行插值算法适合进行走时计算,并且可以应用于工业生产上。 相似文献
7.
基于计算机的分子动力学仿真具有理论分析方法和实验方法无法比拟的优点,但分子动力学仿真算法计算量非常大,特别是在对碳纳米管的大规模粒子数进行仿真处理时,普通的基于CPU的串行算法执行效率低且耗时多。为此,提出基于统一计算设备架构的碳纳米管分子动力学的图形处理单元( GPU)并行算法,设计并实现仿真算法中适合GPU并行运算的分裂算法,将具有竞争资源的运算以非竞争方式运行。实验结果表明,与CPU串行仿真算法相比,分裂算法的运算速度较快,且在只有16个GPU流处理器显卡上可获得十多倍的加速比。 相似文献
8.
9.
针对粒子群优化(PSO)算法训练人工神经网络(NN)时面临的计算时间过长问题,引入基于图形处理器(GPU)技术的并行处理解决方法。使用粒子与线程一一对应的并行策略,通过并行处理各个粒子的计算过程来加快整个粒子群的收敛速度,减少粒子群神经网络(PSO-NN)的训练时间。在统一计算设备架构(CUDA)下对一简单测试函数逼近的数值进行仿真,实验结果表明,相较基于CPU的串行PSO-NN,基于GPU的并行PSO-NN在寻优稳定性一致的前提下取得了超过500倍的计算加速比。 相似文献
10.
随着通信技术的发展,通信终端逐渐采用软件的方式来兼容多种通信制式和协议。针对以计算机中央处理器(CPU)作为运算单元的传统软件无线电架构,无法满足高速无线通信系统如多进多出(MIMO)等宽带数据的吞吐率要求问题,提出了一种基于图形处理器(GPU)的低密度奇偶校验(LDPC)码译码器的加速方法。首先,根据GPU并行加速异构计算在GNU Radio 4G/5G物理层信号处理模块中的加速表现的理论分析,采用了并行效率更高的分层归一化最小和(LNMS)算法;其次,通过使用全局同步策略、合理分配GPU内存空间以及流并行机制等方法减少了译码器的译码时延,同时配合GPU多线程并行技术对LDPC码的译码流程进行了并行优化;最后,在软件无线电平台上对提出的GPU加速译码器进行了实现与验证,并分析了该并行译码器的误码率性能和加速性能的瓶颈。实验结果表明,与传统的CPU串行码处理方式相比,CPU+GPU异构平台对LDPC码的译码速率可提升至原来的200倍左右,译码器的吞吐量可以达到1 Gb/s以上,特别是在大规模数据的情况下对传统译码器的译码性有着较大的提升。 相似文献
11.
12.
针对zk-SNARK(zero-knowledge succinct non-interactive argument of knowledge)中计算最为耗时的多标量乘法(multi-scalar multiplication,MSM),提出了一种基于GPU的MSM并行计算方案。首先,对MSM进行细粒度任务分解,提升算法本身的计算并行性,以充分利用GPU的大规模并行计算能力。采用共享内存对同一窗口下的子MSM并行规约减少了数据传输开销。其次,提出了一种基于底层计算模块线程级任务负载搜索最佳标量窗口的窗口划分方法,以最小化MSM子任务的计算开销。最后,对标量形式转换所用数据存储结构进行优化,并通过数据重叠传输和通信时间隐藏,解决了大规模标量形式转换过程的时延问题。该MSM并行计算方法基于CUDA在NVIDIA GPU上进行了实现,并构建了完整的零知识证明异构计算系统。实验结果表明:所提出的方法相比目前业界最优的cuZK的MSM计算模块获得了1.38倍的加速比。基于所改进MSM的整体系统比业界流行的Bellman提升了186倍,同时比业界最优的异构版本Bellperson提升了1.96倍,验证了方法的有效性。 相似文献
13.
基于改进拉普拉斯能量和的快速图像融合 总被引:3,自引:0,他引:3
为了得到优质的融合图像,提出了一种改进的拉普拉斯能量和(New Sum of Modified Laplacian,NSML)多聚焦图像融合算法。该算法在传统SML计算每个像素点的变步长拉普拉斯算子值仅有的水平和垂直方向的基础上,增加了斜对角线上的四个方向。同时通过分析NSML算法的计算过程,发现存在大量的重复计算,从而提出了基于积分图像的快速NSML图像融合方法。该方法通过简化NSML的计算过程,大大减少了图像融合处理过程消耗的时间,提高了图像融合的效率。实验结果表明,快速NSML方法在达到极佳融合图像质量的同时,提升了算法的实时性。 相似文献
14.
15.
为了充分利用图形处理器(GPU)的闲置资源,同时达到提高密码算法加密速度的目的,提出了一种在图形处理器上实现AES加密算法的方法,分别阐述了基于传统OpenGL的AES实现以及基于最新技术CUDA的AES实现,并对这两种方法的实现性能进行了分析,同时与传统CPU方法的实现性能进行了比较,基于CUDA的AES的实现速度达到了传统CPU上AES实现速度的19.6倍. 相似文献
16.
17.
大多数图像处理算法都可利用GPU进行加速以达到更好的执行性能,但数据传输操作与核函数执行之间的调度策略问题仍是桎梏加速性能进一步提升的主要瓶颈。为了解决这个问题,通常采用GPU任务流将核函数执行与数据传输操作进行重叠,以隐藏部分数据传输与核函数执行耗时。但是,由于CUDA编程模型的特性以及GPU硬件资源的限制,在某些情况下,即使创建较多的任务流用于任务重叠,每个流上仍会存在串行执行的任务,导致加速效果无法进一步提升。因此,考虑利用CSS将待处理图像进行合并从而将单个流中的算子核函数及数据传输操作进行合并,以减少数据传输操作和核函数执行的固定代价及调用间隙。通过实验结果可知,提出的CSS结构不仅能在单流的情况下提高GPU图像处理算法执行性能,在多流的情况下其加速性能也得到了进一步提升,具有较好的实用性及可扩展性,适用于包含较多算子操作或较小尺寸图像批量处理的情况。此外,提出的方法对图像处理算法的GPU加速提供了新的研究思路。 相似文献