期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

尹华国何兴无周洪林《计算机工程与应用》2012,48(19):140-144

医学超声脉冲多普勒成像模式是在临床超声成像系统中获得人体血管中血流分布情况的一种重要的检测工具,与传统的B超,彩超成像模式不同,超声脉冲多普勒成像模式不仅可以通过频谱图显示表示流过取样容积的血流速度变化和测定某一位置的血流,而且相比较于连续波式多普勒模式它可以消除多普勒信号的混叠效应提高检测的空间分辨率。但是脉冲多普勒系统在处理时涉及大量的复杂运算,例如FFT（快速傅里叶变换）和卷积运算等,使其难于应用到临床实时系统中。为此研究并提出了一种基于统一计算设备架构（CUDA）平台的超声脉冲多普勒成像系统的并行处理算法。该算法包括了壁滤波、频谱估计、移频处理和频谱显示后处理等处理步骤的并行实现。数据实验结果表明,基于CUDA的超声脉冲多普勒成像处理结果与基于CPU的实现相比,不仅可以得到相同质量的频谱图,而且可以取得较大的加速效果,满足实时系统需求;数据测试显示,对于65 535×20的信号数据能够达到1秒处理2 770条谱线的计算性能,速度提高了约140倍。相似文献

2.

基于CUDA的超声B模式成像 总被引：3，自引：0，他引：3

夏春兰石丹刘东权《计算机应用研究》2011,28(6):2011-2015

超声B模式成像是超声成像系统中最基本的成像模式,能够为临床诊断提供器官组织的解剖信息。但是由于从聚焦的射频信号（RF,Radio-Frequency）到B模式图像的基带处理过程中涉及大量运算,为了得到高质量的B模式图像,现有的医疗系统在实际实现过程中通常依赖于复杂的硬件,这大大加大了实现难度及成本。为此提出了一种基于NVIDIA 公司统一计算设备架构（CUDA,Compute Unified Device Architecture）的超声B模式成像的并行实现,利用图形处理单元（GPU,Graphic Processing Unit）并行计算实现从RF到B模式图像过程中的卷积计算,正交解调,包络检测, 数据压缩及扫描转换等处理。临床活体组织数据上的实验表明,针对由规模为191 * 9344的RF数据得到648 *512的B模式图像,基于CUDA的并行实现与基于CPU的实现相比,在保证得到相同质量的B模式图像的前提下,速度提高了69倍。相似文献

3.

基于Fermi平台的双边滤波超声图像斑点噪声抑制并行处理算法

张霞何兴无《计算机应用与软件》2013,(10)

对医学超声图像使用双边滤波技术不仅可以很好地抑制噪声,同时可以较好地保留组织结构信息。但由于该技术涉及大量的复杂计算往往难以满足实时处理的要求,为此依据Fermi架构技术特性设计完成一种斑点噪声抑制的并行处理算法。数据测试结果显示,采用Fermi架构的GPU处理在保证算法处理效果基础上获得了比较明显的加速效果。对于512×512的图像数据在迭代两次的情况下能够达到25 fps的帧率,速度提高了大约90倍。相似文献

4.

CUDA下使用区域增长的超声斑点噪声抑制

何兴无李辉《微处理机》2013,34(4)

在数字彩色超声成像系统中斑点噪声是影响超声图像成像品质的重要原因.使用图像局部区域的统计信息可以较好地识别出斑点噪声和组织结构区域,进而使用自适应滤波抑制斑点噪声.但这一处理涉及大量复杂计算,使其难以在临床实时成像系统发挥作用,为此研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(graphics processing unit图形处理单元)的并行斑点噪声抑制处理算法.数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的图像去噪效果,而且可以取得较大的加速性能.对512 ×512的图像数据能够达到65fps的高帧率,速度提高了大约183倍. 相似文献

5.

直方图匹配算法在超声弹性成像上的应用研究

何颖妮邵党国刘东权《计算机应用研究》2013,30(4):1266-1270

为了降低弹性噪声、提高图像质量,对直方图匹配算法在超声弹性成像上的应用进行了研究。为使算法去噪效果最佳,通过实验探讨了最佳匹配窗口大小与超声弹性图像分辨率单元大小之间的关系,测试和分析了中心频率及互相关计算窗口长度对算法去噪效果的影响,并采集临床体模数据对算法效果进行了验证。实验结果表明,将直方图匹配算法应用至弹性成像后,弹性信噪比和对比度噪声比得到了显著的提高;最佳匹配窗口宽度与横向分辨率一致,长度与互相关计算窗口大小及中心频率成正比。相似文献

6.

CUDA平台下的实时超声扫描转换

王伟民王合闯王华军《计算机应用》2011,31(10):2760-2763

为了克服传统医学超声扫描转换不能实时的缺陷,实时超声扫描转换算法利用计算统一设备架构(CUDA)技术,通过分配最优的线程结构、合理规划中央处理器(CPU)和图形处理器(GPU)之间的数据传输方式和计算任务的划分,提高了算法的吞吐量,满足了实时性。传统CPU算法和3种GPU算法的实验结果对比显示,GPU处理3121×936大小的图片,帧速率可达746fps,并行算法加速比可达300以上。相似文献

7.

基于CUDA的声辐射力弹性成像算法研究

下载免费PDF全文

曾博雷友诚王丛知邱维宝冯歌曾成志杨戈郑海荣《计算机工程与应用》2015,51(18):249-254

声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。相似文献

8.

BPF 重建算法的 CUDA 并行实现

伍绍佳陈皓廖丽桂建保《集成技术》2014,3(5):61-68

反投影滤波(Backprojection-Filter,BPF)算法凭借其可实现感兴趣区域重建的优点,近年来逐渐被应用到锥束CT中。但是,由于算法的复杂性,实践中存在耗时问题,同时其GPU加速的实现亦存在显存不足等问题。因此,文章提出了一种基于CUDA的BPF并行加速算法。通过设计高效的算法框架,在保留其重建精度的前提下,有效地减少所需显存。此外,总结了正投影算法及BPF算法中采用的加速策略,如利用算法特征加速等,并引入显存池的概念优化算法架构。仿真实验结果表明,在精确重建的前提下,采用新框架重建512×512×512数据只需8.055 s,感兴趣区域重建只需4.566 s,只需1.523 s便可输出第一部分数据,且能把显存占用从2.5 GB减少到100 MB以下,适用于大数据重建。相似文献

9.

超声弹性成像中零相位算法与互相关算法比较

费霞《现代计算机》2014,(9):54-57

超声弹性成像技术的基本思想就是从超声信号中获取生物组织的硬度/弹性信息并进行成像。超声弹性成像中,生物组织的位移估计是估算应变的关键。介绍两种位移估计的算法：零相位算法与互相关算法。并从时间,准确度上来对比两种算法,哪种在获取位移值上效果更佳。相似文献

10.

Fermi架构下各向异性扩散超声斑点噪声抑制

何兴无《微处理机》2013,34(1):41-44,48

在医学超声成像系统中斑点噪声是影响超声图像成像品质的主要原因。使用图像局部区域的相干性信息可以较好地进行斑点噪声抑制,半隐式加性算子分裂的运算方式相比较于传统显式各向异性的滤波方式更稳定可靠。但这一各向异性扩散方法在处理时涉及大量的复杂计算,使其在目前的超声系统上难以得到实际应用,为此提出一种基于新兴高性能并行计算平台Fermi架构GPU(graphics processing unit图形处理单元)的并行斑点噪声抑制处理算法。测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的图像去噪效果,而且可以取得较大的加速效果,基本满足实时系统需求。对于512×512的图像数据能够达到378fps的帧率,速度提高了约119倍。相似文献

11.

Fermi架构下超声成像组织运动可视化并行算法

何兴无《计算机系统应用》2013,22(4):147-152

在临床超声实时成像系统中组织运动情况是医生想要获取的重要诊断信息, 例如心脏运动. 基于线积分卷积的二维矢量场可视化技术可以同时展现运动矢量场的强度和方向. 但这一算法在处理时涉及大量的复杂计算, 尤其是流线追踪处理部分, 使其成为临床实时成像系统中的一大性能提升瓶颈. 为此研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(graphics processing unit图形处理单元)的并行运动可视化算法. 数据测试结果显示, 与基于CPU的实现相比, 采用Fermi架构的GPU处理不仅可相似文献

12.

基于CUDA的拉普拉斯边缘检测算法

下载免费PDF全文

孟小华刘坚强区业祥张庆丰《计算机工程》2012,38(18):190-193

拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。相似文献

13.

Parallel multi‐level 2D‐DWT on CUDA GPUs and its application in ring artifact removal

Leqing Zhu Yadong Zhou Daxing Zhang Dadong Wang Huiyan Wang Xun Wang 《Concurrency and Computation》2015,27(17):5188-5202

This paper presented two schemes of parallel 2D discrete wavelet transform (DWT) on Compute Unified Device Architecture graphics processing units. For the first scheme, the image and filter are transformed to spectral domain by using Fast Fourier Transformation (FFT), multiplied and then transformed back to space domain by using inverse FFT. For the second scheme, the image pixels are convolved directly with filters. Because there is no data relevance, the convolution for data points on different positions could be executed concurrently. To reduce data transfer, the boundary extension and down‐sampling are processed during data loading stage, and transposing is completed implicitly during data storage. A similar skill is adopted when parallelizing inverse 2D DWT. To further speed up the data access, the filter coefficients are stored in the constant memory. We have parallelized the 2D DWT for dozens of wavelet types and achieved a speedup factor of over 380 times compared with that of its CPU version. We applied the parallel 2D DWT in a ring artifact removal procedure; the executing speed was accelerated near 200 times compared with its CPU version. The experimental results showed that the proposed parallel 2D DWT on graphics processing units can significantly improve the performance for a wide variety of wavelet types and is promising for various applications. Copyright © 2015 John Wiley & Sons, Ltd. 相似文献

14.

基于CUDA的SVM算法并行化研究

张巍张功萱王永利张永平朱昭萌《计算机科学》2013,40(4):69-72

SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。相似文献

15.

AVS标准中整数DCT变换的CUDA并行算法 总被引：1，自引：0，他引：1

孟小华刘坚强《微计算机应用》2011,32(11)

随着图形处理器(GPU)的处理能力的不断增强,图形处理器越来越多的运用在计算密集型的数据处理中.AVS标准视频压缩算法中一些步骤存在典型的并行特性,高清、超清视频压缩的串行算法执行时间开销较大,难以满足实时编码的需要,因此利用GPU的并行处理能力和CUDA的编程框架对AVS标准中的整数DCT变换算法进行了并行实现.经过实验测试,并行算法与串行算法相比具有较高的加速比. 相似文献

16.

基于CUDA平台的FIR滤波算法的设计与优化

郭海凤李莉《计算机技术与发展》2014,(3):102-105,167

针对目前基于普通DSP的FIR算法速度低、扩展性差的缺点,提出并实现基于CUDA平台实现的FIR滤波算法。由于在CUDA中程序可以直接操作数据而无需借助于图形系统的API,使开发者能够在GPU 强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。该算法将CUDA用于FIR滤波器输入输出关系计算,采用矩阵乘法的并行运算技术,在GPU上建立并行滤波模型,并对算法进行了优化。实验结果表明,在Tesla C1060平台上,和传统的基于DSP的FIR滤波算法计算速度相比,基于CUDA平台计算FIR滤波算法时,其加速比可接近30,解决了传统基于DSP计算FIR滤波算法速度较慢、扩展性差的问题。相似文献