期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

甘新标沈立王志英《计算机辅助设计与图形学学报》2010,22(3)

为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证视频质量的同时,结合运动估计计算密集、计算量大等特点,充分利用CUDA架构的并行性加快运动估计的速度,从而达到提高实时编码速度的目的.在GTX280实验平台上的实验结果显示,采用文中算法比优化的CPU实现可获得高达70倍的加速比. 相似文献

2.

基于CUDA技术的卷积神经网络识别算法

下载免费PDF全文

张佳康陈庆奎《计算机工程》2010,36(15):179-181

针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。相似文献

3.

AVS标准中整数DCT变换的CUDA并行算法 总被引：1，自引：0，他引：1

孟小华刘坚强《微计算机应用》2011,32(11)

随着图形处理器(GPU)的处理能力的不断增强,图形处理器越来越多的运用在计算密集型的数据处理中.AVS标准视频压缩算法中一些步骤存在典型的并行特性,高清、超清视频压缩的串行算法执行时间开销较大,难以满足实时编码的需要,因此利用GPU的并行处理能力和CUDA的编程框架对AVS标准中的整数DCT变换算法进行了并行实现.经过实验测试,并行算法与串行算法相比具有较高的加速比. 相似文献

4.

一种Fortran到CUDA C的转换方法

刘颖辉迟学斌姜金荣张峰《计算机系统应用》2022,31(5):351-357

基于GPU的异构计算逐渐成为主流计算方法,但限于科学计算编程的历史发展,大量的数值计算软件仍以Fortran语言实现.为了提高计算速度,大量的软件需要移植为CUDA C,但人工实现程序移植是一项浩繁的工程.若能实现从Fortran到CUDA C的自动转换,可以极大的提高程序开发效率.本文设计了将Fortran转换为CU... 相似文献

5.

C语言在工程实践中的应用

卫星君《数字社区&智能家居》2013,(1):80-84

C语言具有较强的数据和图形处理功能,能将所得数据依据函数对应关系绘制出工程所需函数曲线实现图形屏幕显示,并保存图形用于输出。将C语言的字符模式转换为所需分辨率和颜色值的图形模式,正确使用C语言表达函数对应法则,准确计算出工程数值,通过调用C语言库函数画出对应函数值在坐标上的点,从而实现图形的精确绘制。用以上方法对地震勘探原理中的多次叠加振幅特性曲线进行了成功绘制。相似文献

6.

C语言在液晶显示设备中的应用

符红霞陈勇华《电脑学习》2008,(6)

采用C语言编程方式来实现T6963C控制器与显示模块之间的数据接口和数据交换以及簟片机与控制器、模块之间的时序控制、数据存储、数据读取等问题. 相似文献

7.

基于CUDA的声辐射力弹性成像算法研究

下载免费PDF全文

曾博雷友诚王丛知邱维宝冯歌曾成志杨戈郑海荣《计算机工程与应用》2015,51(18):249-254

声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。相似文献

8.

基于CUDA的细粒度并行计算模型研究

肖汉肖波冯娜杨锦锦《计算机与数字工程》2013,41(5)

作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的图形处理器(GPU)进入主流市场,与之相适应的编程模型发展却相对滞后.Nvidia在GeForce 8系列显卡上推出的统一计算设备架构(CUDA)技术,使得通用计算图形处理单元(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算.论文从特性、组成和并行架构等几个方面对CUDA并行计算模型进行了研究,充分表明基于GPU进行高性能并行计算,是适应目前大规模计算需求的一个重要发展途径. 相似文献

9.

基于CUDA的多相机实时高清视频无缝拼接方法

《计算机应用与软件》2016,(2)

为解决传统CPU或GPU多相机视频拼接方法难以兼顾实时性与视觉效果,提出一种基于统一设备架构GUDA(Compute Unified Device Architecture)的实时无缝拼接方法。结合图割算法预处理的静态接缝掩模和图像空间域融合算法解决了运动物体给拼接中接缝处带来的视觉困扰,同时重点对透视变换、图像融合等拼接步骤在CUDA实现中的优化策略进行研究。实验结果表明,该方法在4路1080p高清网络相机实时拼接获得超宽视野视频的条件下,不仅相对CPU有较高的加速比,而且在不同计算性能和架构的GPU上均满足实时性要求并具备更好的视觉效果。相似文献

10.

CUDA平台下LISP2算法垃圾收集并行研究

下载免费PDF全文

张聪品吴长茂赵理莉《计算机工程与应用》2010,46(33):75-77

为了提高垃圾收集效率,降低垃圾收集耗费时间,提出一种基于LISP2算法的并行节点复制垃圾收集算法,给出了在CUDA环境下该算法的实现。实验结果显示,该算法在CUDA环境下能有效提高垃圾收集效率。相似文献

11.

CUDA架构下的快速图像去噪 总被引：3，自引：2，他引：3

下载免费PDF全文

李军李艳辉陈双平《计算机工程与应用》2009,45(11):183-185

图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。相似文献

12.

基于CUDA的邻近粒子搜索算法研究

刘丹陈捷捷《计算机工程与应用》2012,48(18):53-56

在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技术,提出了一种并行邻近粒子搜索算法。实验结果表明,基于CUDA的并行邻近粒子搜索算法,加快了邻近粒子搜索过程,显著地减少了计算时间,成功实现了硬件加速,可获取290以上的加速比,对大规模粒子系统呈现出高效的处理能力。相似文献

13.

CUDA平台下的实时超声扫描转换

王伟民王合闯王华军《计算机应用》2011,31(10):2760-2763

为了克服传统医学超声扫描转换不能实时的缺陷,实时超声扫描转换算法利用计算统一设备架构(CUDA)技术,通过分配最优的线程结构、合理规划中央处理器(CPU)和图形处理器(GPU)之间的数据传输方式和计算任务的划分,提高了算法的吞吐量,满足了实时性。传统CPU算法和3种GPU算法的实验结果对比显示,GPU处理3121×936大小的图片,帧速率可达746fps,并行算法加速比可达300以上。相似文献

14.

基于CUDA的地震数据相干体并行算法 总被引：5，自引：0，他引：5

吴连贵易瑜李肯立《计算机应用》2009,29(3):912-914

在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和配有Intel Core2Due CPU和NVIDIA GeForce 8800 GT显卡的实验结果表明：基于GPU的并行相干体算法可取得理想的线性加速比,提高系统的计算效率。相似文献

15.

基于CUDA的双三次B样条缩放方法 总被引：4，自引：2，他引：2

下载免费PDF全文

桂叶晨冯前进刘磊陈武凡《计算机工程与应用》2009,45(1):183-185

Nvidia在GeForce 8系列显卡上推出的CUDA（统一计算设备架构）技术使GPU通用计算（GPGPU）从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式（SIMD）下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。相似文献

16.

基于CUDA的拉普拉斯边缘检测算法

下载免费PDF全文

孟小华刘坚强区业祥张庆丰《计算机工程》2012,38(18):190-193

拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。相似文献

17.

基于CUDA的SKINNY加密算法并行实现与分析

解文博韦永壮刘争红《计算机应用》2021,41(4):1136-1141

针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出一种基于图形处理器(GPU)的快速实现方法.首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案.实验... 相似文献

18.

基于CUDA的2D-3D配准技术的研究

下载免费PDF全文

徐建秦安卜祥磊冯前进《计算机工程与应用》2010,46(11):56-59

Nvidia从GeForce8系列开始,在显卡上推出统一计算设备框架技术,使GPU的通用计算（GPGPU）从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式（SIMD）下完成高性能并行计算。在医学图像分析中,图像配准通常是一个耗时的过程,不利于临床应用,为了加速医学图像的2D-3D配准过程,研究了CUDA的设计思想和编程方式,提出了一种基于CUDA并行编程模型的加速配准新技术,在构建的虚拟X线摄像系统下,采用并行计算的方式快速生成高质量DRR图像,以对应像素的灰度值残差作为相似性测度,使用Powell优化方法寻找最优变换。实验结果表明,该技术既很好地保持了配准精度,同时又大大提高了配准速度,加速比达到了十几甚至几十倍。相似文献

19.

GPU上实现的向量点积的性能分析

郭雷刘进锋《计算机工程与应用》2012,48(2):201-202

CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。相似文献