首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
基于CUDA的H.264去方块滤波的设计与实现   总被引:1,自引:1,他引:0  
详细分析了统一计算设备架构(CUDA)的编程模型,从并行计算角度对H.264视频编解码中的去方块滤波进行研究和优化,提出了基于CUDA加速的去方块滤波并行处理方法.通过对高清测试序列的实验表明,利用GPU并行处理能力能够明显提高视频编解码速度,并有效降低CPU资源占用率.  相似文献   

2.
NVIDIA 推出的CUDA(计算统一设备架构)是基于GPU 进行通用计算的开发平台,非常适合大规模的并行数据计算。在GPU 流处理器架构下用CUDA 技术实现编码并行化,并针对流处理器架构特点进行内存读写等方面的优化。在此采用CUDA技术,实现了计算机桌面环境的多屏幕融合显示的纯软件拼接系统。该系统不但较以往单一的视频拼接系统功能更加强大,也较采用分屏器等硬件辅助的融合系统成本更低,适应性更强。目前实验表明,CUDA 技术在并行处理方面的优越性使得该系统画面实时处理快,互动展示性好,具有很大的商业使用前景。  相似文献   

3.
为了加快颗粒全息图的重建速度,提出了一种基于多线程编译框架(OpenMP)和统一计算设备架构(CUDA)并行技术的二级并行架构颗粒全息图快速重建方法。第1级并行针对重建截面,第2级并行针对像素,同时在这两个维度进行并行重建,利用OpenMP实现图片级并行,利用CUDA实现像素级并行。以煤粉颗粒全息图为测试对象,同时采用单线程重建程序和二级并行重建程序进行全息重建,比较了两种计算方式的重建结果和计算耗时。结果表明,二级并行重建结果与单线程重建结果是一致的,且可大大缩短重建耗时; 对于分辨率为5000×5000的全息图,在重建截面数为40时,可实现48.3倍的加速比。此计算架构在数字全息的颗粒场实时在线诊断中具有很好的应用前景。  相似文献   

4.
随着微处理器技术的发展,GPU/CPU的混合计算已经成为是科学计算的主流趋势.本文从编程的层面,介绍了如何利用已有的并行编程语言来,调度GPU的计算功能,主要以MPI(一种消息传递编程模型)与基于GPU的CUDA(统一计算设备架构)编程模型相结合的方式进行GPU集群程序的测试,并分析了CPU/GPU集群并行环境下的运行特点.从分析的特点中总结出GPU集群较优策略,从而为提高CPU/GPU并行程序性能提供科学依据.  相似文献   

5.
为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发平台。在通用计算图形处理器(general purpose graphic process unit, GPGPU)上使用CUDA技术实现DWT并行化加速,并针对GPGPU存储空间的特点进行优化。得出的实验结果表明,经过CUDA并行优化的方法能够有效地提高DWT的计算速度。  相似文献   

6.
以CUDA架构为例,对传统的CPU+单GPU架构进行了分析,提出了一种CPU+多GPU异构协同计算的系统方案,对关键的CPU对多GPU的管理及多GPU间数据通信等问题做了重点讨论,从理论上进行了可行性分析,并提出了相应的优化方法.  相似文献   

7.
在上位机进行实时目标跟踪,使用传统的CPU进行计算往往由于数据处理量大而消耗很多计算时间,影响实时性和跟踪效果。近年来,nVidia公司提出的CUDA架构利用GPU进行并行计算,极大提高了运算速度。本文在介绍CUDA架构的特性及软硬件实现原理的基础上,利用CUDA来实现上位机的实时目标跟踪,并与传统方法的计算速度进行了比较。结果表明,CUDA的应用使上位机目标跟踪的实时性得到了很大提升,可以将其应用于其它众多领域。  相似文献   

8.
矩阵乘法是科学计算中常用的操作,高效的矩阵乘法运算可以提高许多应用的效率.本文主要讨论了如何在CUDA架构下实现高效的矩阵乘法并行运算.对于比较特殊的稀疏矩阵进行了特殊的处理,提出了相应的在CUDA架构下进行并行计算的方法.  相似文献   

9.
针对目前地层层析成像算法中正演算法存在计算量大、计算速度慢的问题,以图像处理器(GPU)为核心,研究并实现了一种基于GPU平台的时域有限差分(FDTD)正演算法。CUDA是一种由NVIDIA推出的GPU通用并行计算架构,也是目前较为成熟的GPU并行运算架构。而FDTD正演算法本身在算法特性上满足并行的要求,二者的结合将极大地加速程序的计算速度。在基于标准Marmousi速度模型的正演模拟中,程序速度提升30倍,而GPU正演图像与CPU正演结果误差小于千分之一。算例表明CUDA可以大大加速目前的FDTD正演算法,并且随着GPU硬件自身的发展和计算架构的不断改进,加速效果还将进一步提升,这将有利于后续波形反演工作的进展。  相似文献   

10.
意法半导体全资子公司Portland Group推出PGICUDAC和C++编译器,针对基于产业标准的通用64位和32位x86架构的处理器系统。CUDA是英伟达(NVIDIA)开发的并行计算架构,可利用NVIDIA GPU的动态提升系统计算性能。PGI的CUDAC/C++编译器让更多的开发人员能够利用CUDA并行编程模型优化代码库关键部分的性能,针对包括有或无NVIDIAGPU的服务器和服务集群。  相似文献   

11.

Recent advances in general-purpose graphics processing units (GPGPUs) have resulted in massively parallel hardware that is widely available to achieve high performance in desktop, notebook, and even mobile computer systems. While multicore technology has become the norm of modern computers, programming such systems requires the understanding of underlying hardware architecture and hence posts a great challenge for average programmers, who might be professionals in specific domains, but not experts in parallel programming. This paper presents a GUI tool called GPUBlocks that can facilitate parallel programming on multicore computer systems. GPUBlocks is developed based on the OpenBlocks framework, an extendable tool for graphical programming, to construct the GUI-based programming environment for CUDA and OpenCL parallel computing platforms. Programmers simply need to drag-n-drop blocks, fill the fields of the blocks, and connect them according to array or matrix computations that are specified by algorithms. GPUBlocks can then translate block-based code to CUDA or OpenCL programs. Furthermore, a couple of optimization constructs have also been offered for rapid program optimization. Experimental results have shown that the generated CUDA and OpenCL programs can achieve reasonable speedups on GPUs. Consequently, GPUBlocks can be used as a tool for fast prototyping of GPU applications or a platform for educational parallel programming.

  相似文献   

12.
为对CUDA并行程序内核性能进行分析和预测,从而指导并行程序设计及性能优化,提出一种性能预测框架.1)从GPU编程模型和设备架构细节入手,以线程束为研究单位,通过整合与GPU程序用时密切相关的软硬件基本特征,定义了并行空间闲置度、流处理器线程束负载、并行效应因子等高层次性能相关特征.2)基于上述特征,框架针对线程负载均衡型GPU程序,评估内核函数在不同问题规模以及执行配置下的执行时间.3)依据性能评估原理提出了内核函数执行配置参数的优化策略.验证实验结果表明,该框架在两种典型情境下对现有程序性能的平均预测准确率分别达到89%和94%,客观归纳了高层次特征与程序性能间的相关关系,且能定性分析并行算法性能水平.  相似文献   

13.
文章主要讨论了如何通过优化的手段编制合理的贴装程序来缩短贴片机的贴装时间,提高贴片机的贴装效率。贴片机的种类繁多,专业用途各不相同,文章按照贴片机的机械特征和贴装方式对贴片机进行了分类,然后按照分类找出对应的主流优化算法,分析各自的优缺点和用途,通过VayoPro—SMT离线编程软件进行试验,论述试验过程和分析试验结果,提出SMT生产工艺过程中如何编程以及工艺改善的方法,并提出贴装效率优化的思路。  相似文献   

14.
为了满足空间太阳望远镜的技术要求,进行了铍摆镜研制,掌握了高精度铍镜研制技术路线。光学检测面形精度RMS为0.012λ,满足技术要求。对铍摆镜结构进行优化设计改进。介绍了铍摆镜结构优化方法,用ANSYS中的APDL语言编译了摆镜结构优化程序,进行了铍摆镜结构优化。并利用Matlab软件编写了改进遗传算法组合优化程序,再次完成了铍镜结构优化,并进行了横向对比分析。结果表明:两结果都满足技术要求。以扇形孔铍摆镜为例,改进的遗传算法组合方法的优化结果(RMS,1.470E-6mm)比ANSYS零阶优化方法的优化结果(RMS,2.099E-6mm)降低了29.96%,优于铍镜检测结果,说明改进后的摆镜结构方案可行。铍镜的成功研制,为我国空间天文仪器大口径铍镜研究和应用奠定了基础。组合优化方法结合了改进遗传算法和ANSYS软件的优势,具有适应性高、优化能力强等特点,具有较好的鲁棒性,对类似工程结构或天文仪器结构优化具有一定的借鉴意义。  相似文献   

15.
雷婷  史承兴 《电子科技》2010,23(10):107-109
通过程序结构的调整,编码结构的优化及代码的汇编级优化,完成编码器的DSP高效实现。实验结果表明,优化后的编码器降低了运算复杂度,提高了CCSDS图像压缩算法的实时性。  相似文献   

16.
以某加固机箱的可拆卸托架为例,运用三维建模软件进行了建模,通过Ansys自带三维模型接口程序将模型导入Design Modeler进行简化、修改。优化设计分为3个步骤:首先在Ansys workbench下进行了静力学分析,校核了该托架的强度;然后再用Design Xplorer模块进行优化改进;最后再将优化后的模型强度与优化前的强度进行对比,确定此方案的可行性。  相似文献   

17.
设计了采用新型曲线阴极结构的W波段双阳极磁控注入电子枪,手动优化得到的电子注参数在速度比1.1时,纵向速度零散为1.84%.为了克服手动优化方法的繁琐和低效,引入了数值计算方法的优化策略,编制了基于MATLAB语言的遗传算法和模拟退火算法的优化程序,并结合二维电子光学软件EGUN对该W波段曲线阴极结构电子枪进行优化,优化得到的电子枪在保证电子注速度比1.1的情况下,纵向速度零散分别达到了0.81%和1.05%.与手动优化方法相比,数值优化方法不需要设计者干预优化过程,具有自动高效的特点,且优化结果更好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号