期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

罗明宇刘其军付燕平《计算机系统应用》2015,24(4):70-74

针对集群显示系统中存在的CPU多核闲置、GPU利用不足、CPU与GPU结合困难等问题,研究了CPU多核多线程处理、GPU并行处理及CPU+GPU整合运算等技术,提出并构建了CPU+GPU集群并行显示系统,提升了集群并行显示系统的综合运算能力,实验结果表明CPU+GPU集群并行显示技术是有效的,为海量信息高速显示提供了有效的解决方案。相似文献

2.

GPU视频纹理技术在三维电影播放中的应用

成效万旺根余小清徐鸿玮《计算机工程与设计》2010,31(18)

研究了三维电影播放应用中的视频纹理技术,分析了该方法的国内外研究现状、难题和挑战,提出了有效地解决方案,并对该方案进行设计.采用 DirectShow进行视频数据的调度与管理,Direct3D作为图形渲染API,提取出传统渲染管道下的并行运算部分,利用可编程GPU并行运算的特性对其进行加速渲染,并利用GPU纹理压缩方法解决了显存容量有限的问题.实验结果表明,该设计方法能够有效地提高帧速率,缓解CPU负担,解决实时渲染中的性能瓶颈问题,在实际应用中具有较强的使用价值. 相似文献

3.

本期热点

《微型计算机》2009,(15):91-91

标清变高清CUOA加速视频倍线播放软件 NVIDIA的CUDA GPU加速软件又添新军,常见于数码影像产品附赠软件光盘中的ArcSoft公司日前推出了一款视频处理插件SimHD,能够利用GPU运算能力,将低分辨率的DVD视频差值处理为高清视频。相似文献

4.

基于VDPAU的GPU多视频解码

刘其军罗明宇付燕平归强《计算机系统应用》2013,22(12):173-176

针对多视频解码CPU占用率高等问题,本文研究了基于VDPAU的GPU视频并行处理方案,通过集成VDPAU的VdpDevice和VdpDecoder,实现了FFmpeg多视频解码的GPU并行处理,极大地降低了多视频解码显示过程中的CPU占用率．测试结果表明,本文提出的基于VDPAU的多视频解码处理方案可极大地提高系统的多视频解码处理能力．相似文献

5.

基于图形处理器的边缘检测算法 总被引：1，自引：0，他引：1

张楠王建立王鸣浩《计算机科学》2010,37(1):265-267

边缘检测是一种高度并行的算法,计算量较大,传统的CPU处理难以满足实时要求。针对图像边缘检测问题的计算密集性,在分析常用边缘检测算法的基础上,利用CUDA(Compute Unified Device Architecture,计算统一设备架构)软硬件体系架构,提出了图像边缘检测的GPU(Graphics Processing Unit,图形处理器)实现方案。首先介绍GPU高强度并行运算的体系结构基础,并将Roberts和Sobel这两个具有代表性的图像边缘检测算法移植到GPU,然后利用当前同等价格的CPU和GPU进行对比实验,利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率。实验结果表明,与相同算法的CPU实现相比,其GPU实现获得了相同的处理效果,并将计算效率最高提升到了17倍以上,以此证明GPU在数字图像处理的实际应用中大有潜力。相似文献

6.

基于GPU加速的实时4K全景视频拼接

卢嘉铭朱哲《计算机科学》2017,44(8):18-21, 26

虚拟现实是近年来热门的新技术,而全景视频摄制是生产虚拟现实内容的一种重要方式。介绍了一个全景视频拼接系统,其能够对六路的2K视频实时进行拼接,生成4K的输出视频。设计了一个并行化的拼接流程,对整个拼接过程中的不同步骤都进行了并行化处理,并在GPU上进行了实现。实验结果表明,该系统能够实时拼接出高质量的4K全景视频。相似文献

7.

基于GPU的多层次并行QR分解算法研究

穆帅王晨曦邓仰东《计算机仿真》2013,30(9)

QR分解作为一个基本计算模块,广泛应用在图像处理、信号处理、通信工程等众多领域.传统的并行QR分解算法只能挖掘计算过程中的数据级并行.在分析快速Givens Rotation分解特征的基础上,提出了一种多层次并行算法,能够同时挖掘计算过程中的任务级并行和数据级并行,非常适合于以图形处理器(GPU)为代表的大规模并行处理器.同时,采用GPU的并行QR分解算法可以作为基本运算模块被GPU平台上的众多应用程序直接调用.实验结果显示,与CPU平台上使用OpenMP实现的算法相比,基于GPU的多层次并行算法能够获得5倍以上的性能提升,而调用QR分解模块的奇异值分解(SVD)应用可以获得3倍以上的性能提升. 相似文献

8.

GPU实现的高速FIR数字滤波算法

陈孝良邓仰东程晓斌李晓东田静《计算机辅助设计与图形学学报》2010,22(9)

针对目前基于GPU的FIR算法速度低、扩展性差的缺点,提出一种高速的多通道FIR数字滤波的并行算法,并利用平衡并行运算负载的技术以及降低内存访问密度的方法进行加速.该算法采用矩阵乘法的并行运算技术在GPU上建立并行滤波模型,通过每个线程在单个指令周期内执行2个信号运算,实现了多通道信号的高速滤波.实验结果表明,在GTX260+平台上,采用文中算法的平均加速比达到了203,效率超过40%,并且具有更好的扩展性. 相似文献

9.

Mali T604 GPU 的二维浮点矩阵运算并行优化方法

龚若皓杨斌《单片机与嵌入式系统应用》2015,(5)

基于以三星的 Exynos5250处理器为核心的 Arndale Board 嵌入式开发平台,对集成于处理器上的 Mali T604嵌入式 GPU 的 GPGPU(General-Purpose computation on GPU)技术进行研究,并对不同运算规模的浮点矩阵乘法进行并行加速优化,提供实际测试结果。Linux 操作系统上的实验结果显示,基于 Mali GPU 的并行浮点矩阵乘法方案相对原始串行算法而言,效率显著提高,并且运算规模的增大可以显著提高并行性。相似文献

10.

基于GPU的H.264并行解码优化

下载免费PDF全文

汪少锴李伟金燕华《计算机测量与控制》2018,26(7):276-281

H.264视频编码标准因其很好的压缩率而成为目前的主流标准之一;针对H.264解码复杂度提高、计算量增大的现状,根据GPU适合通用并行计算的特性,提出其基于GPU的并行解码优化。使用GPU对帧内预测与滤波器模块解码,CPU负责控制GPU以及对剩余部分解码。通过对帧内预测解码的分析,提出一种优化的帧内预测并行算法,经实验证明相比有优化前算法解码效率被提高20%;通过对滤波器模块的研究,提出一种滤波强度并行求取算法以及并行滤波执行算法,经实验证明滤波器的处理速度提升了30%,且相比原图像△PSNR最大为0.10,△SSIM为0.01。最终通过实验证明,使用GPU对视频解码的关键模块处理,能大大提高处理效率。相似文献

11.

基于GPU的H.264并行解码算法

陈鹏曹剑炜陈庆奎《计算机工程》2014,(1):283-286

针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。相似文献

12.

基于GPU的视频流拼接算法研究

张燕赵新灿谭同德《计算机工程与设计》2012,33(4):1472-1476

为解决视频流的稳定实时拼接,结合图形处理器GPU强大的并行计算能力,提出了一种基于GPU的视频流拼接算法.提取视频流的帧图像,利用尺度不变特征变换(scale invariant feature transform,SIFT)算法在GPU上实现帧图像的特征提取与匹配,实现图像拼接,进而实现视频流的稳定实时拼接.基于GPU的SIFT算法充分利用了GPU的并行处理能力,加快了视频流拼接算法执行的速度,真正意义上实现了几个差异较大但具有公共视野的视频流快速稳定的拼接. 相似文献

13.

Fast Motion Estimation on Graphics Hardware for H.264 Video Encoding 总被引：1，自引：0，他引：1

《Multimedia, IEEE Transactions on》2009,11(1):1-10

The video coding standard H.264 supports video compression with a higher coding efficiency than previous standards. However, this comes at the expense of an increased encoding complexity, in particular for motion estimation which becomes a very time consuming task even for today's central processing units (CPU). On the other hand, modern graphics hardware includes a powerful graphics processing unit (GPU) whose computing power remains idle most of the time. In this paper, we present a GPU based approach to motion estimation for the purpose of H.264 video encoding. A small diamond search is adapted to the programming model of modern GPUs to exploit their available parallel computing power and memory bandwidth. Experimental results demonstrate a significant reduction of computation time and a competitive encoding quality compared to a CPU UMHexagonS implementation while enabling the CPU to process other encoding tasks in parallel. 相似文献

14.

CPU/GPU 异构环境下图像协同并行处理模型

杨洪余李成明王小平姜青山《集成技术》2017,6(5):8-18

随着GPU通用计算能力的不断发展,一些新的更高效的处理技术应用到图像处理领域.目前已有一些图像处理算法移植到GPU中且取得了不错的加速效果,但这些算法没有充分利用CPU/GPU组成的异构系统中各处理单元的计算能力.文章在研究GPU编程模型和并行算法设计的基础上,提出了CPU/GPU异构环境下图像协同并行处理模型.该模型充分考虑异构系统中各处理单元的计算能力,通过图像中值滤波算法,验证了CPU/GPU环境下协同并行处理模型在高分辨率灰度图像处理中的有效性.实验结果表明,该模型在CPU/GPU异构环境下通用性较好,容易扩展到其他图像处理算法. 相似文献

15.

一种适应GPU的混合OLAP查询处理模型

张宇张延松陈红王珊《软件学报》2016,27(5):1246-1265

通用GPU因其强大的并行计算能力成为新兴的高性能计算平台,并逐渐成为近年来学术界在高性能数据库实现技术领域的研究热点.但当前GPU数据库领域的研究沿袭的是ROLAP(relational OLAP)多维分析模型,研究主要集中在关系操作符在GPU平台上的算法实现和性能优化技术,以哈希连接的GPU并行算法研究为中心.GPU拥有数千个并行计算单元,但其逻辑控制单元较少,相对于CPU具有更强的并行计算能力,但逻辑控制和复杂内存管理能力较弱,因此并不适合需要复杂数据结构和复杂内存管理机制的内存数据库查询处理算法直接移植到GPU平台.提出了面向GPU向量计算特性的混合OLAP多维分析模型semi-MOLAP,将MOLAP(multidimensionalOLAP)模型的直接数组访问和计算特性与ROLAP模型的存储效率结合在一起,实现了一个基于完全数组结构的GPU semi-MOLAP多维分析模型,简化了GPU数据管理,降低了GPU semi-MOLAP算法复杂度,提高了GPU semi-MOLAP算法的代码执行率.同时,基于GPU和CPU计算的特点,将semi-MOLAP操作符拆分为CPU和GPU平台的协同计算,提高了CPU和GPU的利用率以及OLAP的查询整体性能. 相似文献

16.

GPU acceleration of the stochastic grid bundling method for early-exercise options

Álvaro Leitao Cornelis W. Oosterlee 《国际计算机数学杂志》2015,92(12):2433-2454

In this work, a parallel graphics processing units (GPU) version of the Monte Carlo stochastic grid bundling method (SGBM) for pricing multi-dimensional early-exercise options is presented. To extend the method's applicability, the problem dimensions and the number of bundles will be increased drastically. This makes SGBM very expensive in terms of computational costs on conventional hardware systems based on central processing units. A parallelization strategy of the method is developed and the general purpose computing on graphics processing units paradigm is used to reduce the execution time. An improved technique for bundling asset paths, which is more efficient on parallel hardware is introduced. Thanks to the performance of the GPU version of SGBM, a general approach for computing the early-exercise policy is proposed. Comparisons between sequential and GPU parallel versions are presented. 相似文献

17.

基于GPU的遥感图像配准并行程序设计与存储优化

周海芳赵进《计算机研究与发展》2012,(Z1):281-286

遥感图像配准是遥感图像应用的一个重要处理步骤.随着遥感图像数据规模与遥感图像配准算法计算复杂度的增大,遥感图像配准面临着处理速度的挑战.最近几年,GPU计算能力得到极大提升,面向通用计算领域得到了快速发展.结合GPU面向通用计算领域的优势与遥感图像配准面临的处理速度问题,研究了GPU加速处理遥感图像配准的算法.选取计算量大计算精度高的基于互信息小波分解配准算法进行GPU并行设计,提出了GPU并行设计模型;同时选取GPU程序常用面向存储级的优化策略应用于遥感图像配准GPU程序,并利用CUDA(compute unified device architecture)编程语言在nVIDIA Tesla M2050GPU上进行了实验.实验结果表明,提出的并行设计模型与面向存储级的优化策略能够很好地适用于遥感图像配准领域,最大加速比达到了19.9倍.研究表明GPU通用计算技术在遥感图像处理领域具有广阔的应用前景. 相似文献

18.

基于GPU的GRAPES数值预报系统中RRTM模块的并行化研究

郑芳许先斌向冬冬王卓薇徐鸣《计算机科学》2012,39(106):370-374

GRAPES(Global and Regional Assimilation and Prediction System)是由中国气象科学研究院自主研究开发的中国新一代数值天气预报系统,由于其处理的数据量非常庞大以及对实时性的要求较高,因此一直是并行计算领域研究的热点。首次运用GPU(图形处理器)通用计算及CUDA技术对CRAPES_Meso。模式中物理过程的RRTM(快速辐射传输模式)长波辐射模块进行并行化处理。在性能分析的基础上,针对GPU体系结构的特点,从代码优化、存储器优化、编译选项等方面对程序性能进行优化,并取得了14X倍的加速比。经过测试表明,长波辐射RRTM模块在GPU上并行计算过程正确、稳定而且有效,并为GRAPES系统未来在GPU平台上的并行化发展奠定了一定的基础。相似文献

19.

基于GPU_CPU异构并行加速的人头检测方法

彭景维童基均《计算机系统应用》2017,26(11):95-100

多尺度协同的人头检测系统中,梯度方向直方图应用于高清视频监控领域时常因特征提取时的海量计算而不能满足监控视频的实时性要求,提出一种基于GPU_CPU异构并行加速的人头检测方法,GPU端负责HOG特征提取的庞大的密集型的区块的并行计算,CPU端负责检测过程中的其它模块的执行.传统的并行归约算法因其在HOG特征提取过程中的时间复杂度不够理想,提出改进的并行归约算法,通过“下扫”的并行计算方式,减少节点被计算的次数,降低了HOG特征提取时的时间复杂度.实验表明,提出的方法检测速率优于传统的CPU的检测方法,其效率提升约10倍. 相似文献