首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对高效视频编码(HEVC)实时编码高清视频和超高清视频而带来视频编码速度慢、计算复杂度高的问题,提出了基于异构多核CPU+GPU处理平台上的并行实时编码算法以及在GPU中基于率失真优化快速搜索算法,以提高视频编码的速度和降低计算复杂度。经实验验证,所提算法简单且有效,在不牺牲率失真性能的前提下,使编码速度得到明显提升,并进一步接近了实时编码的要求。  相似文献   

2.
从宽带相关的角度推导了基于小波变换的匹配滤波算法及基于快速傅里叶变换(FFT)算法,并分析了算法复杂度,提出了基于图形处理器(GPU)的可配置宽带匹配滤波的软件实现和理论预测与函数实测结合的优化方法.通过优化线程块的维度、绑定纹理寄存器来改进内核函数性能,再使用计算统一设备架构(CUDA)库来降低FFT与极值搜索的时延,并进行了性能优化设计.在性能测试中,文中方法在GPU平台的实现相比8核CPU平台的实现具有3.3倍加速比,其处理时延能够满足宽带匹配滤波的实时性需求.  相似文献   

3.
针对以CPU为处理平台的H.265/HEVC串并行编码效率较低的问题,设计了一种基于异构多核CPU+GPU处理平台的并行实时编码算法。按照CPU和GPU互不相同的硬件特性分配任务,降低了时间复杂度,同时使CPU和GPU的协作能力获得了提升,计算资源得到了更加合理的利用。视频编码并行化设计提高了编码效率,高清视频的编码速度最高可达26.31帧/s,实现了高清视频的实时编码。  相似文献   

4.
为了提高区块链中节点的验签效率,提出基于GPU的区块链交易验签加速技术.结合CPU-GPU异构平台架构特性对交易验签过程进行分阶段优化,大幅提高SM2验签算法运行效率,同时充分利用GPU内核调用的异步性,有效降低交易验签过程的整体IO开销.考虑到GPU计算能力强而分支预测能力弱的特性,提出改进的同时多点乘算法,不仅提升了GPU验签效率,而且增加了多线程并行规模.所提方法将交易验签操作卸载至GPU处理,释放了节点被占用的CPU资源,在不修改区块链协议的情况下实现了区块链系统整体性能的提升.基于RTX3080平台和国产许可区块链Hyperchain平台进行实验,结果表明,该方法峰值验签吞吐量为4.52×106次/s,集成该方法的Hyperchain平台交易吞吐量提高了15.81%,且延迟下降了6.56%.  相似文献   

5.
为实现对光谱数据的快速实时处理,针对快照式傅里叶成像光谱仪,提出一种基于GPU的并行化光谱重构算法.通过分析快照式成像光谱仪的工作原理和数据特性,结合CUDA并行计算架构,对光谱重构算法可并行部分最大程度并行化,并针对并行计算中的内存分配等方面进行优化处理,实现并行化的光谱重构算法.实验结果表明:基于GPU的并行化光谱重构算法,相对CPU串行化算法,精度相同的情况下,计算效率提升了约25倍.利用GPU加速程序的并行部分,可以极大地提高光谱重构的效率,使得快照式成像光谱仪更加适用于实时测量当中.  相似文献   

6.
为了提高GRAPES数值天气预报模式的计算效率,改善动力框架部分的性能,针对广义共轭余差算法(GCR)求解赫姆霍兹方程在GRAPES模式中耗时较大的问题,提出了一种基于CPU+GPU异构并行的预处理广义共轭余差算法。采用不完全LU分解对系数矩阵进行预处理来减少迭代次数,在此基础上实现了OpenMP的细粒度并行和MPI粗粒度并行,OpenMP并行主要是采用循环展开的方式对程序中无数据依赖的循环体使用编译制导来提高程序的性能;MPI并行主要是将数据划分给各个进程,采用非阻塞通信和优化进程通信数据量的方式来提高并行程序的可拓展性。实现了MPI+CUDA异构并行,MPI负责节点间进程通信以及迭代控制,CUDA负责处理计算密集型任务,将GCR中耗时较大的矩阵计算部分移植到GPU上处理,采用访存优化和数据传输优化来减少CPU和GPU间的数据传输开销。实验结果表明:与串行程序相比,OpenMP并行加速比为2.24,MPI并行加速比为3.32,MPI+CUDA异构并行加速比为4.69,实现了异构平台上的广义共轭余差算法性能优化,提高了程序的计算效率。  相似文献   

7.
由于图像集规模巨大、匹配信息丰富,快速精准多视图立体匹配受计算效率严重制约。针对该问题,提出一种基于GPU的快速半全局优化深度图计算方法。首先,在CPU上通过平面扫描方法计算单张图像初始匹配代价。然后,提出GPU半全局优化并行计算架构,对匹配代价进行聚合,其核心算法为:在全局进行各方向聚合任务流并行以提升众核处理器的利用率;在局部通过将各像素计算任务准确分配到各线程块内实现并行处理,且注重GPU上数据重用以避免带宽限制。再通过GPU滤波剔除突变点进行图像增强。最后,将3维空间点在各深度图像上的一致性作为异常值检测和优化的约束条件。在多组数据集上测试结果显示,该方法计算速度最高为多核CPU系统中开启2线程实现方法的22.41倍,为开启8线程实现方法的9.13倍,且与两者精度相当;与同类深度图计算方法比较结果表明, 该方法在重建过程中加速效果均为其他算法的5倍及以上;通过使用开源点云比较软件在标准测试数据集上与其他算法比较,验证了该方法能有效提高重建结果的精度和完整度。  相似文献   

8.
针对片上网络良率评估速度较慢、效率较低的问题,研究片上网络良率评估的GPU加速,提高评估算法的执行效率.将良率评估中的样本分析算法移植到GPU平台;在分析、比较了不同平台,随机样本生成算法优劣的基础上,发现GPU平台不适合生成样本;进一步优化CPU平台上的样本生成算法,使之能与GPU一起,实现异构并行;提出CPU生成样本、GPU执行样本分析的异构并行方案.与仅使用CPU的评估算法相比,采用提出的异构并行算法实现了10倍的运行效率提升.  相似文献   

9.
为了有效使用异构多核架构强大的并行计算能力,根据硬件架构的特点重新组织数据并合理调度任务的执行是非常有必要的.提出一个基于不规则性的并行计算方法,是一个融合数据并行、任务并行、管道并行的多重并行计算方法,特别适合具有动态特征执行行为和不规则数据结构的复杂算法,能够在程序运行时根据存储局部性原则和单指令多数据流(SIMD)操作机制对任务执行进行基于优先级的动态调度和数据管理,能够最大限度地有效使用CPU和GPU的硬件计算资源和存储资源.实验结果表明,该方法能够提高图形并行绘制算法关于动态执行过程和不规则数据结构构造和维护的性能.  相似文献   

10.
基于气象雷达的雷暴识别与追踪是临近预报中重要的方法之一. 为解决传统算法实时性差的问题,运用OpenCL构建异构计算模型对算法进行并行化改进. 通过对算法分支结构优化、OpenCL设备内存优化,以及针对VLIW的优化,分步阐述算法优化的过程和原理. 这些方法不仅使得基于光流的计算速度大幅提升,还可为其他基于OpenCL异构计算的优化提供参考. 以AMD两代不同架构的GPU和Intel XEON CPU作为测试平台测试,结果表明,改进后的算法程序在硬件同等功耗的情况下,计算速度提高了10至18倍.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号