共查询到18条相似文献,搜索用时 78 毫秒
1.
环路滤波器是H.264视频编码标准的一个重要选项,在去除混合编码带来的块效应的过程中起着重要的作用,但是其计算复杂度较高,不利实时实现。首先详细分析了去块滤波器高复杂度的原因,进而提出一种简单、高效的去块滤波新方法。大量的实验证明:该方法保持了与原方法相近的滤波效果的同时,缩短编码时间2.24%至5.51%,大大较少了计算复杂度,易于硬件实时实现。 相似文献
2.
基于BS预判的H.264去块滤波优化算法 总被引:3,自引:0,他引:3
首先介绍了H.264去块滤波的滤波强度计算原理,并基于滤波强度的计算量为去块滤波过程中最大的部分,提出了一种滤波强度提前预判的优化算法。通过仿真实验证明该算法在对解码图像质量没有任何影响的情况下较标准算法降低了75%左右的滤波运算时间,有效地缓解了H.264解码运算复杂度,提高整体解码时间,以有助于实时应用的实现。 相似文献
3.
去块效应滤波在H.264视频编解码中起到了很重要的作用,对H.264中去块效应滤波的理论进行了再分析,提出了一种以4×4块为单位,对帧内预测帧和帧间预测帧分别计算边缘强度(Bs)的快速去块效应滤波算法。实验仿真结果表明,该算法同时适应于编码和解码中的去块效应滤波,在有效提高去块效应滤波效率的同时不影响已有编解码的码流和图像质量。 相似文献
4.
在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升. 相似文献
5.
6.
7.
8.
在H.264/AVC视频编码标准中,去方块效应滤波器对改善图像质量和提高压缩效率起着重要作用,并能够有效地去除视频图中出现的方块效应,但却增加了计算的复杂度。在滤波过程中,边界强度(Bs)的计算量是最大的,几乎达到整个滤波过程的90%,为了简化Bs的计算复杂度,在分析了H.264的去块滤波原理之后,提出了一种基于片类型和帧间预测的H.264去块滤波优化算法。通过实验表明,该算法能够确保编/解码视频图像的质量,与JM8.6测试代码中标准算法相比,降低了近20%的滤波时间以及近10%的编码时间,这不仅有效地缓解了H.264的编/解码运算复杂度,而且更有助于视频序列实时传输的实现。 相似文献
9.
设计了一种适用于 H.264/AVC 标准的去块效应滤波器,提出了将对外部存储器的存取操作与滤波计算并行执行的电路结构,利用相邻4×4像素块的数据相关性组织滤波顺序,使片内 SRAM读取次数减半,通过增加片内 SRAM,完成下一待滤波宏块左相邻块像素数据的复用,从而大大减少了滤波处理的周期数。 相似文献
10.
介绍了H.264的FPGA解码芯片系统中去块效应滤波系统模块的设计结构,分析了该系统设计原理。介绍了详细的FPGA去块效应模块实现方案,使得整个系统能够满足解码器实时显示的要求。 相似文献
11.
赵海国 《数字社区&智能家居》2011,(20)
H.264视频编码压缩比率高,但计算复杂度高,编码效率低。该文通过分析H.264编码器中各模块的编码性能,提出了基于CUDA编程模型的H.264视频编码并行框架实现方法,对H.264视频编码的各个关键模块进行CUDA实现,有效的提高了编码的速度。 相似文献
12.
针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。 相似文献
13.
计算机层析成像技术,在医学和工业等诸多领域中有着广泛应用。在三维锥束CT图像重建算法中,基于圆形轨道和二维平板探测器的FDK算法最为著名。传统CPU上实现的FDK算法,计算复杂性主要集中在所谓的反投影阶段,占据了整个重建时间的99%。给出了基于CUDA统一计算架构的FDK算法的GPU实现,对于整个重建过程获得了超过百倍的加速。 相似文献
14.
15.
16.
17.
拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。 相似文献