共查询到20条相似文献,搜索用时 46 毫秒
1.
为提高威焱831平台的多媒体处理能力,解决H.264解码器解码效率低的问题,在提出SIMD指令级优化方法的同时,提出一种面向帧拷贝的优化方法。通过分析开源软件FFmpeg中H.264解码器的并行化特性,使用威焱平台性能分析工具解析影响视频解码性能的热点函数。采用手工嵌入SIMD汇编指令的方式对关键模块热点函数进行优化,通过FFmpeg源码编译过程链接汇编实现的内存操作函数memcpy提升内存拷贝速度。实验结果表明,威焱831平台视频解码的平均性能提高26%,推动了威焱831处理器在多媒体应用领域的发展。 相似文献
2.
利用超长指令字(VLIW)处理器处理单指令多数据(SIMD)的优势,采用加速SIMD指令计算的数据拼接方案和多方向并行搜索方法以及适合图像数据复用的插值图像存储结构,优化实现了一个高效的ME软硬件结合的架构,分别在TMS320C64××及自行设计的LILY Processor上实现了H.264的QCIF图像数据的搜索及H.263的CIF图像数据的搜索.测试实验表明ME的搜索速度提高了3倍到15倍. 相似文献
3.
H.265继续沿用H.264编码架构,去方块滤波器也是H.265视频编码标准的一个重要选项,去除混合编码带来的块效应极大改善了视频的质量,但由于H.265超级宏块的存在,去方块效应滤波相关参数层层嵌入在每个小的处理单元中,这种结构不利于实现基于宏块行间的并行化,同时也很难高效地利用Cortex-A9架构SIMD优化性能.首先详细分析H.265标准去块滤波器的处理过程以及并行处理的困难,进而提出一种便于实现基于宏块行间的并行去块滤波结构,然后进行Cortex-A9汇编优化.基于HM14.0实验,改进去方块效应滤波器计算复杂度从占整个解码器25%降至14%,大大提升了解码器性能,为移动设备上实现H.265大分辨率视频实时播放奠定基础. 相似文献
4.
(肖强宋立锋邓颖岸) 《广东通信技术》2014,(2):52-53
与之前的视频编码标准相比,H.264/AVC视频编码在编码性能上取得了很大的突破,但由于计算复杂、数据量大,嵌入式单核平台难以完成实时视频编码工作,于是嵌入式多核平台上并行编码成为必然。本文通过对TILEPro64多核结构和X264编码器计算复杂度的分析,提出基于TILEPro64多核处理器并行编码的方法来实现对X264编码器的优化。实验结果表明,运用本文提到的算法,编码的帧率得到了极大的提升,而且视频的质量变换不明显。 相似文献
5.
传统的基于多核处理器的并行排序算法受限于SIMD寄存器个数,并在子序列长度较长时合并算法效率较低。针对该问题,本文提出一种改进的并行排序算法,将基数划分和SIMD指令结合起来,能避免使用宽度较大的合并网络,并且缓解受限于SIMD寄存器的情况,充分利用处理器各级并行资源。实验结果表明,该算法能够提升并行排序效率。 相似文献
6.
7.
提出了一种DSP和通用CPU一体化的处理器架构,并完成了一款基于该架构的同构4核处理器设计和流片验证.该处理器基于VLIW结构,支持自主定义的DSP指令系统,兼容现有通用的MIPS 4KC处理器指令集,支持最大8个指令通道的并行发射.处理器在不改变CPU的指令编码以及执行顺序的前提下,实现了芯片结构上的DSP和CPU执行处理的一体化,适合在统一的平台上同时完成宽带通信和多媒体的信号和协议处理的嵌入式应用开发.处理器内核通过自主定义的DSP指令字中前后并行标识位和一条专用的前导paralink指令实现了DSP与CPU指令的并行发射.在4核处理器的同构架构上,采用了全局读局部写的多核间片上数据存储策略,在控制硬件开销的基础上实现片上数据的共享.仿真和流片验证结果表明,所提出的DSP和CPU一体化处理器架构可行,在宽带通信和多媒体等嵌入式应用上具有优势. 相似文献
8.
H.264/AVC视频编码标准与过去的视频编码标准相比,在编码效率上有了很大的提高。然而,较高的计算量使H.264/AVC视频编码很难在嵌入式平台上完成高清视频的实时编码,因此提出基于多核的H.264/AVC并行编码器成为必然。文章主要研究的是基于TILEPR O64多核处理器的slice级与宏块级多粒度并行编码。结果表明,在TILEPR O64多核处理器上,H.264/AVC多粒度并行编码可以取得更好的加速效果,且编码后的视频质量变化不明显。 相似文献
9.
H.264编码技术作为最新视频编码标准其性能非常出色.但是由于它的计算量比较大,在资源有限的嵌入式环境中无法显示出其良好的性能.Intel XScale PXA272是支持WirelessMMX技术的最新的嵌入式处理器.分析了H.264编码技术,通过使用WMMX指令和流水线技术对其瓶颈函数进行了优化,有效地提高了编码速率,达到了嵌入式系统实际应用的需求. 相似文献
10.
Tero Rintaluoma 《电子元器件资讯》2010,(2)
本文将展示如何通过ARM NEON技术提高和优化基于软件的H.264视频解码器的性能.对RealView中的ARMProfiler以及真实硬件进行了数种测量,并给出了H.264和MPEG-4解码器及MPEG-4编码器的对应数据.与编译至Cortex-A8处理器架构的原始ARM优化C代码相比,Profiler上H.264解码器的总体性能提高了54%. 相似文献
11.
基于多核处理器的并行计算能力,设计并实现实时超高清分辨率(3 840×2 160)的H.264/AVC视频编码系统。该系统在原始像素输入端实现高效的内存管理,超高清编码器采用帧级、条带级、指令级的并行方案,码流输出端则采用FIFO缓冲器对RTP包的传输速度进行控制。实验结果表明,编码系统能实时对超高清视频源进行并行编码,通过RTP封装格式传输至IP网络,用户可使用视频播放器接收并回放。 相似文献
12.
13.
如何在复杂度和时延受限的条件下,减少时域、空域和统计冗余,获得率失真性能的最优化是视频编码设计的核心问题。作为最新的视频编码标准,H.264在取得更高压缩率的同时,编码复杂度也随之剧增,限制了其在实时环境中的应用。本文在传统视频编码框架基础上,结合人类视觉系统感知特征,提出一种基于编码信息的视频感兴趣区域快速提取算法和优化编码方案。仿真实验结果表明,本文提出的编码策略在重建视频质量基本无损失和维持原有码率的提前下,将H.264编码时间平均节省52.55%,并能够与其它快速编码技术相结合,进一步提高H.264编码速度,以更好的适应异构网络及多样性终端环境,满足日益丰富的多媒体与通信业务需求。 相似文献
14.
移动多媒体的迅猛发展及视频压缩标准复杂度的不断提升对硬件平台提出了更高的要求。TMS320DM320是TI公司推出的多媒体处理器。内部为ARM+DSP+视频加速引擎IMX的新型处理器架构广泛支持主流音视频压缩标准。视频加速引擎IMX是高性能的运算加速单元,支持多种复杂解码操作。介绍了TMS320DM320,并对H,264解码器进行性能分析,提出了运算复杂模块针对IMX的优化方案,并以耗时的逆变换、逆量化与亮度分量运动补偿为例,测试并评估IMX实现H.264复杂算法的性能。经测试,使用IMX视频解码运算可以获得9倍以上的速度提升。 相似文献
15.
CABAC是H.264/AVC视频压缩标准主要档次中采用的熵编码机制,结合RDO模式选择技术,可以降低20%的编码码率,但是编码器计算复杂度却同时大大增加.对算法进行并行化是有效加快编码速度的方法,但是,由于CABAC具有自适应编码的特点和RDO模式选择对熵编码的使用,使得顺序编码的宏块之间存在着严格的数据相关性,限制了并行编码算法的开发.本文结合基于宏块区域划分的数据级并行编码机制MBRP和码率估计技术,为采用CABAC熵编码机制的H.264编码算法提供了一种高效的并行编码方案:将H.264编码算法划分为模式选择和码流生成两个部分,使之构成典型的生产者-消费者关系;将RDO模式选择中的CABAC替换为码率估计,去除模式选择过程中因CABAC导致的严格数据相关性;对模式选择部分采用MBRP并行机制;码流生成部分由单独的处理器完成,并和模式选择部分实现流水化并行处理.通过4处理器系统模拟器进行实验,发现在保持视频压缩性能几乎不变的情况下,该并行算法的加速比可以达到4.7. 相似文献
16.
17.
提出了一种在TI公司高性能数字信号处理器TMS320DM3730上进行H.264编码器(即x264编码器)移植与优化的方法,详细描述了在CCS4.2开发平台上进行x264编码器移植工作的基本原理和需要注意的问题。为了提高编码速度,针对DM3730处理器的结构特点,对x264编码器进行了优化,主要方法包括编译器优化、内存优化、C语言代码优化及汇编代码优化。对x264编码器进行的CIF格式编码测试结果表明,在均值信噪比略微降低的前提下,编码速度得到了显著提高,因此获得了更优的编码效率。 相似文献
18.
贺婷 《智能计算机与应用》2016,(6):68-71
SIMD扩展部件是一种在多媒体程序和科学计算程序中提供指令并行的加速部件.本文首先介绍SIMD扩展部件的背景及行业现状,然后从挖掘方法、指针别名这2个角度介绍了SIMD现阶段发展情况,在此基础上并对SIMD编译优化方向进行了展望. 相似文献
19.
20.
随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIMD并行访存地址转换,实现了FFT运算的无冲突SIMD并行访存;提出了几种带特殊混洗模式的向量访存指令,可完全消除SIMD结构下基2 FFT运算时需要的额外混洗指令操作.最后将其应用于某16路SIMD数字信号处理器YHFT-Matrix2中向量存储器VM的优化设计.测试结果表明,采用该SIMD并行存储结构优化的VM以增加18%的硬件开销实现了FFT运算全流水无冲突并行访存和100%并行访存带宽利用率;相比优化前的设计,不同点数FFT运算可获得1.32~2.66的加速比. 相似文献