期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王聪张昊刘世巍黄朴《现代电子技术》2024,(10):86-90

为提高威焱831平台的多媒体处理能力,解决H.264解码器解码效率低的问题,在提出SIMD指令级优化方法的同时,提出一种面向帧拷贝的优化方法。通过分析开源软件FFmpeg中H.264解码器的并行化特性,使用威焱平台性能分析工具解析影响视频解码性能的热点函数。采用手工嵌入SIMD汇编指令的方式对关键模块热点函数进行优化,通过FFmpeg源码编译过程链接汇编实现的内存操作函数memcpy提升内存拷贝速度。实验结果表明,威焱831平台视频解码的平均性能提高26%,推动了威焱831处理器在多媒体应用领域的发展。相似文献

2.

在VLIW处理器上实现视频图像的运动估计算法的方法

谷俊丽何虎孙义和《微电子学与计算机》2010,27(6)

利用超长指令字(VLIW)处理器处理单指令多数据(SIMD)的优势,采用加速SIMD指令计算的数据拼接方案和多方向并行搜索方法以及适合图像数据复用的插值图像存储结构,优化实现了一个高效的ME软硬件结合的架构,分别在TMS320C64××及自行设计的LILY Processor上实现了H.264的QCIF图像数据的搜索及H.263的CIF图像数据的搜索.测试实验表明ME的搜索速度提高了3倍到15倍. 相似文献

3.

H.265解码器去块滤波并行化设计与性能优化

周建政刘华平《电视技术》2015,39(14):13-16

H.265继续沿用H.264编码架构,去方块滤波器也是H.265视频编码标准的一个重要选项,去除混合编码带来的块效应极大改善了视频的质量,但由于H.265超级宏块的存在,去方块效应滤波相关参数层层嵌入在每个小的处理单元中,这种结构不利于实现基于宏块行间的并行化,同时也很难高效地利用Cortex-A9架构SIMD优化性能.首先详细分析H.265标准去块滤波器的处理过程以及并行处理的困难,进而提出一种便于实现基于宏块行间的并行去块滤波结构,然后进行Cortex-A9汇编优化.基于HM14.0实验,改进去方块效应滤波器计算复杂度从占整个解码器25％降至14％,大大提升了解码器性能,为移动设备上实现H.265大分辨率视频实时播放奠定基础. 相似文献

4.

基于TILEPro64的多核并行视频编码研究

(肖强宋立锋邓颖岸) 《广东通信技术》2014,(2):52-53

与之前的视频编码标准相比,H.264/AVC视频编码在编码性能上取得了很大的突破,但由于计算复杂、数据量大,嵌入式单核平台难以完成实时视频编码工作,于是嵌入式多核平台上并行编码成为必然。本文通过对TILEPro64多核结构和X264编码器计算复杂度的分析,提出基于TILEPro64多核处理器并行编码的方法来实现对X264编码器的优化。实验结果表明,运用本文提到的算法,编码的帧率得到了极大的提升,而且视频的质量变换不明显。相似文献

5.

多核处理器中一种改进的并行排序算法

魏莹《通讯世界》2016,(16):235-236

传统的基于多核处理器的并行排序算法受限于SIMD寄存器个数,并在子序列长度较长时合并算法效率较低。针对该问题,本文提出一种改进的并行排序算法,将基数划分和SIMD指令结合起来,能避免使用宽度较大的合并网络,并且缓解受限于SIMD寄存器的情况,充分利用处理器各级并行资源。实验结果表明,该算法能够提升并行排序效率。相似文献

6.

DSP上视频编码器的计算效率优化技术研究

王中元胡瑞敏朱荣常军《信号处理》2009,25(1)

文章以Philips的PNX1500平台优化移植H.264为例,阐述了DSP平台上优化移植视频编码算法的通用设计原则和若干有效设计方法.通过结合目标处理器特定体系结构的算法优化,并行指令优化和存贮结构优化来提高视频编码器的运算效率.实验结果表明,笔者优化得到的H.264视频编码器可以按照不低于18FPS的速度近似实时地编码D1格式的视频.该技术目前已应用于实际视频通信产品中. 相似文献

7.

一种DSP和通用CPU一体化的处理器架构及其4核实现

王志君梁利平洪钦智罗汉青王昳赵淳《微电子学与计算机》2014,(10)

提出了一种DSP和通用CPU一体化的处理器架构,并完成了一款基于该架构的同构4核处理器设计和流片验证.该处理器基于VLIW结构,支持自主定义的DSP指令系统,兼容现有通用的MIPS 4KC处理器指令集,支持最大8个指令通道的并行发射.处理器在不改变CPU的指令编码以及执行顺序的前提下,实现了芯片结构上的DSP和CPU执行处理的一体化,适合在统一的平台上同时完成宽带通信和多媒体的信号和协议处理的嵌入式应用开发.处理器内核通过自主定义的DSP指令字中前后并行标识位和一条专用的前导paralink指令实现了DSP与CPU指令的并行发射.在4核处理器的同构架构上,采用了全局读局部写的多核间片上数据存储策略,在控制硬件开销的基础上实现片上数据的共享.仿真和流片验证结果表明,所提出的DSP和CPU一体化处理器架构可行,在宽带通信和多媒体等嵌入式应用上具有优势. 相似文献

8.

基于TILEPRO64的H.264/AVC多粒度并行编码研究

肖强《信息通信》2013,(6):7-8

H.264/AVC视频编码标准与过去的视频编码标准相比,在编码效率上有了很大的提高。然而,较高的计算量使H.264/AVC视频编码很难在嵌入式平台上完成高清视频的实时编码,因此提出基于多核的H.264/AVC并行编码器成为必然。文章主要研究的是基于TILEPR O64多核处理器的slice级与宏块级多粒度并行编码。结果表明,在TILEPR O64多核处理器上,H.264/AVC多粒度并行编码可以取得更好的加速效果,且编码后的视频质量变化不明显。相似文献

9.

基于Wireless MMX技术的H.264编码器优化的研究

汪赫瑜任建华《信息技术》2008,32(5):105-107

H.264编码技术作为最新视频编码标准其性能非常出色.但是由于它的计算量比较大,在资源有限的嵌入式环境中无法显示出其良好的性能.Intel XScale PXA272是支持WirelessMMX技术的最新的嵌入式处理器.分析了H.264编码技术,通过使用WMMX指令和流水线技术对其瓶颈函数进行了优化,有效地提高了编码速率,达到了嵌入式系统实际应用的需求. 相似文献

10.

利用ARM NEON OpenMax DL技术优化面向Cortex-A8的H.264解码器

Tero Rintaluoma 《电子元器件资讯》2010,(2)

本文将展示如何通过ARM NEON技术提高和优化基于软件的H.264视频解码器的性能.对RealView中的ARMProfiler以及真实硬件进行了数种测量,并给出了H.264和MPEG-4解码器及MPEG-4编码器的对应数据.与编译至Cortex-A8处理器架构的原始ARM优化C代码相比,Profiler上H.264解码器的总体性能提高了54%. 相似文献

11.

超高清实时H.264/AVC编码系统设计

邓刚《电视技术》2014,38(15)

基于多核处理器的并行计算能力,设计并实现实时超高清分辨率(3 840×2 160)的H.264/AVC视频编码系统。该系统在原始像素输入端实现高效的内存管理,超高清编码器采用帧级、条带级、指令级的并行方案,码流输出端则采用FIFO缓冲器对RTP包的传输速度进行控制。实验结果表明,编码系统能实时对超高清视频源进行并行编码,通过RTP封装格式传输至IP网络,用户可使用视频播放器接收并回放。相似文献

12.

基于ADI H．264编码库的视频压缩系统设计与实现 总被引：1，自引：0，他引：1

刘玲魏立峰王庆辉《现代电子技术》2010,33(4):83-85

基于H．264视频编码标准和ADSP—BF561双核的结构特点．结合ADI公司提供的H．264编码库,完成整个编码系统的设计。设计中图像采集采用OV7660,并利用了ADI公司高效、完备的系统级编码库支持,充分考虑了双核DSP的BF561在图像处理中的优异性能进行并行编码。测试结果表明,在BF561上实现H．264视频编码,实现视频流的高质量压缩是完全可行的。相似文献

13.

视频感兴趣区域快速提取与编码算法

刘鹏宇贾克斌《电路与系统学报》2013,18(2):413-419

如何在复杂度和时延受限的条件下,减少时域、空域和统计冗余,获得率失真性能的最优化是视频编码设计的核心问题。作为最新的视频编码标准,H.264在取得更高压缩率的同时,编码复杂度也随之剧增,限制了其在实时环境中的应用。本文在传统视频编码框架基础上,结合人类视觉系统感知特征,提出一种基于编码信息的视频感兴趣区域快速提取算法和优化编码方案。仿真实验结果表明,本文提出的编码策略在重建视频质量基本无损失和维持原有码率的提前下,将H.264编码时间平均节省52.55%,并能够与其它快速编码技术相结合,进一步提高H.264编码速度,以更好的适应异构网络及多样性终端环境,满足日益丰富的多媒体与通信业务需求。相似文献

14.

TMS320DM320视频加速引擎IMX的性能分析

孙耀刘佩林周晖《信息技术》2007,31(7):49-51,146

移动多媒体的迅猛发展及视频压缩标准复杂度的不断提升对硬件平台提出了更高的要求。TMS320DM320是TI公司推出的多媒体处理器。内部为ARM＋DSP＋视频加速引擎IMX的新型处理器架构广泛支持主流音视频压缩标准。视频加速引擎IMX是高性能的运算加速单元，支持多种复杂解码操作。介绍了TMS320DM320，并对H，264解码器进行性能分析，提出了运算复杂模块针对IMX的优化方案，并以耗时的逆变换、逆量化与亮度分量运动补偿为例，测试并评估IMX实现H.264复杂算法的性能。经测试，使用IMX视频解码运算可以获得9倍以上的速度提升。相似文献

15.

高效的H.264并行编码算法 总被引：3，自引：1，他引：3

下载免费PDF全文

孙书为陈书明《电子学报》2009,37(2):357-361

CABAC是H.264/AVC视频压缩标准主要档次中采用的熵编码机制,结合RDO模式选择技术,可以降低20％的编码码率,但是编码器计算复杂度却同时大大增加.对算法进行并行化是有效加快编码速度的方法,但是,由于CABAC具有自适应编码的特点和RDO模式选择对熵编码的使用,使得顺序编码的宏块之间存在着严格的数据相关性,限制了并行编码算法的开发.本文结合基于宏块区域划分的数据级并行编码机制MBRP和码率估计技术,为采用CABAC熵编码机制的H.264编码算法提供了一种高效的并行编码方案:将H.264编码算法划分为模式选择和码流生成两个部分,使之构成典型的生产者-消费者关系;将RDO模式选择中的CABAC替换为码率估计,去除模式选择过程中因CABAC导致的严格数据相关性;对模式选择部分采用MBRP并行机制;码流生成部分由单独的处理器完成,并和模式选择部分实现流水化并行处理.通过4处理器系统模拟器进行实验,发现在保持视频压缩性能几乎不变的情况下,该并行算法的加速比可以达到4.7. 相似文献

16.

浙大数芯媒体处理器

王维东刘鹏史册姚庆栋《中国多媒体通信》2004,(7):96-99

浙大数芯是一种全新的RISC／DSP混合体系结构处理器，在一个单核流水级架构上实现RISC通用指令、DSP数据处理指令和SIMD多媒体增强指令，是多媒体数字处理和计算机体系结构研究的一次集成电路创新实践，其相应的集成开发平台进一步为嵌入式应用系统的开发提供良好的软硬件环境。相似文献

17.

基于TMS320DM3730的H．264编码器移植与优化方法研究

向海波李波闫中江《电子设计工程》2012,20(23):180-183

提出了一种在TI公司高性能数字信号处理器TMS320DM3730上进行H．264编码器（即x264编码器）移植与优化的方法,详细描述了在CCS4．2开发平台上进行x264编码器移植工作的基本原理和需要注意的问题。为了提高编码速度,针对DM3730处理器的结构特点,对x264编码器进行了优化,主要方法包括编译器优化、内存优化、C语言代码优化及汇编代码优化。对x264编码器进行的CIF格式编码测试结果表明,在均值信噪比略微降低的前提下,编码速度得到了显著提高,因此获得了更优的编码效率。相似文献

18.

基于数据级自动向量化的编译优化研究综述

贺婷《智能计算机与应用》2016,(6):68-71

SIMD扩展部件是一种在多媒体程序和科学计算程序中提供指令并行的加速部件.本文首先介绍SIMD扩展部件的背景及行业现状,然后从挖掘方法、指针别名这2个角度介绍了SIMD现阶段发展情况,在此基础上并对SIMD编译优化方向进行了展望. 相似文献

19.

魂芯DSP的编译器设计与优化

下载免费PDF全文

王向前洪一王昊郑启龙《电子学报》2015,43(8):1656-1661

魂芯DSP是一款字寻址的、分簇结构的、支持SIMD的VLIW处理器.介绍了基于开源编译器基础设施open64开发魂芯编译器的关键技术,包括地址寄存器的优化处理、综合多种启发因子的指令分簇、分簇架构下的寄存器分配和指令调度.介绍了魂芯DSP编译器的体系结构优化关键技术,包括基于依赖分析的向量化、高效指令的使用和零开销循环的识别.并总结开发经验,给出了基于开源编译基础设施开发编译器的若干注意点. 相似文献

20.

一种高效的面向基2 FFT算法的SIMD并行存储结构

下载免费PDF全文

陈海燕杨超刘胜刘仲《电子学报》2016,44(2):241-246

随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIMD并行访存地址转换,实现了FFT运算的无冲突SIMD并行访存;提出了几种带特殊混洗模式的向量访存指令,可完全消除SIMD结构下基2 FFT运算时需要的额外混洗指令操作.最后将其应用于某16路SIMD数字信号处理器YHFT-Matrix2中向量存储器VM的优化设计.测试结果表明,采用该SIMD并行存储结构优化的VM以增加18%的硬件开销实现了FFT运算全流水无冲突并行访存和100%并行访存带宽利用率;相比优化前的设计,不同点数FFT运算可获得1.32~2.66的加速比. 相似文献