首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
根据AVS标准中的插值算法特点提出了一种用于AVS解码芯片的运动补偿硬件模块设计方案.该设计对AVS标准定义的多种插值模式进行了合理优化和复用,有效节省了硬件资源.同时,提出了一种按照宏块划分类型获取参考数据的方法,减小了数据读取带宽,提高了存储器读取效率.综合仿真结果表明,该设计占用资源少,达到了实时解码的需求.  相似文献   

2.
一种基于SoC的MPEG-4视频解码加速器   总被引:1,自引:0,他引:1  
实现了一种应用于系统芯片(SoC)的MPEG-4视频解码加速器。该解码器可完成MPEG-4解码中计算量最大的离散余弦变换(IDCT)、反量化(inverse quantization)和运动补偿叠加(reconstruction)。本文通过算法、总线接口、存储器结构以及硬件开销方面的优化,使得在满足MPEG-4实时解码的基础上,加速器占用SoC系统芯片的总线带宽和硬件面积尽量的小,并有利于存储器的复用。经实验验证,本设计可以对MPEG-4简单层(simple profile)实时解码。  相似文献   

3.
提出了针对H.264/AVC视频解码运动补偿模块的VLSI优化实现.首先,提出了运动补偿模块的自适应流水线结构以及4像素并行处理的方式以提高系统性能;其次,提出并设计了3层存储结构,不仅降低了整个存储器系统的功耗,也降低了对片外存储器的带宽需求;最后,针对宏模块中亮度和色度的计算,计算了复杂度并优化了系统性能.  相似文献   

4.
本文基于音视频编解码标准AVS运动补偿部分算法。提出了一种高效的硬件结构。该设计以8×8块为基本运算单元,由运动向量MV计算、参考像素读取及像素插值3级流水线结构组成,并采用VerilogHDL语言完成了硬件设计,实验数据表明本设计能够完全满足AVS高清视频实时解码的要求。  相似文献   

5.
为有效解决运动补偿的多标准兼容问题,该文提出了一种改进的适用于多标准运动补偿的新插值算法结构,新插值算法基于文中提出的RL(Rounding Last)策略和DTS(Diagonal Two Step)策略,其采用一种统一的两步插值结构有效地兼容了各标准中亮度分量和色度分量的插值。基于新算法,设计实现了一种可重构的多标准运动补偿硬件电路,该电路采用了基于可变块大小的运动补偿结构。实现结果表明,与JM8.4中基于44固定块大小的运动补偿结构相比,所设计的电路使得带宽需求降低了27%~50%,平均单次访问外部存储器的突发长度提高了1.22~2.25倍;电路在125 MHz工作频率下可满足全高清1080 p (19201080) 30帧/s的实时解码需求。  相似文献   

6.
HEVC(High Efficient Video Coding )是继 H .264/AVC之后正在研发的新一代视频编码标准.与之前的视频编码标准不同的是,HEVC提出了不同尺寸的变换编码单元来进行图像的空间冗余压缩.本文设计了一种面向HEVC的32点二维IDCT的全流水电路结构.为了减少I/O带宽压力和硬件开销,电路采用了单端口输入输出、蝶形运算展开以及奇偶分离累加的方法.在 TSMC90nm工艺下综合得到该电路最快工作频率为315M Hz ,电路总门数为47K .仿真结果显示该电路结构可以在300M Hz频率下对分辨率为4096×2048的超高清视频做30帧/秒的32点IDCT解码.  相似文献   

7.
针对H.264/AVC解码器中运动补偿模块存取密集、计算复杂度高的特点,对参考数据读取方式和亚像素插值计算进行了一系列优化,提出了运动补偿参考数据读入的并行机制和亚像素插值的优化算法.在不降低图像质量的前提下,大大提高了解码速度,TI DM642DSP平台下仿真结果表明优化后的运动补偿模块的计算速度提高为原来的19倍.  相似文献   

8.
张乃燃  侯立刚  吴武臣   《电子器件》2008,31(1):268-272
提出了在视频显示应用中的新型存储器系统架构.为保证流畅的视频图像放映,片下存储器的访存成为影响系统性能的关键因素.首先具体分析图像中所划分块的运动矢量以减少访存行为,从而减少60%的周期数.第二,有效地访存方法为视频数据的传输提供了充足的带宽.为保证不同类型的信号之间没有干扰,安排了专用的存储器系统结构.相应地,一个专用于参考帧存取的本地 AMBA 实现了高速存取,双存储器控制器也使总线更加有效.根据以上方法,实验结果显示在60 兆赫兹下,系统可以完成每秒 30 帧的实时高清(720p)解码.  相似文献   

9.
在多媒体系统的系统集成芯片(SoC)中,从系统集成芯片工作实时性要求,应用程序和数据尽可能存放在片上存储或Cache,执行方便,处理速度快,就要使用大量的存储部件,使得存储部件的面积和功耗占到整个芯片的很大部分.为了减少片上存储部件,则部分程序和数据移到片外存储,在执行时轮流调进到芯片内,势必增加I/O的开销.因此如何使设计优化是软硬件协同设计中的一个问题.本文以MPEG2集成解码芯片中音频存储优化为例给出了系统集成芯片存储优化的一些方法.包括通过LGDFG(Large Grain Data Flow Graph)模型分析改变程序结构,共享数据空间,改变数据类型以及添加片上SRAM并减少片上Cache容量从而减少系统存储消耗等.这些方法显著地减少系统的存储消耗,降低系统芯片的面积和功耗.  相似文献   

10.
基于TMS320C64xDSP的HDTV视频解码软件关键模块的优化   总被引:1,自引:0,他引:1  
李晶  国澄明  国狄非  陈强 《信号处理》2004,20(3):304-306
本文在利用通用DSP TMS320C64x实现HDTV视频解码过程中,通过软件仿真,使用C/C 编译器参数优化设置和人工流水线汇编优化等手段,对IDCT和运动补偿关键模块进行优化,解决了在两级Cache结构下数据的存储问题,取得了显著成效。  相似文献   

11.
In this paper, we present high performance motion compensation architecture for H.264/AVC HDTV decoder. The bottleneck of efficient motion compensation implementation primarily rests on the high memory bandwidth demand and six-tap fractional interpolation complexity. To solve the bottleneck for H.264/AVC HD applications, three combined bandwidth optimization strategies are proposed to minimize the memory bandwidth for MB-based decoding process. To improve the interpolation hardware utilization and reduce the interpolation cycles, an interpolation classification scheme is proposed. By classifying the fifteen fractional pixels into five types and processing correspondingly, the interpolation cycles decrease significantly. A direct mapping memory cache characterized with circular addressing, byte-aligned addressing and horizontal and vertical parallel access is designed to support the proposed scheme. The hardware of proposed motion compensation is implemented at 100 M with 31.841 K logic gates, averagely 70–80% reduced memory bandwidth can be offered and the interpolation hardware can be fully utilized and interpolate one MB within 304 cycles, which can satisfy the real time constraint for H.264/AVC HD (1,920 × 1,088) 30 fps decoder. The design is implemented under UMC 0.18 μm technology, and the synthesis results and comparisons are shown.
Yu LiEmail:
  相似文献   

12.
运动估计是HEVC中计算量最大、耗时最多的模块。为了加速编码过程,设计了适用于HEVC运动估计的六边形搜索算法的VLSI架构。该架构支持HEVC标准中的尺寸可变块设计,并且充分考虑六边形模板的数据复用特点,在PE阵列中使用流水线的组织策略,有效降低了片上缓存的访问次数。采用SMIC 65 nm工艺综合该电路,最高工作频率可达100 MHz,电路规模101 k门,能够满足高清视频(1 920×1 080,60帧/秒)的实时编码要求。  相似文献   

13.
赵贝 《电子科技》2014,27(4):143-145,150
为有效提高视频监控应用领域中多屏幕画面显示的清晰度、分辨度等问题,提出了一种基于FPGA的实时视频图像处理算法。文中介绍了系统的整体结构,然后针对FPGA模块介绍了视频图像的缓存及图像分割,并针对视频的输出显示要求,重点介绍了基于双线性插值算法的实现。ModelSim的仿真结果表明,该算法符合多屏幕显示系统的要求。  相似文献   

14.
分布式视频编码(DVC)与传统视频编码之间的转码为移动终端设备之间的低功耗视频通信提供了一种有效的实现思路。以DVC与HEVC转码为研究对象,利用DVC解码端信息,针对高效视频编码(HEVC)中复杂度极高的编码单元(CU)划分过程进行复杂度优化研究。在DVC解码端提取与CU划分相关的纹理复杂度、运动矢量及预测残差3种特征信息;在HEVC编码端基于朴素贝叶斯原理建立CU快速划分模型,模型生成后便可以通过输入特征信息对当前CU划分进行快速决策,避免大量率失真(RD)代价计算过程。实验结果表明,本方案在编码比特率略有上升的情况下大幅缩短了HEVC编码时间,平均下降幅度达到58.26%,且几乎不影响视频质量。  相似文献   

15.
This paper proposes a novel video delivery scheme that reduces the bandwidth consumption cost from a video server to terminals in Long‐Term Evolution networks. This proposed scheme combines optimized hybrid multicast with a segment‐based caching strategy for use in environments where the maximum number of multicast channels is limited. The optimized hybrid multicast, allocation of multicast channels, and cache allocation are determined on the basis of a video's request rate, the related video's length, and the variable cost per unit size of a segment belonging to the related video. Performance evaluation results show that the proposed scheme reduces a video's delivery costs. This work is applicable to on‐demand TV services that feature asynchronous video content requests.  相似文献   

16.
针对高清视频在客户端解码播放过程中存在的CPU占用率高、图像数据拷贝速度低等问题,提出了一种基于GPU解码数据快速拷贝方法。研究了DXVA硬解码方法在视频解码运算过程中的应用,为了消除解码数据在显存拷贝时产生的CPU占用率高现象,利用显存特点和SSE41多媒体指令新特性,设计并实现了视频帧数据快速拷贝方案。实验结果表明,该方法能在满足高清视频实时播放的同时有效降低CPU占用率,且该方法具有一定的实用性。  相似文献   

17.
针对H.265整数运动估计算法参考块更新模块中数据传输量大、运行速度慢等问题,在分析参考块间数据相关性的基础上,提出了能够减少硬件使用资源,提高运行效率的并行方案.该方案采用18×17个处理元阵列,通过相邻参考块之间3个方向数据重合的关系设计了3个缓存区,更新时根据参考块之间的关系定位缓存区,然后从外存加载相应的参考块数据.该方案中的资源占用量相比传统设计降至1/16.实验结果表明,该方案可以将数据复用率提高到98.4%,有效降低了整数运动估计算法的带宽需求.  相似文献   

18.
The new encoding tools of high efficiency video coding (HEVC) make the interpolation operation more complex in motion compensation (MC) for better video compression, but impose higher requirements on the computational efficiency and control logic of the hardware architecture. The reconfigurable array processor can take into consideration both the computational efficiency and flexible switching of algorithms very well. Through mining the data dependency and parallelism among interpolation operation, this paper presents a parallelization method based on the dynamic reconfigurable array processor proposed by the project team. The number of pixels loaded from the external memory is reduced significantly, by multiplexing the common data in the previous reference block and the current reference block. Flexible switching of variable block operation is realized by using dynamic reconfiguration mechanism. A 16 x 16 processor element (PE)'s array is used to dynamically process a 4 x 4 - 64 x 64 block size. The experimental results show that, the reference block update speed is increased by 39.9%. In the case of an array size of 16 PEs, the number of pixels processed in parallel reaches 16.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号