共查询到20条相似文献,搜索用时 218 毫秒
1.
DSP芯片具有强大的数据运算功能,充分利用芯片的硬件资源需要对基于硬件的软件进行优化。本文基于ZSP 500数字信号处理器,介绍了C语言级、汇编级代码优化的过程,详细介绍了汇编代码过程中的循环优化。代码优化前后,程序执行效率提高显著。 相似文献
2.
3.
4.
在DSP上移植算法,代码优化程度成为提高系统性能、缩短开发周期的瓶颈。同时针对复杂算法在DSP上的实现,也产生很多优化策略、方法。本文以在数字通信系统中应用广泛的Viterbi算法为例,简述Viterbi算法的基本原理和目标处理器(TMS320C6211)的处理能力;介绍C6000软件编程及优化的步骤,并提出一些具体的优化策略和技巧。 相似文献
5.
在DSP上移植算法,代码优化程度成为提高系统性能、缩短开发周期的瓶颈.同时针对复杂算法在DSP上的实现,也产生很多优化策略、方法.本文以在数字通信系统中应用广泛的Viterbi算法为例,简述Viterbi算法的基本原理和目标处理器(TMS320C6211)的处理能力;介绍C6000软件编程及优化的步骤,并提出一些具体的优化策略和技巧. 相似文献
6.
7.
8.
随着ARM体系结构的发展,ARM处理器已经可以胜任许多DSP应用。为了充分挖掘ARM处理器数字信号处理能力,结合ARM内核设计特点设计了基4-FFT算法的高效ARM程序。代码设计中,对寄存器分配和指令调度作了精细地控制,提出了ARM汇编中浮点数的定点格式存储和计算方法,充分利用桶形移位器和5级流水线,避免了流水线互锁问题。实验结果表明优化后的程序指令周期总数减少并且运算精度很高。这些优化方法对ARM程序优化具有实际指导意义。 相似文献
9.
AES专用指令处理器的研究与实现 总被引:1,自引:0,他引:1
随着加密算法在嵌入式可信计算领域的广泛应用,如何提高其执行效率成为研究的热点问题.高级加密标准(AES)凭借其在安全性、费用开销和可执行性等方面的内在优势,成为使用最为广泛的对称密钥加密算法.采用指令集架构(ISA)扩展优化的方法对AES算法进行指令扩展优化.基于电子系统级(ESL)方法设计流程,使用基于LISA语言的处理器生成工具构建了一个高效AES专用指令处理器(AES_ASIP)模型,最终实现于FPGA中.经过一系列的仿真和验证,对比ARM处理器指令集架构,实验结果显示AES_ASIP以增加少许硬件资源为代价,提高了算法58.4x%的执行效率并节省了47.4x%的指令代码存储空间. 相似文献
10.
为了便于数字信号处理器(DSP)的架构探索,提出了一种全新的基于Gem5模拟器Atomic模型,为顺序多发射、多级执行的DSP进行周期精度高效建模的通用方法。通过修改Atomic现有的三级流水线,添加一级新的流水线,达到了在Gem5中为DSP进行周期精度仿真的目的;通过硬件表格类的设计,改变Gem5指令集与处理器的耦合,达到了在Gem5中为DSP进行快速高效建模的目的。运行基准测试程序Dhrystone2的结果表明,该建模方法得到的周期信息与RTL硬件代码的仿真结果相同。而对代码的统计表明,该建模方法能提高代码的复用率和可维护性,使建模能快速响应设计,缩短DSP设计迭代周期。 相似文献
11.
在采用并行超长指令字结构的DSP芯片中,CPU处理速度与片外数据存取速度不匹配的问题,导致了CPU处理延时,限制了DSP系统性能的提升,针对这一问题,根据Cache的结构提出一种适宜于在DSPCPU上进行视频数据处理的数据排列新算法,并且将其成功地应用到基于Trimedia PNXl301的MPEG-4程序优化工作中,系统编码结果表明,该方法有效地减少了Cachemiss及片外数据存取的时间开销,在同等条件下,采用本算法后系统编码性能提高2帧/秒(CIF格式)左右。 相似文献
12.
针对CS-ACELP语音编码算法编码复杂度较高、DSP实时实现比较困难的问题,提出了一种可降低CS-ACELP语音编码算法复杂度的优化方法,分析了CS-ACELP语音编码算法原理,详细介绍了优化的CS-ACELP语音编码算法从固定码本搜索上降低算法复杂度的实现,并给出了在16位定点DSP芯片TMS320VC5402上实现CS-ACELP语音编解码方案的硬件及软件设计。实验结果表明,优化的CS-ACELP语音编码算法降低了运算复杂度,提高了运行速度,重建的语音符合标准的编解码要求。 相似文献
13.
基于TMS320DM642的视频解码系统优化 总被引:7,自引:0,他引:7
介绍了TMS320DM642数字媒体处理器,并结合该芯片的结构特点,设计实现了MPEG-4视频多路实时解码器。论述了基于DM642媒体处理器的MPEG-4视频多路实时解码器软件系统级优化策略和代码级优化关键技术。测试结果表明,本文提出的优化策略和技术使解码系统在DM642媒体处理器上实现了高质量的多路实时应用。 相似文献
14.
提出了一种基于光场的偏振图像快速提取及实时处理方法。以多核DSP TMS320C6678为核心处理器,实现了从光场图像的采集到偏振图像的提取以及处理等一系列连续过程。对系统硬件以及软件设计进行了详细介绍。系统采用DSP+FPGA的方式,其中FPGA模块实现cameralink相机接口以及图像采集,DSP模块实现图像的快速处理算法。光场图像采集、偏振图像提取及偏振信息反演及融合算法和软件的优化是保证系统高效工作的关键部分,并且进行了重点讨论,提出了相应的解决方案。实验结果表明,系统实现了多核DSP并行运算处理,比单核DSP运算速度提高4倍左右。 相似文献
15.
随着信号处理的复杂度的增加,多核并行架构成为数字信号系统的有效解决方案。主要研究了面向数字信号处理系统的无线多核阵列的任务调度问题。从数字信号处理系统与无线多核阵列的性能和开销要求出发,以功耗、热分布以及延时为优化目标,设计出相应的功耗、热均衡评估与延时模型,作为多目标优化算法的目标函数。同时,在NSGA-II算法的基础上改进拥挤策略与初始种群,并设计新的适应度函数,兼顾3个优化目标的性能,增加探索到更优解的可能性。最后,在无线多核阵列平台上采用多种任务图进行仿真,验证了所提算法的有效性与优越性。 相似文献
16.
17.
18.
19.
杨斯涵 《计算机工程与应用》2012,48(13):181-185
针对高速图像处理系统中相关跟踪核心模块最小绝对差累加和算法(MAD)的实时性问题,利用TMS320C6416(C6416)处理器的内部并行结构,提出了基于该处理器的MAD算法设计方案。通过合理的内存数据存储安排、高效的程序流程设计以及人工优化循环核等技术措施,充分发挥了C6416的并行处理能力,解决了MAD模块耗时过长的难题。实验结果证明,算法能适应模板与搜索区域大小可变的情况,对于64×64的模板与128×128的搜索区域计算耗时仅9 ms,大大缩短了处理时间。 相似文献