首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
DSP芯片具有强大的数据运算功能,充分利用芯片的硬件资源需要对基于硬件的软件进行优化。本文基于ZSP 500数字信号处理器,介绍了C语言级、汇编级代码优化的过程,详细介绍了汇编代码过程中的循环优化。代码优化前后,程序执行效率提高显著。  相似文献   

2.
魂芯DSP处理器是一款32 bit静态超标量、分簇结构的、支持SIMD的VLIW处理器。魂芯DSP芯片有4个执行簇和3个内存块,但簇间数据传输和寻址会占用总线带宽。魂芯DSP上每个簇中有大量的计算部件,但是现有的编译器框架中指令调度算法是针对非分簇结构的,无法充分利用魂芯DSP的分簇结构特点,产生出高效的指令级并行代码。根据魂芯处理器架构分簇的特点,提出了在魂芯DSP上进行指令分簇和指令调度的启发式算法,并且在开源Open64编译器框架上进行了实现。实验结果表明,该算法在魂芯DSP编译器上的实现可以显著提高一些在DSP上有着计算密集型程序的性能。  相似文献   

3.
一种软件流水的反流水算法   总被引:1,自引:0,他引:1       下载免费PDF全文
软件流水是一种循环程序的优化技术,已经广泛应用于现代优化编译器中.为了充分利用VLIW DSP处理机的指令级并行性,必须使用软件流水技术对DSP程序进行优化.然而,在串行源代码不存在的情况下,对软件流水后的原始代码进行变换、理解、测试和调试,并转换成其他处理机的代码是非常困难的.提出了一种反流水技术,它能够将软件流水后的优化汇编代码反向转换成语义等价的相应代码.通过20个程序的初步实验,验证了所提出的反流水算法的正确性.  相似文献   

4.
在DSP上移植算法,代码优化程度成为提高系统性能、缩短开发周期的瓶颈。同时针对复杂算法在DSP上的实现,也产生很多优化策略、方法。本文以在数字通信系统中应用广泛的Viterbi算法为例,简述Viterbi算法的基本原理和目标处理器(TMS320C6211)的处理能力;介绍C6000软件编程及优化的步骤,并提出一些具体的优化策略和技巧。  相似文献   

5.
在DSP上移植算法,代码优化程度成为提高系统性能、缩短开发周期的瓶颈.同时针对复杂算法在DSP上的实现,也产生很多优化策略、方法.本文以在数字通信系统中应用广泛的Viterbi算法为例,简述Viterbi算法的基本原理和目标处理器(TMS320C6211)的处理能力;介绍C6000软件编程及优化的步骤,并提出一些具体的优化策略和技巧.  相似文献   

6.
本文首先简要介绍了H.264视频编码标准所采用的新关键技术,对X264开源代码的DSP移植做了讨论,然后时移植后的代码从算法级、项目级和指令级上做了优化,分别使用全零块检测判决、算法简化、添加内联函数和线性汇编代码来提高运算速度.实验结果表明经过初步优化后可以达到CIF准实时的要求.  相似文献   

7.
在DSP上移植算法,代码优化程度成为提高系统性能、缩短开发周期的瓶颈。同时针对复杂算法在DSP上的实现,也产生很多优化策略、方法。本文介绍水声信号处理中广泛使用的数字式波束形成(DBF)算法,简述DBF的基本原理以及目标处理器(TMS320C6201)的处理能力;介绍C6000软件编程及优化步骤,并提出一些具体的优化策略和技巧。  相似文献   

8.
基于ARM920T内核的FFT算法的高效实现   总被引:2,自引:0,他引:2       下载免费PDF全文
随着ARM体系结构的发展,ARM处理器已经可以胜任许多DSP应用。为了充分挖掘ARM处理器数字信号处理能力,结合ARM内核设计特点设计了基4-FFT算法的高效ARM程序。代码设计中,对寄存器分配和指令调度作了精细地控制,提出了ARM汇编中浮点数的定点格式存储和计算方法,充分利用桶形移位器和5级流水线,避免了流水线互锁问题。实验结果表明优化后的程序指令周期总数减少并且运算精度很高。这些优化方法对ARM程序优化具有实际指导意义。  相似文献   

9.
AES专用指令处理器的研究与实现   总被引:1,自引:0,他引:1  
随着加密算法在嵌入式可信计算领域的广泛应用,如何提高其执行效率成为研究的热点问题.高级加密标准(AES)凭借其在安全性、费用开销和可执行性等方面的内在优势,成为使用最为广泛的对称密钥加密算法.采用指令集架构(ISA)扩展优化的方法对AES算法进行指令扩展优化.基于电子系统级(ESL)方法设计流程,使用基于LISA语言的处理器生成工具构建了一个高效AES专用指令处理器(AES_ASIP)模型,最终实现于FPGA中.经过一系列的仿真和验证,对比ARM处理器指令集架构,实验结果显示AES_ASIP以增加少许硬件资源为代价,提高了算法58.4x%的执行效率并节省了47.4x%的指令代码存储空间.  相似文献   

10.
为了便于数字信号处理器(DSP)的架构探索,提出了一种全新的基于Gem5模拟器Atomic模型,为顺序多发射、多级执行的DSP进行周期精度高效建模的通用方法。通过修改Atomic现有的三级流水线,添加一级新的流水线,达到了在Gem5中为DSP进行周期精度仿真的目的;通过硬件表格类的设计,改变Gem5指令集与处理器的耦合,达到了在Gem5中为DSP进行快速高效建模的目的。运行基准测试程序Dhrystone2的结果表明,该建模方法得到的周期信息与RTL硬件代码的仿真结果相同。而对代码的统计表明,该建模方法能提高代码的复用率和可维护性,使建模能快速响应设计,缩短DSP设计迭代周期。  相似文献   

11.
在采用并行超长指令字结构的DSP芯片中,CPU处理速度与片外数据存取速度不匹配的问题,导致了CPU处理延时,限制了DSP系统性能的提升,针对这一问题,根据Cache的结构提出一种适宜于在DSPCPU上进行视频数据处理的数据排列新算法,并且将其成功地应用到基于Trimedia PNXl301的MPEG-4程序优化工作中,系统编码结果表明,该方法有效地减少了Cachemiss及片外数据存取的时间开销,在同等条件下,采用本算法后系统编码性能提高2帧/秒(CIF格式)左右。  相似文献   

12.
针对CS-ACELP语音编码算法编码复杂度较高、DSP实时实现比较困难的问题,提出了一种可降低CS-ACELP语音编码算法复杂度的优化方法,分析了CS-ACELP语音编码算法原理,详细介绍了优化的CS-ACELP语音编码算法从固定码本搜索上降低算法复杂度的实现,并给出了在16位定点DSP芯片TMS320VC5402上实现CS-ACELP语音编解码方案的硬件及软件设计。实验结果表明,优化的CS-ACELP语音编码算法降低了运算复杂度,提高了运行速度,重建的语音符合标准的编解码要求。  相似文献   

13.
基于TMS320DM642的视频解码系统优化   总被引:7,自引:0,他引:7  
介绍了TMS320DM642数字媒体处理器,并结合该芯片的结构特点,设计实现了MPEG-4视频多路实时解码器。论述了基于DM642媒体处理器的MPEG-4视频多路实时解码器软件系统级优化策略和代码级优化关键技术。测试结果表明,本文提出的优化策略和技术使解码系统在DM642媒体处理器上实现了高质量的多路实时应用。  相似文献   

14.
提出了一种基于光场的偏振图像快速提取及实时处理方法。以多核DSP TMS320C6678为核心处理器,实现了从光场图像的采集到偏振图像的提取以及处理等一系列连续过程。对系统硬件以及软件设计进行了详细介绍。系统采用DSP+FPGA的方式,其中FPGA模块实现cameralink相机接口以及图像采集,DSP模块实现图像的快速处理算法。光场图像采集、偏振图像提取及偏振信息反演及融合算法和软件的优化是保证系统高效工作的关键部分,并且进行了重点讨论,提出了相应的解决方案。实验结果表明,系统实现了多核DSP并行运算处理,比单核DSP运算速度提高4倍左右。  相似文献   

15.
陈亦欧  吕信科  凌翔 《计算机科学》2017,44(8):42-45, 70
随着信号处理的复杂度的增加,多核并行架构成为数字信号系统的有效解决方案。主要研究了面向数字信号处理系统的无线多核阵列的任务调度问题。从数字信号处理系统与无线多核阵列的性能和开销要求出发,以功耗、热分布以及延时为优化目标,设计出相应的功耗、热均衡评估与延时模型,作为多目标优化算法的目标函数。同时,在NSGA-II算法的基础上改进拥挤策略与初始种群,并设计新的适应度函数,兼顾3个优化目标的性能,增加探索到更优解的可能性。最后,在无线多核阵列平台上采用多种任务图进行仿真,验证了所提算法的有效性与优越性。  相似文献   

16.
基于C6000的滑动窗口图像处理算法存储优化   总被引:1,自引:0,他引:1       下载免费PDF全文
片外存储器和片内存储器的数据传输是数字信号处理系统性能提升的瓶颈。针对图像处理中的滑动窗口类问题,该文提出一种有效的存储调度优化方法,分为3步:预取数据到快速局部存储器,减少冗余读入及数据传输和处理重叠。在TMS320DM642DSP上应用了该方法,实验结果表明,与优化前相比加速比为30-70。  相似文献   

17.
由于太空中存在各种宇宙射线辐射,导致星载设备产生可靠性问题,使得高性能数字信号处理器(DSP)在航空航 天中的应用受到制约,因此需要采取容错措施来对其进行加固处理。但软加固算法会使程序复算而增加系统开销,文章 基于 C6748 DSP 平台,详细说明了在不影响检错率的情况下的功耗优化方法。实验结果表明,通过此方法在保证检错率 的条件下能显著降低系统开销,同时也提升了执行效率。  相似文献   

18.
用C语言编写DSP软件时,优化设计尤为重要。近年来提出了多种针对DSP代码生成阶段的偏移分配优化算法,这些算法通过调整局部变量在存储器中的布局来提高变量地址的计算效率。该文提出一种将微粒群算法与遗传算法相结合的算法(类PSO算法),对变量访问序列中各变量地址的分配进行优化,使计算地址所需的代码数量最小,从而减少程序的运行时间,提高DSP的工作效率。  相似文献   

19.
针对高速图像处理系统中相关跟踪核心模块最小绝对差累加和算法(MAD)的实时性问题,利用TMS320C6416(C6416)处理器的内部并行结构,提出了基于该处理器的MAD算法设计方案。通过合理的内存数据存储安排、高效的程序流程设计以及人工优化循环核等技术措施,充分发挥了C6416的并行处理能力,解决了MAD模块耗时过长的难题。实验结果证明,算法能适应模板与搜索区域大小可变的情况,对于64×64的模板与128×128的搜索区域计算耗时仅9 ms,大大缩短了处理时间。  相似文献   

20.
基于软件无线电的短波多路并行处理系统的设计与实现   总被引:2,自引:0,他引:2  
针对短波窄带信号的实时处理需求,设计实现了一种基于软件无线电思想的短波多路并行处理系统。该系统采用四片高性价比DSP处理器,并行实时处理四路短波信号;采用一片高性能的FPGA,实现全局控制和协处理工作,具有完全可重复编程和配置功能。在此基础上,开发了FPGA程序和主机应用程序,实现了基于DSP的短波PSK信号解调算法。通过在软件无线电接收系统中的实际应用,证实系统使用灵活、性能优良。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号