首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
本文提出了一种VLIW处理器的预取和针对循环指令的优化策略.文中重点介绍了预取普通指令和处理循环指令的方法,以及普通预取和循环预取这两种预取模式间的切换方式.基于该设计和优化方案,可以有效减小取指操作的功耗.实验证明,在针对不同的应用上,减少的功耗从40%到90%不等,优化了该VLIW多运算簇DSP处理器的性能.  相似文献   

2.
面向VLIW结构的高性能代码生成技术   总被引:1,自引:1,他引:0  
DSP处理器通过采用VLIW结构获得了高性能,同时也增加了编译器为其生成汇编代码的难度.代码生成器作为编译器的代码生成部件,是VLIW结构能够发挥性能的关键.由此提出并实现了一种基于可重定向编译框架的代码生成器.该代码生成器充分利用VLIW的体系结构特点,支持SIMD指令,支持谓词执行,能够生成高度指令级并行的汇编代码,显著提高应用程序的执行性能.  相似文献   

3.
为了降低超长指令字(VLIW)架构的平均跳转开销和平均访存时延,并减少VLIW程序的代码体积,提出了一种全新的将分支预测与值预测技术应用于VLIW架构的方法。首先分析现有超标量(Superscalar)架构中动态预测技术与V L IW架构中指令静态并行之间所存在的矛盾;通过拓展原有跳转指令和读内存指令,使之与不同的延时槽个数相对应,并根据不同的指令来阻塞流水线或延时写回寄存器,从而解决动态预测技术造成V L IW架构静态调度周期错乱的问题。基于Gem5仿真平台和清华大学Magnolia VLIW数字信号处理器(DSP)的基准测试程序实验表明,该分支预测与值预测技术能显著地提高VLIW架构的性能,缩小VLIW程序的代码体积。  相似文献   

4.
管茂林  何义  杨乾明  张春元  伍楠 《电子学报》2012,40(7):1379-1385
针对流体系结构中VLIW代码体积对指令存储器的容量和功耗带来的问题,本文通过分析流处理器的指令特征,提出了一种新的VLIW分域压缩技术.在此基础上,本文为流体系结构设计了分布式的片上指令存储器,并提出了SIMD流水的执行模式.实验结果证明,该技术减少了38%的片外指令访存,降低约65%的片上指令存储器空间需求;分布式指令存储器减少了约37%的片上指令存储器面积,使得MASA的系统面积降低了8.92%,并降低了61%的指令存储器功耗.  相似文献   

5.
一种支持同时多线程的VLIW DSP架构   总被引:2,自引:2,他引:0  
沈钲  孙义和 《电子学报》2010,38(2):352-358
本文提出了一种支持同时多线程的动态分发超长指令字(VLIW)数字信号处理器(DSP)架构。该DSP架构上可以同时运行多个线程,功能单元可以执行来自多个线程的指令,有效地提高DSP的指令吞吐率。为了使多个线程的指令更有效地调度分发到功能单元,该DSP架构还支持指令动态分发,由硬件分发单元而不是编译器来完成多线程指令的动态分配。实验结果表明,相比于单线程而言,本文提出的VLIW DSP架构可以提高功能单元利用率,隐藏存储器访问时延,使处理器的指令吞吐率平均提高约26.89%。  相似文献   

6.
王向前  洪一  王昊  郑启龙 《电子学报》2015,43(8):1656-1661
魂芯DSP是一款字寻址的、分簇结构的、支持SIMD的VLIW处理器.介绍了基于开源编译器基础设施open64开发魂芯编译器的关键技术,包括地址寄存器的优化处理、综合多种启发因子的指令分簇、分簇架构下的寄存器分配和指令调度.介绍了魂芯DSP编译器的体系结构优化关键技术,包括基于依赖分析的向量化、高效指令的使用和零开销循环的识别.并总结开发经验,给出了基于开源编译基础设施开发编译器的若干注意点.  相似文献   

7.
近年来,高速DSP(Digital SignalProcessor)发展很快,尤其是VLIW(超长指令字)结构成为高端DSP的主流技术,除了传统的通用DSP产品采用VLIW技术外,针对多媒体应用的专门化通用可编程DSP也有了长足进展,例如Philips的Tri-Media系列和Equa-tor的MAP_CA系列等,在我国都已经开始应用于多媒体系统设计中,本文以MAP_CA为例,分析一下这类多媒体处理器的特点和应用。  相似文献   

8.
面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTE-A基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构的矢量处理器作为终端软基带解决方案.该矢量处理器采用变长的VLIW指令字,共有7条矢量数据通路,每条通路可执行16个16bit的定点运算;采用分组的系数存储器提高灵活性,受限访问的寄存器组降低电路面积;同时设计了SHUF和ISHUF指令专门用于快速傅里叶变换(FFT)和雏特比(vIT-ERBI)译码算法的矢量化实现.最后本文实现和分析了FFT和VITERBI译码算法.  相似文献   

9.
Xtensa LX处理器采用了Tensilica独创的可变长度指令扩展FLIX(Flexible Length Instruction eXtensions)体系结构,该体系结构是Xtensa指令集体系结构ISA的高效实现,它给设计人员以更多的选择去对系统设计的成本和性能进行折衷。FLIX技术为设计人员提供了灵活的方法,将单操作RISC指令、简单和复合操作TIE指令以及多操作FLIX指令自由地结合在一起。通过将多个操作封装在一个32位或者64位的宽指令字中,FLIX技术可以允许设计人员加速执行嵌入式应用程序中比较主要的“热点”代码,同时消除了超长指令字VLIW处理器体系结构中指令代码和系统性能方面的缺陷。  相似文献   

10.
基于数据流的指令调度器的设计与实现   总被引:1,自引:0,他引:1  
文中设计并实现了一个基于数据流的汇编代码CPU指令调度器.该CPU指令调度器基于中国科学院微电子研究所自行研发的Diamond处理器VLIW体系结构,将串行程序流进行重排序从而实现指令的并行发射执行.实验结果表明,通过指令调度器后可显著提高程序的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号