共查询到19条相似文献,搜索用时 156 毫秒
1.
超长指令字技术作为并行处理技术的一个重要组成部分而日益得到重视和研究。本文对VLIW计算机的体系结构及其优化编译器中所常用的优化技术-代码压缩算法做了较全面的综述。 相似文献
2.
胡健 《数字社区&智能家居》2014,(2):847-849
CPU(中央处理器)广泛应用于计算机工程领域。该文主要论述了CPU的性能,主要包括超长指令字处理器、超标量、处理器体系结构、优于最坏情况设计,分析了其发展方向。 相似文献
3.
胡健 《数字社区&智能家居》2014,(4):847-849
CPU(中央处理器)广泛应用于计算机工程领域。该文主要论述了CPU的性能,主要包括超长指令字处理器、超标量、处理器体系结构、优于最坏情况设计,分析了其发展方向。 相似文献
4.
TMS320C6201是新一代高性能超长指令字定点DSP芯片,运算处理速度高达1600MIPS,非常适合应用于嵌入式实时系统,因此,本文开发了基于TMS320C6201的嵌入式图像匹配计算机。 相似文献
5.
6.
BWDSP是一款自主设计的国产VLIW(超长指令字)数字信号处理器,支持SIMD技术,其SIMD指令可以在4个宏上同时执行4个32位计算,对寄存器使用有特殊规则,Open64编译器的寄存器分配策略并不适用于这种规则.本文对BWDSP SIMD指令的寄存器分配优化技术进行了研究,并在BWDSP的编译器OCC上得以实现. 相似文献
7.
8.
9.
10.
基于VLIW的机器相关优化编译技术研究 总被引:2,自引:0,他引:2
VLIW体系结构性能的发挥在很大程度上依赖于其相应的编译器。编译优化主要包括两个方面:一方面是传统的编译器优化技术;另一方面是针对具体机器平台特定的优化技术。VLIW机器相关的编译优化技术应该针对具体的机器平台,基于超长指令字体系结构的特点,考虑如何充分利用机器提供的硬件资源,以达到软件(编译器)和硬件(CPU)的最大匹配,从而生成高效率高并行度的目标代码。论文从超长指令字的特点出发,探讨了在VLIW体系结构下与机器相关的编译优化的实现方案,同时提出了几点在具体进行与机器相关的优化编译时的关键技术。 相似文献
11.
超长指令字数字信号处理器(VLIW DSP)的指令级并行性(ILP)主要通过指令分簇和软件流水来实现。在以前的研究中,指令分簇主要只考虑指令级并行性和减少簇间转移指令,对异构体系结构和某些寄存器只能分在指定簇上的情况考虑较少。提出一种基于数据流图(DFG)的异构体系结构上的分簇方法,利用指令的相关性将DFG划分为与簇数目相同个数的子图,再根据特殊寄存器对簇的要求采用启发式算法对子图进行调整,实验结果表明这种分簇方法使得负载更均衡,加速比相对于传统方法可以提高8%左右。 相似文献
12.
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 相似文献
13.
SDTA指令集体系结构是一种基于传输触发的VLIW体系结构。本文结合SDTA指令集结构的特点,经过循环展开和循环化简、强度消弱、过程集成、机器方言和指令归并等指令调度优化技术,高效实现了自然对数函数ln(x)。实验结果表明,在Neuron处理器上,ln(x)不但数据精度高,而且运行周期数只有gcc3.2.2数学库中自然对数函数运行周期数的33%左右。 相似文献
14.
15.
一种基于虚指令集技术构建快速的可重用的指令集仿真器的方法 总被引:2,自引:0,他引:2
指令集仿真器是进行系统体系结构设计与评估、系统软件设计与开发以及进行软、硬件协同开发的有利工具。然而指令集仿真器对目标体系结构具有极大的依赖性,无法跨越多个目标平台工作,这就成了制约它发展的一个重要因素。文章根据DSP处理器的特点,参考传统仿真策略,提出了一种改进后的仿真技术,可以极大地提高仿真器运行效率。在此基础上,又结合虚指令集技术,构建VIS仿真器,改变了传统仿真器只能用于单一处理器的局面,使之能够适用于多款处理器结构。这为指令集仿真器的广泛使用提供了有力的保证。 相似文献
16.
超长指令字(Very Long Instruction Word,VLIW)处理器一般采用总线互连的多簇结构,每个簇中的功能单元共享一个本地寄存器堆,簇间采用总线传输数据,以避免功能单元增多时,全连通结构的延时、面积和功耗的快速增长;但簇间数据共享时的拷贝和延时,使得处理器在性能上有所下降.文中提出了一种寄存器堆互连的多簇VLIW结构,采用寄存器堆来连接各个簇,从而可以避免簇间数据传输的延时和额外的数据拷贝操作.同时也提出了针对这种结构的指令调度算法,以提高指令调度的性能.实验结果表明,与全连通的VLIW结构相比,寄存器堆互连结构在性能上仅有13%左右的性能下降,代码长度则基本不变;这都优于总线互连的多簇结构. 相似文献
17.
18.
VLIW机器在单个机器周期中同时发射并执行多个的并行操作,从而获得较高的指令级并行度,这些操作之间的依赖分析和调度工作则被完全交给相应的编译器执行,因此VLIW的并行性能能否充分发挥取决于VLIW体系结构相关编译器的质量。GNU开发的GCC是被最广泛使用的编译系统之一,它具有多语言、多平台支持的能力和开放的结构,能够运用各种成熟的常规编译优化技术生成高效的代码。文章分析了VLIW及GCC的结构特点,提出了一种基于GCC的VLIW编译系统设计方案,利用GCC进行RTL中间代码一级的体系结构无关优化和少量体系结构相关优化,在汇编代码一级针对VLIW结构进行体系结构相关的优化,从而充分利用GCC的成熟编译技术快速开发高效的VLIW多语言编译系统。 相似文献
19.
针对3GPP-LTE协议中多输入多输出(MIMO)均衡算法的高复杂度和高吞吐率问题,提出了一种面向软件无线电的并行MIMO均衡处理器,该处理器采用单指令流多数据流(SIMD)和超长指令字(VLIW)技术同时开发子载波间MIMO均衡和子载波内矩阵运算的并行性,并且每一个SIMD功能单元能够支持16 bit定点和20 bit伪浮点复数向量运算和矩阵运算,满足不同天线配置的MIMO均衡算法对处理精度、延迟和功耗的要求。实验结果表明,MIMO均衡处理器的4×4矩阵逆运算吞吐率达到了95 MInversion/s,满足3GPP-LTE协议的要求,并且其灵活可编程性和可配置性能够支持不同的均衡算法。 相似文献