期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

苏伯珙汤志忠《计算机学报》1992,15(7):481-490

本文叙述一个正在开发的VLIW多处理单元单片机,这个机器的体系结构基于URPR软件流水技术,采用了流水寄存器堆来减少体间相关距离,因此,细粒度并行性可得到充分开发,从而提高了循环体重叠程度,使得优化后的循环体的长度可大大缩短.模拟实验结果表明,这个体系结构在优化编译器的配合下可达到很高的性能。相似文献

2.

一种面向VLIW指令压缩的寄存器分配算法 总被引：1，自引：0，他引：1

朱少波姚庆栋洪享史册《计算机工程》2003,29(20):154-156

针对VLIW结构的指令压缩方法，通过对编译中间代码的深入分析和总结，提出一种改进的寄存器分配算法，该算法在线性扫描的基础上，对寄存器的选择添加约束条件，应用该算法能够使得目标代码中寄存器的编号尽量靠近，从而达到更好的压缩效果。相似文献

3.

采用两级软件流水技术的VLIW优化编译器

苏伯珙王剑《计算机学报》1992,15(7):491-498,506

本文首先提出一种能够充分开发循环程序指令级细粒度并行性的编译技术——两级软件流水,该技术基于URPR软件流水算法,把资源分配和代码优化有机地结合起来;然后叙述采用两级软件流水的VLIW优化编译器;最后给出一个FFT内层循环编译过程的实例及初步实验结果. 相似文献

4.

VLIW处理器循环指令缓冲器设计与实现

李勇胡慧俐杨焕荣《计算机应用》2014,34(4):1005-1009

数字信号处理软件中循环程序在执行时间上占有很大比例,用指令缓冲器暂存循环代码可以减少程序存储器的访问次数,提高处理器性能。在VLIW处理器指令流水线中增加一个支持循环指令的缓冲器,该缓冲器能够缓存循环程序指令,并以软件流水的形式向功能部件派发循环程序指令。这样循环程序代码只需访存一次而执行多次,大大减少了访存次数。在循环指令运行期间,缓冲器发出信号使程序存储器进入睡眠状态可以降低处理器功耗。典型的应用程序测试表明,使用了循环缓冲后,取指流水线空闲率可达90%以上,处理器整体性能提高10%左右,而循环缓冲的硬件面积开销大约占取指流水线的9%。相似文献

5.

一种基于寄存器压力的VLIW DSP分簇算法 总被引：1，自引：0，他引：1

雷一鸣洪一徐云姜海涛《计算机应用》2010,30(1):274-276

寄存器是程序运行时最宝贵的资源之一,软件流水在对VLIW DSP指令调度的同时,会显著增加寄存器的压力,从而导致寄存器溢出,软件流水中止。在以往的研究中,软件流水之前的指令分簇会更多地考虑指令并行性,往往会把寄存器的压力交给寄存器分配阶段,当物理寄存器不够分配时会造成寄存器溢出。通过考察指令运行时的寄存器压力情况对指令进行分簇,这样可根据各个簇的寄存器压力的动态信息减少寄存器的溢出,提高指令运行效率。相似文献

6.

一种支持VLIW DSP条件跳转指令的技术研究

余锋林耿锐戴福泉《工业控制计算机》2009,22(2):35-37

条件跳转指令是VLIW DSP中频繁使用的一种指令,循环是条件跳转指令应用的主要领域之一。条件跳转指令高效的设计是VLIW DSP高效运行的关键。针对这类指令实现的复杂性,讨论了一种新的结构Hyperblock,并用这种结构设计实现了BWDSP100处理器中的条件跳转指令,实验证明该方法对于DSP核心算法程序以及实际应用程序都可以获得较好的优化效果,提高了指令并行性。相似文献

7.

寄存器堆互连的VLIW结构及其指令调度算法

周志雄何虎杨旭张延军孙义和《计算机学报》2008,31(1):127-132

超长指令字(Very Long Instruction Word,VLIW)处理器一般采用总线互连的多簇结构,每个簇中的功能单元共享一个本地寄存器堆,簇间采用总线传输数据,以避免功能单元增多时,全连通结构的延时、面积和功耗的快速增长;但簇间数据共享时的拷贝和延时,使得处理器在性能上有所下降.文中提出了一种寄存器堆互连的多簇VLIW结构,采用寄存器堆来连接各个簇,从而可以避免簇间数据传输的延时和额外的数据拷贝操作.同时也提出了针对这种结构的指令调度算法,以提高指令调度的性能.实验结果表明,与全连通的VLIW结构相比,寄存器堆互连结构在性能上仅有13%左右的性能下降,代码长度则基本不变;这都优于总线互连的多簇结构. 相似文献

8.

一种提高同时多线程VLIW处理器中取指单元吞吐率的方法

下载免费PDF全文

万江华陈书明《计算机工程与科学》2007,29(6):97-101

在同时多线程处理器中,提高取指单元的吞吐率意味着各线程之间的Cache竞争更加激烈,而这种竞争又制约着取指单元吞吐率的提高。本文针对当前超长指令字体系结构的新特点,提出了一种同时提高取指单元和处理器吞吐率的方法。该方法通过尽可能早地作废取指流水线中的无效地址,减少了由无效取指导致的程序Cache冲突,也提高了整个处理器的性能。实验结果表明,该方法使处理器和取指单元的吞吐率均相对提高了12%～23%,而一级程序Cache的失效率则略微增加甚至降低。另外,它还能够减少10%～25%的一级程
程序Cache读访问,从而降低了处理器的功耗。相似文献

9.

一种动态VLIW调度机制的研究和实现 总被引：2，自引：0，他引：2

下载免费PDF全文

李云照王志英沈立《计算机工程与科学》2008,30(7):90-93

VLIW结构是开发ILP的一种重要手段,其优点是结构规整简单、硬件复杂度低。但是,完全依靠编译器进行指令调度的机制限制了VLIW结构性能的提高。本文提出了一种基于确定指令延迟的动态VLIW调度机制,该机制利用大部分指令执行时间确定的特点,根据运行时信息重新调度指令的执行顺序,以进一步开发ILP。在FPGA上的实验结果表明,该机制具有线性的硬件复杂度。相似文献

10.

基于整数线性规划的VLIW DSP指令分簇调度

周鹏《计算机应用研究》2022,39(10)

在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用零一决策变量表示函数中指令的分簇、指令的局部调度以及簇间传输指令的全局调度,并将指令之间的依赖关系和对处理器资源的竞争关系构造为线性约束,最终得到一个以最小化函数的估计执行时间为目标的整数线性规划模型。实验结果表明,求解该模型得到的分簇调度方案对程序性能的优化显著强于现有算法,并且求解模型所耗费的时间是可接受的。相似文献

11.

A Novel instruction stream buffer for VLIW architectures

Jih-Ching Chiu 《Computers & Electrical Engineering》2010,36(1):190-198

The instruction compression mechanism used to solve the drawbacks of traditional very long instruction word (VLIW) architectures often leads to poor code density in the instruction cache, which causes the irregular lengths of long instructions to cross the different cache line. These split long instructions cannot be fetched simultaneously, which creates a bottleneck for VLIW architectures. This paper proposes a buffing mechanism which can slide the split long instruction as a continuous form to offer better efficiency in instruction fetching. This approach helps maintain the behaviors of the software pipeline technology, which schedules iterative instructions to enhance the performance of streaming processing for VLIW architectures. In the proposed mechanism, the instruction stream buffer stores the repeat block completely and suspends as far as possible the cache access to reduce access time. The advantages of repeatedly issuing instructions in the instruction buffer and preventing split long instructions, can substantially improve the performance in fetching instructions. Simulation results show that the mechanism is efficient at the instruction level for the basic DSP/IMG library by improving performance by 35% on average. 相似文献

12.

基于VLIW体系结构的流相关分析^*

容红波汤志忠《软件学报》2000,11(5):646-653

流相关是影响VLIW(very long instruction word)结构上的循环调度的一个关键因素.目前的研究未利用VLIW的锁步特性.利用这一性质,围绕着包含这一概念,该文为VLIW结构上的流相关分析提出了一个完整的娄学模型,发现体间流相关集合可划分为若干不相交的线序集合,存在且仅存在一个独立的、全包含的流相关集合(基),使其他所有流相关都不必要.该模型允许多周期操作和条件分支.该结果可作为研究VLIW的数学基础,也可用于工程实践. 相似文献

13.

消除VLIW结构上的循环体间冗余流相关 总被引：1，自引：1，他引：1

容红波汤志忠《软件学报》2000,11(1):126-132

数据相关是并行处理的基本依据.该文指出,VLIW(very long instruction word)特有的锁步性质使其数据相关性分析具有与众不同的特点.同一体差上的流相关形成一个线序集合,多体差上的特征流相关之间也存在包含关系.据此,提出一种用于VLIW的消除循环体间冗余流相关的方法.该方法是完备的,可以去除所有冗余的体间流相关,从而减轻循环调度的负担.文章给出判定单体差和多体差存在冗余的充分必要条件,以及消除冗余的线性复杂度的算法.这种方法具有普遍意义,可作为VLIW上软件流水和多指令流调度的基础. 相似文献

14.

MOSI:一种基于超长指令字处理器的同时多线程微体系结构

万江华陈书明《计算机学报》2006,29(3):378-383

描述了一种基于超长指令字处理器的同时多线程微体系结构——MOSI（MultiOp Splitting Issue,多操作①分离发射）．MOSI动态地发射同一多操作内的指令．并通过写回缓冲保证计算结果的写回顺序与编译器的视图一致,从而以较小的代价解决了SMT技术中的关键问题．文中详细描述了写回缓冲的结构及算法,给出了多个线程的硬件模型,最后对硬件支持线程的个数及Cache的组织结构进行了讨论．实验结果表明,基于MOSI结构的双线程处理器能够将吞吐率提高40％．相似文献

15.

密码协处理器指令级并行编译研究 总被引：1，自引：0，他引：1

高飞李红燕张永福《计算机应用研究》2010,27(5):1633-1637

立足于处理器体系结构的研究,结合可重构设计技术以确保密码处理的灵活性是密码协处理器研究的重要方法,其中如何提升密码协处理器的性能是至关重要的问题。基于VLIW体系结构以及可重构设计技术,设计专用指令密码协处理器。编译器作为密码协处理器的重要组成部分,重点研究了密码协处理器指令级并行编译技术,通过提高指令级并行度来提升密码协处理器的性能。相似文献

16.

嵌入式超长指令语音压缩处理器的VLSI实现

韩大晗崔慧娟唐昆刘大力《微计算机应用》2006,27(5):553-556

介绍了一款语音压缩专用处理器的设计思路，使用嵌入式FLASH超长指令字系统有效的提高了芯片的处理能力，同时将增强型算术逻辑单元、乘法器、乘累加器结合在一起，在改进的哈佛体系结构上实现了微控制器与DSP的单核设计。使用存储器操作指示寄存器、分层寄存器组，能够简化子程序调用方式。该微处理器采用0．25μm CMOS工艺实现，芯片面积为25mm^2。仿真结果表明，在20MHz工作频率下，芯片处理能力与50MIPS的通用DSP相当，同时能够保持原有编码质量。该处理器能够实现多种类型的语音压缩算法，可以达到对语音算法的高保密性、低复杂度、易开发性。相似文献

17.

Dynamic Instruction Scheduling in a Trace-based Multi-threaded Architecture

Peter A. Rounce Alberto F. De Souza 《International journal of parallel programming》2008,36(2):184-205

Simulation results are presented using the hardware-implemented, trace-based dynamic instruction scheduler of our single process DTSVLIW architecture to schedule instructions from several processes into multiple streams of VLIW instructions for execution by a wide-issue, simultaneous multi-threading (SMT) execution engine. The scheduling process involves single instruction execution of each process, dynamically scheduling executed instructions into blocks of VLIW instructions cached for subsequent SMT execution: SMT provides a mechanism to reduce the impact of horizontal and vertical waste, and variable memory latencies, seen in the DTSVLIW. Preliminary experiments explore this extended model. Results achieve PE utilization of up to 87% on a 4-thread, 1-scalar, 8 PE design, with speed-ups of up to 6.3 that of a single processor. Noticeably it only needs a single scalar process to be scheduled at any time, with main memory fetches being 1–4% that of a single processor. 相似文献