期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王敏王红梅张铁军单睿王东辉《微计算机应用》2009,30(7)

VLIW编译器实现指令并行性挖掘、相关性检查、指令调度等职能,对VLIW处理器的性能影响较大.本文基于一款VLIW DSP芯片,利用可重定位编译器IMPACT的前端和代码生成器模板,设计和实现了高性能的VLIW编译器.利用伪数据类型和Intrinsic函数结合,在编译器中构建了对SIMD功能的支持.实验结果显示,对比基于GCC版本的编译器,该编译器生成的指令数平均下降42%,并行包数下降30%. 相似文献

2.

IXP1200网络处理器多层次并行机制研究

刘钰赵荣彩张铮芦阳《计算机技术与发展》2004,14(6)

主要对千兆通讯的网络处理芯片IXP1200网络处理器进行研究和分析,着重探讨和研究其先进的多级并行设计机制.主要从体系结构和并行设计技术两个角度对IXP1200网络处理器的数控分层和多层次并行等设计机制进行了介绍.突出了其利用多线程、多处理器的先进设计结构来优化设计、提高处理速度的设计理念和实现过程,并在最后进一步详细讨论了如何利用特定微码指令来实现IXP1200网络处理器的指令并行和多线程并行的程序调度方法和设计技术. 相似文献

3.

IXP1200网络处理器多层次并行机制研究

刘钰赵荣彩张铮芦阳《微机发展》2004,14(6):111-114

主要对千兆通讯的网络处理芯片IXP1200网络处理器进行研究和分析，着重探讨和研究其先进的多级并行设计机制。主要从体系结构和并行设计技术两个角度对IXP1200网络处理器的数控分层和多层次并行等设计机制进行了介绍。突出了其利用多线程、多处理器的先进设计结构来优化设计、提高处理速度的设计理念和实现过程，并在最后进一步详细讨论了如何利用特定微码指令来实现IXP1200网络处理器的指令并行和多线程并行的程序调度方法和设计技术。相似文献

4.

静态超标量MCU-DSP内核的Load先行访存调度

刘博张盛兵黄嵩人《计算机应用研究》2013,30(2):450-453

针对嵌入式控制与数字信号处理混合应用领域,建立了一种基于MCU-DSP融合架构处理器的Load先行机制.该内核使用静态超标量技术,拥有整数、存取、循环三条流水线,并采用特殊的四级流水.在存取流水线中,Load先行机制通过动态调度指令的访存顺序,实现了Load指令对Store指令的先行,提前了整数流水线中运算操作数的准备,加快了流水线的处理速度. 相似文献

5.

众核处理器的共享一级指令缓存研究

张昆刘骁郑方谢向辉《计算机工程与科学》2017,39(5):834-840

众核处理器设计在芯片面积上受到了巨大挑战,如何将有限的芯片面积投入到运算能力中,是众核处理器体系结构研究的热点。聚焦众核处理器的指令缓存结构设计,研究通过在多核核心之间共享一级指令缓存,以获取指令系统及处理器流水线性能的提升。给出了共享指令缓存的结构设计,对该结构进行了节拍级精确的性能模拟,并通过RTL级代码的综合得到了面积开销和时序指标。测试结果表明,共享指令缓存可以降低11%~27%的缓存脱靶率,提升4%~7%的流水线性能。相似文献

6.

基于最小延时启发式搜索的TTA代码优化

下载免费PDF全文

王正华郭炜魏继增《计算机工程》2010,36(10):282-284

针对传输触发架构下代码生成中指令调度的流水线冲突、调度死锁、资源冲突等问题,给出一种基于最小延时的遗传搜索算法模型,将软件旁路优化和资源动态分配优化整合到该模型中。实验结果表明,该算法能产生较高质量的并行代码,90%以上测试用例的指令级并行度高于表调度算法获得的结果。相似文献

7.

以访存为中心的阵列众核处理器核心流水线设计

张昆郑方谢向辉《计算机工程与科学》2017,39(12):2167-2175

传统的流水线设计是以转移指令为中心的,大量逻辑资源被用于提高处理器转移预测的能力,以保证向流水线发射和执行部件提供充足的指令流。在阵列众核处理器中提出了一种以访存为中心的核心流水线设计。通过提高访存装载指令在流水线中的执行优先级,以及访存装载指令的预测执行机制,可以有效减少顺序流水线因访存延迟所带来的停顿,提高流水线性能和能效比。测试结果表明,以4KB容量的装载指令访存地址表为例,访存为中心的流水线设计可以带来8.6%的流水线性能提升和7%的流水线能效比提高。相似文献

8.

超标量处理器与VLIW处理器的性能比较

区文《电子计算机》1995,(2):22-34

超标量处理器和特长指令字（ＶＬＩＷ）处理器两者每个周期都能执行多条指令，各自采用一种不同的指令调度垭达到多指令执行目的。超标题处理器动态地调度指令，ＶＬＩＷ处理器静态地执行被调度指令。本文对几种不同的超标量处理器结构与加利福尼亚大学研制的一种特长指令字处理器结构进行定量性能比较。概述了几种超标量处理器和为利用并行渗滤调度能力而设计的一种ＶＬＩＷ处理器的体系结构，分析了它们的性能。进行这种比较的动机相似文献

9.

动态可重构指令计算机 总被引：1，自引：0，他引：1

顾士平华晓勤王惠斌《计算机时代》2008,(3):7-8

动态可重构指令处理器没有固定的指令集,利用动态可重构集成电路可根据程序需求生成不同的指令,指令是"进程级指令";利用"面积换速度",多道并行流水线使计算机处理器的速度大大提高,同时大大降低了处理器的功耗;硬件可重用,提高了硬件的资源利用率。动态可重构指令计算机是未来计算机体系结构的发展方向。相似文献

10.

零级指令缓存研究综述

张昆郝子宇郑方谢向辉《计算机工程与科学》2017,39(3):405-412

高效能是处理器设计的重要指标。由于指令部件在处理器芯片中开始占据越来越多的芯片面积,消耗了较多的芯片功耗,研究人员提出了零级指令缓存设计。零级指令缓存容量小、访问耗能低,与流水线紧密耦合、取指命中时可以门控流水线部分逻辑。因此,零级指令缓存可以有效提高流水线指令部件的能效比。综述了现有的零级指令缓存的不同结构、各结构的发展与应用情况;展望了零级指令缓存设计的未来研究思路。相似文献

11.

基于GCC的高性能DSP Matrix向量指令集扩展

辛乃军陈旭灿孙海燕阳柳罗杰淡孝强王霁《计算机工程与科学》2012,34(1):58-63

自动向量化技术是编译器提高程序并行性的优化方法。随着支持SIMD结构处理器的计算平台的广泛应用,自动向量化技术也成为编译器技术研究的热点。GCC编译器是一种开源、跨平台的编译器。本文基于GCC内部自动向量化算法,结合Matrix芯片的体系结构和指令集特点,完成了Matrix向量指令集在GCC后端扩展,实现了基本的自动向量化支持。测试结果表明,扩展后的编译器能够支持Matrix向量指令集,进行基本的自动向量化,同时支持以内建函数方式开发基于Matrix的并行程序。相似文献

12.

摆动模调度中的寄存器溢出技术及其在GCC中的实现

杨旸顾国昌《小型微型计算机系统》2007,28(10):1822-1826

软件流水是一种通过发掘循环的不同迭代的不同部分的指令间并行性,使这些指令并行执行,从而提高循环的执行效率的优化技术.但该技术在提高指令并行性的同时也增加了寄存器压力,而寄存器溢出技术正是解决寄存器压力的有效方法.摆动模调度是一种在进行近似最优化调度的同时尽力减小寄存器压力的软件流水算法,该算法已经作为一个新的优化遍出现在GCC的最新版本中.本文以GCC为平台,论述了摆动模调度中的寄存器溢出技术及其工程实现,从而使摆动模调度算法进一步增强了对寄存器压力的处理能力. 相似文献

13.

一个新的多分支全局软件流水方法 总被引：1，自引：0，他引：1

下载免费PDF全文

汤志忠张赤红陈刚《软件学报》1996,7(1):16-24

在指令级并行性很高的体系结构中，为了得到比较好的并行优化效果，通常需要设置多个分支控制机构，本文提出一个新的支持多个分支操作并行执行的全局软件流水方法──ＧＰＭＢ．并用衡量全局软件流水方法性能的两个主要参数：时间开销和空间开销把我们的方法与其它几种全局软件流水方法进行了比较．模拟实验结果表明：ＧＰＭＢ方法的时间开销和空间开销都比较小，所需要的硬件支持也比较少．相似文献

14.

Novel Neighborhood Search for Multiprocessor Scheduling with Pipelining

《Journal of Parallel and Distributed Computing》2002,62(1):85-110

This paper presents a neighborhood search algorithm for heterogeneous multiprocessor scheduling in which loop pipelining is used to exploit parallelism between iterations. The method adopts a realistic model for interprocessor communication where resource contention is taken into consideration. The schedule representation scheme is flexible so that communication scheduling can be performed in a generic manner. Base on a general time formulation of the schedule performance, the algorithm improves an initial schedule in an efficient way by successive modification to the task processor mapping and task ordering. Simulation results show that significant improvement over existing methods can be obtained. A parallel software video encoder was implemented based on the scheduling result and real time performance was achieved with pipelining of frame encoding. 相似文献

15.

一种基于寄存器压力的VLIW DSP分簇算法 总被引：1，自引：0，他引：1

雷一鸣洪一徐云姜海涛《计算机应用》2010,30(1):274-276

寄存器是程序运行时最宝贵的资源之一,软件流水在对VLIW DSP指令调度的同时,会显著增加寄存器的压力,从而导致寄存器溢出,软件流水中止。在以往的研究中,软件流水之前的指令分簇会更多地考虑指令并行性,往往会把寄存器的压力交给寄存器分配阶段,当物理寄存器不够分配时会造成寄存器溢出。通过考察指令运行时的寄存器压力情况对指令进行分簇,这样可根据各个簇的寄存器压力的动态信息减少寄存器的溢出,提高指令运行效率。相似文献

16.

GCC在高性能微处理器DSP和CPU上的移植 总被引：1，自引：1，他引：0

王国栋侯朝焕《计算机工程与设计》2005,26(4):891-892,960

在分析GCC结构的基础上,总结了GCC在高性能微处理器DSP和CPU上移植的解决方案,并比较了DSP、CPU和RISC结构的处理器在移植上的差别,重点介绍了GCC对DSP和CPU信号处理功能的支持以及指令分组和指令执行分组在GCC中的实现。相似文献

17.

支持SIMD 与簇间双字传输体系下的VLIW DSP 分簇算法

陈思灵郑启龙冯玉谦付和萍《计算机系统应用》2012,21(10):100-104

VLIW DSP通过软件流水获得时间并行性,通过指令分簇获得空间并行性.指令的分簇本质上是资源分配问题.传统的指令分簇假设一条指令分到某一簇执行,而某些体系结构提供SIMD指令,传统的分簇算法对这类体系结构并不完全适用.提出的基于评估模型的分簇算法能对SIMD指令和普通指令进行合理的分簇.分簇之后,通过调度簇间传输指令,合成适当的簇间双字传输指令.由于SIMD和簇间双字传输的引入,以及较好的分簇决策,程序整体的调度延迟变短.对许多数字信号处理程序相对于没分簇的情况下的性能有2～3倍的性能提升,相对寄存器压力分簇算法有约7～10%性能的提升. 相似文献

18.

模调度中的数据猜测方法

钟明郭振宇汤志忠《计算机应用与软件》2005,22(10):14-16

软件流水是一种重要的指令调度技术，通过重叠地执行不同的循环体来提高指令级并行性。模调度是一类重要的软件流水调度算法，保守的相关性分析可能会引入较多的模糊相关，这阻碍了模调度生成高效的调度结果。数据猜测能克服保守的相关性分析带来的调度限制，开发潜在的并行性。本文提出了模调度中的一种数据猜测方法，在开放源代码编译器ORC上实现了该方法，并用SPEC2000基准程序进行了测试，实验结果表明，该方法收到了较好的效果。相似文献

19.

模调度与DFA结合的技术及其在gcc上的实现

吴佩华郭勇漆锋滨《计算机工程与应用》2004,40(31):102-105

循环是程序中的热代码,而软件流水是一种细粒度的循环优化方法,它通过将循环中不同迭代之间的操作并行执行,最大程度地开发指令级并行。模调度是一种效果很好的软件流水算法。论文以gcc3.3为基础,提出了模调度与DFA结合的软件流水方法,及其工程实现,实验数据表明,优化效果明显。相似文献

20.

Enhanced Co-Scheduling: A Software Pipelining Method Using Modulo-Scheduled Pipeline Theory

R. Govindarajan N. S. S. Narasimha Rao E. R. Altman Guang R. Gao 《International journal of parallel programming》2000,28(1):1-46

Instruction scheduling methods which use the concepts developed by the classical pipeline theory have been proposed for architectures involving deeply pipelined function units. These methods rely on the construction of state diagrams (or automatons) to (i) efficiently represent the complex resource usage pattern; and (ii) analyze legal initiation sequences, i.e., those which do not cause a structural hazard. In this paper, we propose a state-diagram based approach for modulo scheduling or software pipelining, an instruction scheduling method for loops. Our approach adapts the classical pipeline theory for modulo scheduling, and, hence, the resulting theory is called Modulo-Scheduled pipeline (MS-pipeline) theory. The state diagram, called the Modulo-Scheduled (MS) state diagram is helpful in identifying legal initiation or latency sequences, that improve the number of instructions initiated in a pipeline. An efficient method, called Co-scheduling, which uses the legal initiation sequences as guidelines for constructing software pipelined schedules has been proposed in this paper. However, the complexity of the constructed MS-state diagram limits the usefulness of our Co-scheduling method. Further analysis of the MS-pipeline theory, reveals that the space complexity of the MS-state diagram can be significantly reduced by identifying primary paths. We develop the underlying theory to establish that the reduced MS-state diagram consisting only of primary paths is complete; i.e., it retains all the useful information represented by the original state diagram as far as scheduling of operations is concerned. Our experiments show that the number of paths in the reduced state diagram is significantly lower—by 1 to 3 orders of magnitude—compared to the number of paths in the original state diagram. The reduction in the state diagram facilitate the Co-scheduling method to consider multiple initiations sequences, and hence obtain more efficient schedules. We call the resulting method, enhanced Co-scheduling. The enhanced Co-scheduling method produced efficient schedules when tested on a set of 1153 benchmark loops. Further the schedules produced by this method are significantly better than those produced by Huff's Slack Scheduling method, a competitive software pipelining method, in terms of both the initiation interval of the schedules and the time taken to construct them. 相似文献