期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

田祖伟孙光《计算机科学》2010,37(5):130-133

程序中大量分支指令的存在,严重制约了体系结构和编译器开发并行性的能力。有效发掘指令级并行性的一个主要挑战是要克服分支指令带来的限制。利用谓词执行可有效地删除分支,将分支指令转换为谓词代码,从而扩大了指令调度的范围并且删除了分支误测带来的性能损失。阐述了基于谓词代码的指令调度、软件流水、寄存器分配、指令归并等编译优化技术。设计并实现了一个基于谓词代码的指令调度算法。实验表明,对谓词代码进行编译优化,能有效提高指令并行度,缩短代码执行时间,提高程序性能。相似文献

2.

密码协处理器指令级并行编译研究 总被引：1，自引：0，他引：1

高飞李红燕张永福《计算机应用研究》2010,27(5):1633-1637

立足于处理器体系结构的研究,结合可重构设计技术以确保密码处理的灵活性是密码协处理器研究的重要方法,其中如何提升密码协处理器的性能是至关重要的问题。基于VLIW体系结构以及可重构设计技术,设计专用指令密码协处理器。编译器作为密码协处理器的重要组成部分,重点研究了密码协处理器指令级并行编译技术,通过提高指令级并行度来提升密码协处理器的性能。相似文献

3.

全局指令调度综述

杨书鑫张兆庆《计算机工程与应用》2004,40(21):44-48,89

指令调度通过调整指令之间的顺序来提高指令级并行度(ILP)。然而基本块通常很小,因而潜在的ILP也很小。随着芯片设计技术的发展,现代的处理机所包含的资源却越来越丰富。指令调度只有跨越基本块的边界(即全局指令调度)才能够充分发挥处理机潜在的和程序中固有的ILP。全局指令调度可划分为有环和无环两种。该文介绍了无环全局指令调度的几种影响力较大的算法。同时还简单介绍了有关全局指令调度的新的热点。相似文献

4.

指令级并行编译器的数据预取及优化方法 总被引：6，自引：0，他引：6

连瑞琦张兆庆乔如良《计算机学报》2000,23(6):576-584

微处理器芯片的处理能力越来越强,但是,存储器的速度却远远不能与其匹配,造成了整个系统的性能不理想,为解决这个总理２,编译器发展了局部性优化、数据预取等多种技术,文中将介绍一种用于ＩＬＰ（Ｉｎｓｔｒｕｃｔｉｏｎｌｅｖ－ｅｌＰａｒａｌｌｅｌｉｓｍ）优化编译器的数据预取技术以及一种利用寄存器堆减少主存访问次数、对程序进行优化的方法,利用它们可以提高平均存储性能,对科学和工程计算的应用是相当有效的。相似文献

5.

VLIW DSP指令级精度模拟器的快速实现方法

朱大林郭德源何虎《计算机工程与设计》2013,34(1):256-261

为了以最小代价开发出超长指令字(VLIW)数字信号处理器(DSP)的指令级精度的模拟器,缩短开发周期,提出了一种基于开源模拟器(gem5)的开发方法.对gem5模拟器和VLIW DSP的指令执行流程分别进行分析,指出指令在gem5模拟器上以纯32位指令环境顺序执行和指令在VLIW DSP上以16/32位混合指令环境并行执行之间的矛盾是开发的难点.在gem5的顺序执行模型的基础上,通过加入并行的判决、执行机制和16/32位混合指令的取指机制建立了VLIWDSP的模型,并具体实现了一款VLIW DSP的模拟器.通过一组针对每条指令的测试程序和一组DSP典型应用程序验证了该方法的正确性和可行性. 相似文献

6.

乱序执行机器上的load指令调度

周谦冯晓兵张兆庆《计算机科学》2007,34(11):298-300

随着处理器和存储器速度差距的不断拉大，访存指令尤其是频繁cache miss的指令成为影响性能的重要瓶颈。编译器由于无法得知访存指令动态执行的拍数，一般假定这些指令的延迟为cache命中或者cache miss的延迟，所以并不准确。我们引入cache profiling技术来收集访存指令运行时的cache miss或者命中的信息，利用这些信息来计算访存的延迟。乱序机器上硬件的指令调度对于发射窗口内的指令能进行很好的动态调度，编译器则对更长的范围内的指令调度更有优势。在reorder buffer中cache miss一旦发生，容易引起reorder buffer满，导致流水线阻塞。调度容易cache miss的指令。使其并行执行，从而隐藏cache miss的长延迟，就可以提高程序性能。因此，我们针对load指令，一方面修改频繁miss的指令的延迟，一方面修改调度策略，提高存储级并行度。实验证明，我们的调度对于bzip2有高达4．8％的提升，art有4％的提升，整体平均提高1．5％。相似文献

7.

基于BDD的谓词分析与优化

王凤芹刘春林胡定磊《计算机工程与应用》2005,41(35):26-28,62

为对带谓词的数据流进行准确而有效的分析,首先介绍了John W.Sias等人提出的一种基于二进制决策图(BDD)的谓词分析系统(PAS);然后在其基础上,提出了结合芯片自身体系结构特点的谓词优化算法。将PAS及优化算法在学院研制的FT_D4芯片的编译器上实现,实验结果表明,这种基于BDD的谓词分析与优化方法简化了程序控制结构,减少了对谓词寄存器的使用,缩短了代码执行时间,性能获得了较大的提高。相似文献

8.

一种基于代价子图的子字并行指令选择算法

王淼王志英《计算机工程与科学》2008,30(9):141-144

子字并行能够充分利用多媒体算法的数据精度小、内部循环处理形式规则的特点,是加速多媒体处理的有效方式。然而,如何充分挖掘多媒体应用中的子字并行仍然是一个难题。本文说明传统的并行技术可以有效地开发循环中的子字并行性,同时提出一种基于代价子图的子字并行指令自动识别的方法。与其他方法相比,该方法利用代价模型对子子字并行指令选择进行定量评估。本文在TTA体系结构框架下实现了这一方法。实验结果表明,该方法可以充分地提取循环中的子字并行性。相似文献

9.

推测执行中值预测与指令重用技术的研究与分析

下载免费PDF全文

冀蓉周宏伟张民选陈怒兴《计算机工程与科学》2005,27(11):98-101

值预测和指令重用是通过开发程序执行结果的冗余来解决数据相关的两种不同的新技术。本文首先从这两种新技术的原理出发,深入剖析了它们的技术特性,然后研究了它们与微体系结构其它特征间的相互影响,最后评估了这些技术对微处理器性能的影响。相似文献

10.

并行PDBMS的数据划分方法 总被引：1，自引：0，他引：1

许向阳张勇王元珍《计算机工程与应用》2001,37(8):90-91,111

该文系统地分析了并行关系数据库的数据划分方法,指出在不同应用中,数据划分方法极大地影响了系统的性能,提出了综合不同方法以适应不同应用的思想。文章介绍了在并行关系数据库系统产ＤＢＭＳ中实现多种划分的方法。相似文献

11.

指令调度中推断和推测技术的研究

叶崴马杰侯朝焕《微计算机应用》2006,27(6):691-693

编译器提高程序并行性的主要障碍是：频繁的控制转移和模棱两可的内存访问。推断和推测是vliw处理器体系结构的新特点，为了消除分支或访存对指令级并行性识别的影响。指令调度是编译器挖掘程序指令级并行性的关键技术之一，本文论述了如何在指令调度中有效地利用推断和推测技术，提高程序的性能。相似文献

12.

协作式全局指令调度与寄存器分配

吴承勇连瑞琦张兆庆乔如良《计算机学报》2000,23(5):493-499

指令级并行是现代高性能代理器的重要特征,对于发挥这类处理器所具有的并行处理能力来说,编译器有至关重要的影响。文中讨论指令级并行编译中的核心问题－全局指令调度与器分配,并以作者为一种新型的显式并行体系结构微处理器的编译系统为背景,介绍了此类编译器后端设计中面临的指令调度与寄存器分配的时序问题,以及为解决这一问题而提出了的一种协作式全局指令调度与寄存器分配方法。相似文献

13.

谓词μ演算和模态图的语义一致性

下载免费PDF全文

刘剑林惠民《软件学报》2003,14(10):1672-1680

模态图是谓词μ演算的一种有效的图形表示形式.证明了谓词μ演算和模态图的语义一致性,详细讨论了谓词μ演算公式、嵌套谓词等式系和模态图之间的关系,并给出了一种优化的从线性公式到嵌套谓词等式系的转换算法. 相似文献

14.

弹性数据相关与软件流水 总被引：1，自引：0，他引：1

容红波汤志忠《软件学报》2001,12(6):894-906

最差路径是有分支循环软件流水的一大障碍.对于有分支循环,某些数据相关(称为弹性相关)在循环的动态执行中可能产生、也可能不产生实例.据此,可将严重限制并行性的弹性相关用限制较松的虚构相关代替,再进行软件流水.若调度没有遵守原来的弹性相关,则使用下推变换修正.从而缓解或者完全解除了最差路径的限制.该方法与经典的控制猜测互补,特点是允许调度含错,然后纠错. 相似文献

15.

Enhancing instruction scheduling with a block-structured ISA

Stephen Melvin Yale Patt 《International journal of parallel programming》1995,23(3):221-243

It is now generally recognized that not enough parallelism exists within the small basic blocks of most general purpose programs to satisfy high performance processors. Thus, a wide variety of techniques have been developed to exploit instruction level parallelism across basic block boundaries. In this paper we discuss some previous techniques along with their hardware and software requirements. Then we propose a new paradigm for an instruction set architecture (ISA):block-structuring. This new paradigm is presented, its hardware and software requirements are discussed and the results from a simulation study are presented. We show that a block-structured ISA utilizes both dynamic and compile-time mechanisms for exploiting instruction level parallelism and has significant performance advantages over a conventional ISA. 相似文献

16.

面向线程级前瞻的线程划分方法浅析 总被引：1，自引：0，他引：1

鲁建壮王志英张春元《计算机科学》2006,33(5):270-272

正确合理的线程划分方法是提取线程级并行性的必要前提，线程级前瞻技术是简化线程划分复杂度提高系统性能的重要手段。本文讨论了几种支持线程级前瞻的典型线程划分方法，在此基础上提出了线程级划分需要解决的关键问题，并蛄合一典型自动线程划分算法进行了具体分析，提出了线程划分需要进一步研究的问题。相似文献

17.

Evaluation of the continuation bit in the cyclic pipeline computer

Paul Spee W. F. Wong Mitsuhisa Sato Eiichi Goto 《Parallel Computing》1992,18(12):1349-1361

The Cyclic Pipeline Computer (CPC) is a shared resource computer which shares its pipeline among multiple instruction streams to create distinct virtual processors. This effectively removes data dependencies which reduce the performance of highly pipelined computers. However, when executing unbalanced parallel programs, the CPC suffers from performance degradation due to synchronization overhead. In this paper we introduce a hardware extension called the continuation bit. The continuation bit controls the instruction issue and determines whether an instruction is issued from the same stream or the next stream. Simulations of various programs indicate that the continuation bit is able to balance the execution of parallel programs by exploiting instruction level parallelism. 相似文献

18.

Computation in the Context of Transport Triggered Architectures 总被引：1，自引：0，他引：1

Henk Corporaal Johan Janssen Marnix Arnold 《International journal of parallel programming》2000,28(4):401-427

Processors used in embedded systems have specific requirements which are not always met by off-the-shelf processors. A templated processor architecture, which can easily be tuned towards a certain application (domain) offers a solution. The transport triggered architecture (TTA) template presented in this paper has a number of properties that make it very suitable for embedded system design. Key to its success is to give the compiler more control; it has to schedule all data transports within the processor. This paper highlights two important TTA-related issues. First a new code generation method for TTAs is discussed; it integrates scheduling and register allocation, thereby avoiding the notorious phase ordering problem between these two steps. Secondly, we discuss how to tune the instruction repertoire for an embedded processor. A tool is described which automatically detects frequent patterns of operations. These patterns can then be implemented on special function units. 相似文献