期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种软件流水的反流水算法 总被引：1，自引：0，他引：1

汤志忠李文龙苏伯珙《软件学报》2004,15(7):987-993

软件流水是一种循环程序的优化技术,已经广泛应用于现代优化编译器中.为了充分利用VLIW DSP处理机的指令级并行性,必须使用软件流水技术对DSP程序进行优化.然而,在串行源代码不存在的情况下,对软件流水后的原始代码进行变换、理解、测试和调试,并转换成其他处理机的代码是非常困难的.提出了一种反流水技术,它能够将软件流水后的优化汇编代码反向转换成语义等价的相应代码.通过20个程序的初步实验,验证了所提出的反流水算法的正确性. 相似文献

2.

弹性数据相关与软件流水 总被引：1，自引：0，他引：1

下载免费PDF全文

容红波汤志忠《软件学报》2001,12(6):894-906

最差路径是有分支循环软件流水的一大障碍.对于有分支循环,某些数据相关(称为弹性相关)在循环的动态执行中可能产生、也可能不产生实例.据此,可将严重限制并行性的弹性相关用限制较松的虚构相关代替,再进行软件流水.若调度没有遵守原来的弹性相关,则使用下推变换修正.从而缓解或者完全解除了最差路径的限制.该方法与经典的控制猜测互补,特点是允许调度含错,然后纠错. 相似文献

3.

IA-64软件流水的反流水算法研究

崔平非庞建民赵荣彩崔雪冰《计算机应用》2006,26(8):1919-1921

软件流水是一种开发循环程序指令级并行性的技术, 它通过并行执行连续的多个迭代来加快循环的执行速度。而在逆向工程中,软件流水却为逆向翻译带来了困难。为此,基于IA-64平台,提出了一种反流水算法,针对循环中包含软件流水的汇编代码进行处理,将其反向转换成语义等价的串行代码,并通过实验验证了该算法的有效性,为在二进制翻译中处理软件流水代码奠定了基础。相似文献

4.

流水安全法--一个面向软件流水技术的新的数据相关性分析方法 总被引：3，自引：0，他引：3

汤志忠张赤红乔林《计算机学报》1998,21(Z1):201-206

软件流水是一种很有效的指令级并行优化技术,而能否进行尽可能精确的数据相关性分析是决定软件流水优化效果的一个非常重要的因素.本文通过分析软件流水技术本身的特点,从保障软件流水安全为出发点,导出了一组更严格有效的相关方程和限制不等式,大大提高了相关性判别的能力,最后与现有工作进行了比较,并用一个例子加以验证. 相似文献

5.

基于路径分组与数据相关松弛的软件流水

下载免费PDF全文

容红波汤志忠《软件学报》2001,12(4):544-555

软件流水是循环调度的重要方法.有分支循环的流水依然是个难题.现有算法可以分为4类:循环线性化、路径分离、整体调度和路径选择.它们都未能和谐地解决两个对立问题:转移时间最小化和最差约束问题.提出了基于路径分组和数据相关松弛的软件流水框架,试图无矛盾地解决上述问题.其主要思想是:(1)路径分组,即按照路径的执行概率和转移概率将路径分组,力求最小化转移时间;(2)数据相关松弛,力求避免最差约束,即当循环有多条路径时,有些相关在循环执行中并不一定有实例,理想的策略是仅当它有实例时才遵守.初步实验和定性分析表明,此相似文献

6.

分解式软件流水DESP：一种开发循环程序指令级并行性的新方法

汤志忠王剑《软件学报》1995,6(1):138-147

本在软件流水方面提出一种新观点，把软件流水看作是一种指令级变形，是把一维指令向量变换成二维指令矩阵。这样，软流流水问题可以很自然地分解为两个子问题：一个是确定每个操作在指令矩阵中的行号，另一个是确定其在指令矩阵中的列号。其中这种观战我们开发出一种新的循环调度方法，叫做分解式软件流水－ＤＥＳＰ。相似文献

7.

一种支持多重循环软件流水的寄存器结构 总被引：1，自引：0，他引：1

下载免费PDF全文

容红波汤志忠《软件学报》2000,11(3):401-409

寄存器结构及其分配是软件流水算法的关键之一.为支持多重循环的软件流水,该文提出一种新颖的寄存器结构：半共享跳跃式流水寄存器堆.它可以有效地解决多重循环软件流水下的特殊问题,即：同层次和跨层次的寄存器重命名问题以及断流问题;有效地消除外层循环的体间读写相关,提高程序的指令级并行度.它有3种分配方式可供灵活使用：单个寄存器、流水寄存器和寄存器组方式.流水寄存器方式对生存期确定的、局限于一个循环层次的寄存器重命名问题提供简单而有效的支持.寄存器组分配方式解决了多重循环软件流水时变量生存期不确定的情况.跳跃操作为相似文献

8.

多重循环的软件流水技术

下载免费PDF全文

汤志忠王雷钱江《软件学报》1996,7(7):422-427

为了解决多重循环的指令级并行编译问题,本文提出了反刍方法,以一种新的思维方式处理多重循环,将其视为一个程序流整体,有效地开发了多重循环的并行度．另外,本文还给出了实现反刍方法的基本步骤以及相应的硬件支持．最后,通过一些初步实验的结果验证了本算法的有效性,并讨论了其时间和空间效益,分析了其主要特点. 相似文献

9.

X86平台上Open64软件流水的设计与实现

刘家兵徐云《计算机工程》2013,(9)

由于缺乏相关硬件功能,Open64编译器的软件流水技术没有面向X86处理器的版本。为此,提出一种适用于X86平台的Open64软件流水实现框架。利用软件实现处理器的部分硬件行为,通过循环过滤方法剔除不适用的循环。针对缺乏循环寄存器文件的问题,设计寄存器分配算法达到使用通用寄存器的目的,并添加模变量扩展模块以保证执行的正确性。实验结果表明,与循环展开方案相比,该框架可使系统平均获得9%的性能提升。相似文献

10.

面向密码流处理器的AES算法软件流水实现方法

王寿成徐进辉严迎建李功丽贾永旺《计算机应用》2017,37(6):1620-1624

针对轮函数在分组密码实现过程中耗时过长的问题,提出了面向可重构密码流处理器（RCSP）的高级加密标准（AES）算法软件流水实现方法。该方法将轮函数操作划分为若干流水段,不同流水段对应不同的并行密码资源,通过并行执行多个轮函数的不同流水段,从而开发指令级并行性提高轮函数执行速度,进而提升分组密码的执行性能。在RCSP的单簇、双簇和四簇运算资源下分析了AES算法的流水线划分过程和软件流水映射方法,实验结果表明,该软件流水实现方法使得单分组或多分组不同数据分块的操作并行执行,不仅能够提升单分组串行执行性能,还能够通过开发分组间的并行性来提高多分组并行执行性能。相似文献

11.

基于谓词代码的编译优化技术研究

田祖伟孙光《计算机科学》2010,37(5):130-133

程序中大量分支指令的存在,严重制约了体系结构和编译器开发并行性的能力。有效发掘指令级并行性的一个主要挑战是要克服分支指令带来的限制。利用谓词执行可有效地删除分支,将分支指令转换为谓词代码,从而扩大了指令调度的范围并且删除了分支误测带来的性能损失。阐述了基于谓词代码的指令调度、软件流水、寄存器分配、指令归并等编译优化技术。设计并实现了一个基于谓词代码的指令调度算法。实验表明,对谓词代码进行编译优化,能有效提高指令并行度,缩短代码执行时间,提高程序性能。相似文献

12.

软件流水中隐藏存储延迟的方法 总被引：5，自引：2，他引：3

下载免费PDF全文

刘利李文龙陈彧李胜梅汤志忠《软件学报》2005,16(10):1833-1841

软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环体的指令来加快循环的执行速度.随着处理机运行速度的逐渐提高,存储访问延迟成为性能提高的瓶颈.为了减轻存储系统影响,软件流水结合了一些存储优化技术,通过隐藏存储延迟来提高性能.提出了一种延迟可预测的模调度算法(foresighted latencymodulo scheduling,简称FLMS),它根据循环的特点来确定load指令延迟.实验结果表明,FLMS算法减少了阻塞时间,提高了程序性能. 相似文献

13.

避免模调度中cache代价的优化方法 总被引：1，自引：0，他引：1

下载免费PDF全文

刘利李文龙郭振宇李胜梅汤志忠《软件学报》2005,16(10):1842-1852

软件流水能够加快循环的执行速度.模调度是一种被广泛采用的软件流水的启发式.为了改善存储系统,cache使用了分级机制,但这也带来了额外的存储延迟-cache代价.证明了模调度可能导致cache代价,并提出了一种可以避免模调度的cache代价的PCPMS(prevent cache penalty in modulo scheduling)算法.实验结果表明,PCPMS能够避免模调度中的cache代价,提高程序性能. 相似文献

14.

DSP体系结构发展的新趋势 总被引：3，自引：0，他引：3

黄峰熊召新李胜平朱全庆邹雪城《计算机工程》2002,28(4):1-2,218

CISC→RISC设计思想对DSP体系结构设计中数据和指令级并行性开发产生了深刻影响,融合RISC和SIMD技术的单核处理器已经成为DSP体系结构设计的新趋势。相似文献

15.

一个支持多分支循环最优执行的VLIW体系结构

汤志忠张赤红《计算机研究与发展》1995,32(8):1-9

本首先提出一个能够支持多分支循环程序最优执行的ＶＬＩＷ体系结构模型，然后在这个模型的基础上设计了一个新的主要用于数字信号处理及图象处理应用领域的单片体系结构－ＵＲＰＲ－２。在这个体系结构中，属于不同路径和不同循环体的多个分支操作可以在一个节拍内同时被执行，因此可以在更大范围内开发指讼级并行性，同时还提出了一个种叫作流水控制黑板的机制来支持条件分支操作。ＵＲＰＲ－２不仅能够以很高的速度执行只含有基相似文献

16.

Enhancing instruction scheduling with a block-structured ISA

Stephen Melvin Yale Patt 《International journal of parallel programming》1995,23(3):221-243

It is now generally recognized that not enough parallelism exists within the small basic blocks of most general purpose programs to satisfy high performance processors. Thus, a wide variety of techniques have been developed to exploit instruction level parallelism across basic block boundaries. In this paper we discuss some previous techniques along with their hardware and software requirements. Then we propose a new paradigm for an instruction set architecture (ISA):block-structuring. This new paradigm is presented, its hardware and software requirements are discussed and the results from a simulation study are presented. We show that a block-structured ISA utilizes both dynamic and compile-time mechanisms for exploiting instruction level parallelism and has significant performance advantages over a conventional ISA. 相似文献

17.

Wang Jian Andreas Krall M.Anton Ertl 《计算机科学技术学报》1995,10(6):481-490

Global software pipelining is a complex but efficient compilation technique to exploit instruction-level parallelism for loops with branches.This paper presents a novel global software pipelining technique,called Trace Software Pipelining,targeted to the instruction-level parallel processors such as Very Long Instruction Word (VLIW) and superscalar machines.Trace software pipelining applies a global code scheduling technique to compact the original loop body.The resulting loop is called a trace software pipelined (TSP) code.The trace softwrae pipelined code can be directly executed with special architectural support or can be transformed into a globally software pipelined loop for the current VLIW and superscalar processors.Thus,exploiting parallelism across all iterations of a loop can be completed through compacting the original loop body with any global code scheduling technique.This makes our new technique very promising in practical compilers.Finally,we also present the preliminary experimental results to support our new approach. 相似文献

18.

超标量,超流水处理机的性能分析

齐广玉张功萱《小型微型计算机系统》1996,17(9):25-30

本文介绍了超标量处理机、超级流水线处理机、超级流水线超标量处理机的基本原理和流水处理过程；列举了三种处理机典型机器的基本结构；重点分析了三种处理机的设计参数和相对于基本标量流水处理机的相对性能，并对超标量、超级流水线级数的确定，进行了讨论。相似文献

19.

基于GCC的IF转换算法的分析与改进 总被引：1，自引：0，他引：1

田祖伟赵克佳《计算机科学》2005,32(7):242-244

分支指令是发掘指令级并行(ILP)的一个主要障碍。IF转换能够有效地删除指令流中的分支,通过删除程序中的莱些分支,将控制依赖转换为数据依赖。能够获得更好的调度效果。本文详细分析了GCC中基于IA-64谓词执行的IF转换算法,并改进了其算法。实验数据表明。优化效果明显。相似文献

20.

总被引：1，自引：1，他引：0

Wang Jian Christine Eisenbeis Su Bogong 《计算机科学技术学报》1994,9(2):128-143

This paper uses timed petri net to model and analyze the problem of instructionlevel loop scheduling with resource constraints,which has been proven to be an NP complete problem.First,we present a new timed Petri net model to integrate functional unit allocation,register allocation and spilling into a unified theoretical framework.Then we develop a state subgraph,called Register Allocation Solution Graph,which can effectively describe the major behavior of our new model.the main property of this state subgraph is that the number of all its nodes is polynomial.Finally we present and prove that the optimum loop schedules can be found with polynomial computation complexity,for almost all practical loop programs.Our work lightens a new idea of finding the optimum loop schedules. 相似文献