共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
3.
4.
寄存器结构及其分配是软件流水算法的关键之一.为支持多重循环的软件流水,该文提出一种新颖的寄存器结构:半共享跳跃式流水寄存器堆.它可以有效地解决多重循环软件流水下的特殊问题,即:同层次和跨层次的寄存器重命名问题以及断流问题;有效地消除外层循环的体间读写相关,提高程序的指令级并行度.它有3种分配方式可供灵活使用:单个寄存器、流水寄存器和寄存器组方式.流水寄存器方式对生存期确定的、局限于一个循环层次的寄存器重命名问题提供简单而有效的支持.寄存器组分配方式解决了多重循环软件流水时变量生存期不确定的情况.跳跃操作为 相似文献
5.
软件流水是循环调度的重要方法.有分支循环的流水依然是个难题.现有算法可以分为4类:循环线性化、路径分离、整体调度和路径选择.它们都未能和谐地解决两个对立问题:转移时间最小化和最差约束问题.提出了基于路径分组和数据相关松弛的软件流水框架,试图无矛盾地解决上述问题.其主要思想是:(1)路径分组,即按照路径的执行概率和转移概率将路径分组,力求最小化转移时间;(2)数据相关松弛,力求避免最差约束,即当循环有多条路径时,有些相关在循环执行中并不一定有实例,理想的策略是仅当它有实例时才遵守.初步实验和定性分析表明,此 相似文献
6.
处理机分配是数据并行语言编译系统的一项重要技术,原因是高效使用大规模并行计算机的关键在于将程序中的计算尽可能均匀地分布到各个处理机上去执行,并且将程序中的数据按照使通信量尽可能少的原则分布存放在各个节点上,而处理机分配直接影响着数据分布和并行循环这代分布的效果。文章讨论处理机分配的原则,给出了一个高效的处理机分配算法。 相似文献
7.
文章第1节对软件流水下多重循环中数据元素的调度进行了分析,着重讨论了用地址计数器完成简单地址运算的意义、ILSP(interlaced inner and outer loop software pipelining)算法的基本思想及其在此基础上分析了软件流水下多重循环中数据元素的调度特点;第2节进一步探讨了为完成调度而寻找地址控制信息序列的一般方法;第3、4节则分别讨论了用求得的地址控制信息序列控制地址计数器对数据元素的访问和将地址控制信息序列化简为精简地址控制信息序列的步骤;最后两节分别是实验结果和结 相似文献
8.
循环是程序中的热代码,对循环进行有效的优化可以显著缩短程序的执行时间。软件流水是一种开发循环体指令级并行的细粒度循环优化技术,它通过调度循环中连续迭代之间的指令使其并行执行,从而提高了循环的执行效率。实验数据表明,用Cerngoop程序包进行测试,循环优化效果明显。 相似文献
9.
10.
一种基于空间限制的数据优化分配算法 总被引:1,自引:0,他引:1
陶世群 《计算机工程与应用》1996,(3)
本文介绍了在分布式数据库中的数据优化分配问题,提出并讨论了基于空间限制的一种数据优化分配算法 相似文献
11.
12.
In this paper, we investigate the impact of instructions reissued due to misspeculated data dependences on processor performance. Recently, the practice of speculation in resolving data dependences has been studied as a means of extracting more instruction level parallelism. When a misspeculation occurs, it is necessary to revert the processor state to a safe point where the speculation is initiated, with an instruction reissue mechanism utilized for that purpose. The instruction reissue suffers less miss penalties than instruction squashing which handles misspeculated control flows in current generation processors, but causes redundant instruction dispatching, i.e. multiple copies of an instruction are in flight in functional units. The effectiveness of data speculation would be diminished, if reissued instructions caused serious structural hazards. Therefore, we evaluate how the instruction reissue affects processor performance using an execution-driven simulator. We find that overhead due to instruction reissue is sufficiently small so as to allow data speculation to contribute to processor performance. 相似文献
13.
14.
程序中大量分支指令的存在,严重制约了体系结构和编译器开发并行性的能力。有效发掘指令级并行性的一个主要挑战是要克服分支指令带来的限制。利用谓词执行可有效地删除分支,将分支指令转换为谓词代码,从而扩大了指令调度的范围并且删除了分支误测带来的性能损失。阐述了基于谓词代码的指令调度、软件流水、寄存器分配、指令归并等编译优化技术。设计并实现了一个基于谓词代码的指令调度算法。实验表明,对谓词代码进行编译优化,能有效提高指令并行度,缩短代码执行时间,提高程序性能。 相似文献
15.
本文介绍了超标量处理机、超级流水线处理机、超级流水线超标量处理机的基本原理和流水处理过程;列举了三种处理机典型机器的基本结构;重点分析了三种处理机的设计参数和相对于基本标量流水处理机的相对性能,并对超标量、超级流水线级数的确定,进行了讨论。 相似文献
16.
基于GCC的IF转换算法的分析与改进 总被引:1,自引:0,他引:1
分支指令是发掘指令级并行(ILP)的一个主要障碍。IF转换能够有效地删除指令流中的分支,通过删除程序中的莱些分支,将控制依赖转换为数据依赖。能够获得更好的调度效果。本文详细分析了GCC中基于IA-64谓词执行的IF转换算法,并改进了其算法。实验数据表明。优化效果明显。 相似文献
17.
This paper uses timed petri net to model and analyze the problem of instructionlevel loop scheduling with resource constraints,which has been proven to be an NP complete problem.First,we present a new timed Petri net model to integrate functional unit allocation,register allocation and spilling into a unified theoretical framework.Then we develop a state subgraph,called Register Allocation Solution Graph,which can effectively describe the major behavior of our new model.the main property of this state subgraph is that the number of all its nodes is polynomial.Finally we present and prove that the optimum loop schedules can be found with polynomial computation complexity,for almost all practical loop programs.Our work lightens a new idea of finding the optimum loop schedules. 相似文献
18.
Scheduling the tasks of parallel scientific applications is very important for efficient utilization of resources and reducing the overall execution time (makespan). Parallel applications typically include both data parallelism and task parallelism. It is known that the scheduling problem on multiprocessor systems problem is NP-Hard even for applications involving pure task parallelism. The problem becomes more difficult when data parallelism is also taken into consideration. These problems usually considered in two steps, processor allocation and task scheduling, and various algorithms have been proposed. In this study, we introduce a genetic algorithm based hyper-heuristic approach for the processor allocation problem. Experimental results indicate that the algorithm provides better performance compared to various greedy algorithms. 相似文献
19.
描述了一种可以有效提高存储级并行(Memory Level Parallelism,MIP)的指令优化锁步执行模型--OLSM(Optimized Lock-Step execution Model)执行模型,并建立了一种能体现OLSM模型思想的层次存储结构.OLSM允许显示并行指令计算(Explicit Parallel Instruction Computmg,EPIC)微处理器实现一定程度的乱序执行,解决了传统超长指令字(Very Long Instruction Word,VLIW)锁步执行的缺陷,可以充分利用结构中的大量计算和存储资源,最大化隐藏存储延迟、提高MLP. 相似文献