共查询到17条相似文献,搜索用时 125 毫秒
1.
2.
研究科学计算应用在流处理器上的适用性已成为当前研究热点之一。本文首先分析了流处理器处理科学计算应用的优势以及在流处理器上开发科学计算面临的重大挑战;然后针对不同类型的科学计算应用给出了将科学计算应用映射到流处理器上的关键与优化方法;最后将八种具有不同性能特征的典型科学计算应用映射到流处理器上,并比较和分析这些流程序在时钟精确模拟器运行性能和在处理科学计算应用的相应Fortran程序在主流Itanium 2处理器上的运行性能。实验结果表明,流处理器能有效处理科学计算应用。 相似文献
3.
流体系结构是一种适应VLSI工艺发展的新型体系结构,它是否对科学计算程序有效是一个广泛关注的问题。本文选取NASA并行测试程序集中的一个数据密集型程序MG,研究了 它在一个64位的面向科学计算设计的流处理器FT64上的实现和优化问题。在FT64上的实测表明,经过面向片上存储层次的优化,FT64能够达到与Itanium2处理器相当的性能。
。 相似文献
。 相似文献
4.
5.
本文基于斯坦福大学设计的KernelC编译器ISCD,针对64位流处理器体系结构,设计实现了其核心VLIW编译器,并针对高性能计算应用需求进行优化,实现了分布式寄存器负载均衡和指令自动合并技术。实验结果表明,该编译器能够很好地开发程序中的并行性,具有较高的效率。 相似文献
6.
本文以数论中的Lucas-Lehmer检验法为基础,提出了梅森素数并行求解算法在FT64流处理器上的流式实现,并通过重设流记录的大小对程序进行了优化。评测数据表明,在FT64上运行该应用的时间平均比1.5GHz Itanium2快2.5倍。本文为梅森素数求解问题寻找了一条可行的加速方法,同时证实了流体系结构在高性能计算领域的极大潜力。本文提出的流式算法以及各种优化手段,对于其他科学计算领域中的计算密集型问题在流体系结构上的映射有极大的借鉴意义。 相似文献
7.
斯坦福大学的Imagine流处理器具有很强的计算能力,如何将该体系结构应用在科学计算领域是当前研究的热点。解线性方程组的迭代法在工程和科学计算的各个领域中有着十分广泛的应用,该算法具有较好的计算密集性和并行性,十分适合流处理器的计算模型。本文分别针对系数矩阵的规模大小和稠密程度,介绍了Jacobi和Seidel迭代在流处
理器上的映射。实验结果表明,迭代算法能高效地开发Imagine的计算能力,取得较高的性能加速。 相似文献
理器上的映射。实验结果表明,迭代算法能高效地开发Imagine的计算能力,取得较高的性能加速。 相似文献
8.
高性能计算技术在过去十年中不断向前发展,但片外存储、通信延迟等问题一直得不到本质改善,线延迟和功耗问题也越来越突出。高性能计算领域正在寻求能够解决这一问题的新型处理器体系结构。流处理器是在众多新兴的处理器体系结构中发展非常迅速、被学界和业界广泛关注的一种新型处理器,它在数字处理、多媒体以及图像等领域已取取得很好的效果。本文分析了当前流行的几种流处理器,指出了流体系结构在科学计算领域的应用前景和所面临的挑战。 相似文献
9.
IA-64架构是Intel公司开发出的新一代64位微处理器体系结构,它的设计思想介于传统的RISC(精简指令集计算机)和并行处理器之间,其特殊的寄存器栈机制为应用程序提供了大量可用的通用寄存器,作者对支持IA-64的编译器进行了设计和实现,过程了IA-64的寄存器结构,寄存器栈轮转做了一些深入研究,本文对比传统处理器架构中的寄存器结构,对该寄存器栈机制在编译器中实现的重要特点进行了阐述。 相似文献
10.
由于缺乏相关硬件功能,Open64编译器的软件流水技术没有面向X86处理器的版本。为此,提出一种适用于X86平台的Open64软件流水实现框架。利用软件实现处理器的部分硬件行为,通过循环过滤方法剔除不适用的循环。针对缺乏循环寄存器文件的问题,设计寄存器分配算法达到使用通用寄存器的目的,并添加模变量扩展模块以保证执行的正确性。实验结果表明,与循环展开方案相比,该框架可使系统平均获得9%的性能提升。 相似文献
11.
This paper presents a cost-effective and high-performance dual-thread VLIW processor model. The dual-thread VLIW processor model is a low-cost subset of the Weld architecture paradigm. It supports one main thread and one speculative thread running simultaneously in a VLIW processor with a register file and a fetch unit per thread along with memory disambiguation hardware for speculative load and store operations. This paper analyzes the performance impact of the dual-thread VLIW processor, which includes analysis of migrating disambiguation hardware for speculative load operations to the compiler and of the sensitivity of the model to the variation of branch misprediction, second-level cache miss penalties, and register file copy time. Up to 34 percent improvement in performance can be attained using the dual-thread VLIW processor when compared to a single-threaded VLIW processor model. 相似文献
12.
Xue-Jun Yang Yu Deng Li Wang Xiao-Bo Yan Jing Du Ying Zhang Gui-Bin Wang and Tao Tang 《计算机科学技术学报》2009,24(1):152-164
Stream Register File (SRF) is a large on-chip memory of the stream processor and its efficient management is essential for good performance. Current stream programming languages expose the management of SRF to the programmer, incurring heavy burden on the programmer and bringing difficulties to inheriting the legacy codes. SF95 is the language developed for FT64 which is the first 64-bit stream processor designed for scientific applications. SF95 conceals SRF from the programmer and leaves the management... 相似文献
13.
14.
15.
16.
研究并设计一款RISC处理器,从架构设计、电路设计、芯片后端设计多个层次保证其高性能、低功耗的特点.在架构设计层面,通过扩展寄存器堆来提升数据交互的局部性并降低对存储器的访问次数.在电路设计层面,利用动态门控时钟技术对乘除法模块和寄存器堆进行高效的时钟控制.在芯片后端设计层面,分析并比较TSMC 65 nm中GP和LP 2种工艺库,采用多阈值设计流程进一步提高处理器的速度并降低功耗.测试结果表明,与其他平台下的性能结果相比,该处理器可以将RS前向纠错解码算法的吞吐率提高4倍~70倍. 相似文献
17.
Software and Hardware Techniques to Optimize Register File Utilization in VLIW Architectures 总被引:1,自引:0,他引:1
Javier Zalamea Josep Llosa Eduard Ayguadé Mateo Valero 《International journal of parallel programming》2004,32(6):447-474
High-performance microprocessors are currently designed with the purpose of exploiting instruction level parallelism (ILP). The techniques used in their design and the aggressive scheduling techniques used to exploit this ILP tend to increase the register requirements of the loops. This paper reviews hardware and software techniques that alleviate the high register demands of aggressive scheduling heuristics on VLIW cores. From the software point of view, instruction scheduling can stretch lifetimes and reduce the register pressure. If more registers than those available in the architecture are required, some actions (such as the injection of spill code) have to be applied to reduce this pressure, at the expense of some performance degradation. From the hardware point of view, this degradation could be reduced if a high-capacity register file were included without causing a negative impact on the design of the processor (cycle time, area and power dissipation). Novel organizations for the register file based on clustering and hierarchical organization are necessary to meet the technology constraints. This paper proposes the used of a clustered organization and proposes an aggressive instruction scheduling technique that minimizes the negative effect of the limitations imposed by the register file organization. 相似文献