排序方式: 共有42条查询结果,搜索用时 15 毫秒
1.
本文深入分析了GCC4.1的数据依赖分析器,针对它在分析Fortran程序的线性化数组访问时的不足,给出了两点改进:一是初步实现了一个非仿射数组下标依赖分析算法;二是提出并实现了分裂递归链的仿射数组下标数据依赖分析方法。实验表明,这两点改进增强了GCC4.1的数据依赖分析能力,为进行循环变换如循环交换提供了更准确的数据依赖信息。 相似文献
2.
3.
4.
5.
线性系统求解中迭代算法的GPU加速方法 总被引:1,自引:0,他引:1
在求解线性系统时,迭代法是一种基本的方法,特别是在系数矩阵为大规模稀疏矩阵的情况下,高效地使用迭代法求解变得十分重要。本文通过分析迭代法的一般特点,提出了使用具有强大计算能力和存储带宽的GPU加速迭代法的一般方法。利用这些方法,在两种主流GPU平台上实现了一个经典的迭代法PQMRCGSTAB,并且针对不同的GPU平台特点提出了具体的优化方法。与AMD Opteron 2.4GHz 4核处理器相比,双精度版本的PQMRCGSTAB算法经NVIDIA Tesla S1070加速后性能提高31倍,经AMD Radeon HD 4870 X2加速后性能提高9倍。 相似文献
6.
许多程序设计语言,如:Pascal、Modula-2、Smlltalk-80和Ada都允许定义嵌套函数,嵌套函数便于模块化程序设计[1],它能保证只被某个函数使用的一些函数和变量局部于该函数。在标准C里,这种模块性只能出现在文件级:函数标识符的作用域通过加static说明来把它约束到文件级,由几个函数共享的变量标识符的作用域也必须包含在至少一个编译单元中,因为它必须声明为全局级变量。为了克服这个弱点,GNUC语言扩充了嵌套函数[2],GNUC编译系统采用“trampolines”的技术来实现嵌套函数、本文将介绍GNUC中嵌套函数的语法,结合MISPSR3000机器平台分析嵌套函数的编译实现技术,并从GNUC编译系统中把与处理嵌套函数相关的宏定义、源文件以及函数提取出来作简要分析。 相似文献
7.
科学计算中的许多领域都需要快速而精确地计算超越函数,即exp、log、sin、tan等此类函数。本文采用表驱动算法,结合IA-64体系结构特点,在GCC中优化实现了指数函数(exp),提高了GCC编译器在IA-64系统上的浮点性能,为在IA-64和其它平台上高效实现所有超越函数打下了基础。 相似文献
8.
9.
10.
图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有效发挥受访存效率的强烈影响。因此GPU程序的访存行为分析及优化一直是GPU相关领域的研究热点,但很少有工作从体系结构的角度分析存储层次的设计对性能的影响。为了更好地指导GPU存储层次的设计和访存优化,从实验的角度详细地分析了GPU各存储层次对程序性能的影响,并总结出若干指导性的优化策略,为未来类似体系结构的存储层次设计和程序优化提供建议。 相似文献