期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

漆锋滨姜军王超《计算机应用与软件》2009,26(8):130-132

寄存器分配技术是编译器最为关键的优化技术之一.反馈式编译优化是一种基于程序当前和以前运行时的趋势来改变程序以后执行动作的技术,它能够提供给寄存器分配一些有用的优化信息.在分析Open64编译器反馈式编译优化技术的基础上,基于ALPHA结构实现和扩展了反馈式编译优化在寄存器分配中的应用,获得了较好的优化性能. 相似文献

2.

C/C~(++)程序的运行时优化研究

朱晓珺李冬梅《软件导刊》2009,(4)

由于受限于编译时所见的信息和缺乏精确的输入数据集和目标机信息,编译器为了保持程序正确性和避免性能降级必须做出保守的假设,往往得不到最佳性能。为了克服静态优化的不足,在研究java虚拟机中运行时优化技术的基础上,结合LLVM编译器架构,阐述了面向C/C++程序的运行时优化技术。相似文献

3.

基于VLIW的机器相关优化编译技术研究 总被引：2，自引：0，他引：2

张嗣元晏海华王雷《计算机工程与应用》2003,39(2):87-90

VLIW体系结构性能的发挥在很大程度上依赖于其相应的编译器。编译优化主要包括两个方面:一方面是传统的编译器优化技术;另一方面是针对具体机器平台特定的优化技术。VLIW机器相关的编译优化技术应该针对具体的机器平台,基于超长指令字体系结构的特点,考虑如何充分利用机器提供的硬件资源,以达到软件(编译器)和硬件(CPU)的最大匹配,从而生成高效率高并行度的目标代码。论文从超长指令字的特点出发,探讨了在VLIW体系结构下与机器相关的编译优化的实现方案,同时提出了几点在具体进行与机器相关的优化编译时的关键技术。相似文献

4.

基于地址空间标识符的QEMU动态跳转优化

位金弈梁洪亮《计算机系统应用》2022,31(9):15-23

随着硬件技术的不断演进和软件需求的持续增长, 人们对以QEMU为代表的指令集架构仿真平台的执行性能提出了更高的要求. 本文针对目标架构支持虚拟内存的场景, 分析了QEMU现有动态跳转处理机制及其存在的问题, 根据常见虚拟内存系统的特点提出了基于地址空间标识符的动态跳转优化方案, 并以RISC-V为目标架构在QEMU主线6.2.0版本上实现了该方案. 实验表明, 相较于原生QEMU, 基于地址空间标识符的动态跳转方案提升了约12%的运行性能. 相似文献

5.

基于主体的语义Web服务自动组合研究 总被引：12，自引：3，他引：12

邱莉榕史忠植林芬常亮《计算机研究与发展》2007,44(4):643-650

语义Web服务要解决的一个主要问题就是如何实现服务组合自动化.主体技术因其智能性、自主性等特点在解决语义Web服务组合问题中具有较大优势.通过分析语义Web服务组合研究现状,分析主体、语义Web与Web服务的紧密关系,论证了基于主体的语义Web服务的可行性并描述了基于多主体的Web服务组合平台架构.介绍了基于主体技术的语义Web服务组合技术,将服务组合看成是一个多主体环境下的规划问题,给出语义Web服务作为主体动作子类的形式化定义,并针对服务组合问题增加限定条件,定义服务之间的5种关系,试图从逻辑角度,以描述逻辑为基本工具,突出服务的动态性与交互性.最后利用主体的目标规划以及基于描述逻辑的有效推理,给出了服务的自动组合算法. 相似文献

6.

GCC代码优化技术的研究

石博慧陈英《计算机技术与发展》2004,14(8)

GCC是基于Linux下的开放源码的优化编译系统,可以接收多种高级源语言,广泛支持多平台操作系统.其代码优化机制,不仅能兼顾时间、空间效率,生成高质量的目标代码,而且具有很强的可移植性与可扩充性,是编译器优化研究的目标.通过对GCC的整体结构、优化策略、优化方法与关键技术、中间语言等进行详细的剖析,抽取出完整的GCC优化体系结构.文中集中探讨了GCC的优化策略和实现技术,首先从GCC优化体系的总体规划入手,着重分析了GCC的优化组织策略,设计、引入中间代码RTL的技巧和内涵,进一步研究了GCC所涉及的控制流分析技术、数据流分析技术的实现机制. 相似文献

7.

显式并行资源计算结构及其编译优化 总被引：1，自引：0，他引：1

朱凯佳《计算机工程》2005,31(6):63-65

提出并分析了一种新的基于超长指令字(VLIW)思想的微处理器模型,该模型提供了体系结构可见的处理器内部结果寄存器和数据通路,允许优化编译器进行直接的控制和调度,并依赖编译器保证操作之间的依赖关系,以简化硬件设计并获得更高的时钟频率.基于该目标模型,构造了一个完整的优化编译和模拟环境,提出、分析并实现了相应的软件旁路优化以及集成式的资源分配与指令调度算法. 相似文献

8.

面向龙芯平台的Android系统移植研究

雷鸣靳婷徐晓亮齐锦《计算机工程与应用》2012,48(22):70-73,87

在分析Android系统与龙芯平台架构的基础上,针对软硬件适配、虚拟机优化、编译器移植等关键技术进行了深入研究。在充分保持龙芯处理器性能的基础上,对Android系统源码进行了优化修改,实现了在龙芯平台完整运行Android Gingerbread系统,同时对移植系统中的Dalvik虚拟机的性能优化进行了测试验证。为其他版本Android系统在面向龙芯平台的移植方面提供了重要参考,具有很大应用价值。相似文献

9.

基于GCC的VLIW编译系统研究 总被引：1，自引：1，他引：0

朱凯佳尹宝林《计算机工程与应用》2001,37(12):125-128

VLIW机器在单个机器周期中同时发射并执行多个的并行操作,从而获得较高的指令级并行度,这些操作之间的依赖分析和调度工作则被完全交给相应的编译器执行,因此VLIW的并行性能能否充分发挥取决于VLIW体系结构相关编译器的质量。GNU开发的GCC是被最广泛使用的编译系统之一,它具有多语言、多平台支持的能力和开放的结构,能够运用各种成熟的常规编译优化技术生成高效的代码。文章分析了VLIW及GCC的结构特点,提出了一种基于GCC的VLIW编译系统设计方案,利用GCC进行RTL中间代码一级的体系结构无关优化和少量体系结构相关优化,在汇编代码一级针对VLIW结构进行体系结构相关的优化,从而充分利用GCC的成熟编译技术快速开发高效的VLIW多语言编译系统。相似文献

10.

基于TMS320 DM8168平台的快速运动目标检测研究

谢红松董云飞罗斌汤进《计算机与现代化》2015,(7):55

研究如何在嵌入式平台上对高清视频中的运动目标进行快速、鲁棒的检测。采用德州仪器最新的达芬奇架构TMS320DM8168为平台,在高清1080P视频上实现运动目标的快速检测。采用对噪声较为鲁棒的ViBe算法进行目标检测,并将该算法移植到该平台的MCFW框架中。同时,为了提高算法性能及效率,对算法进行相关优化,包括编译器选项优化、内存相关优化、标准内联函数优化、循环优化以及DMA等。最终实现在嵌入式平台上的实时高清运动目标检测。实验结果验证了该方法的有效性。相似文献

11.

GCC代码优化技术的研究

石博慧陈英《微机发展》2004,14(8):67-70

GCC是基于Linux下的开放源码的优化编译系统，可以接收多种高级源语言，广泛支持多平台操作系统。其代码优化机制，不仅能兼顾时间、空间效率，生成高质量的目标代码，而且具有很强的可移植性与可扩充性，是编译器优化研究的目标。通过对GCC的整体结构、优化策略、优化方法与关键技术、中间语言等进行详细的剖析，抽取出完整的GCC优化体系结构。文中集中探讨了GCC的优化策略和实现技术，首先从GCC优化体系的总体规划入手，着重分析了GCC的优化组织策略，设计、引入中间代码RTL的技巧和内涵，进一步研究了GCC所涉及的控制流分析技术、数据流分析技术的实现机制。相似文献

12.

Fei Teng 64 Stream Processing System: Architecture, Compiler, and Programming

Yang Xuejun Yan Xiaobo Xing Zuocheng Deng Yu Jiang Jiang Du Jing Zhang Ying 《Parallel and Distributed Systems, IEEE Transactions on》2009,20(8):1142-1157

The stream architecture is a novel microprocessor architecture with wide application potential. It is critical to study how to use the stream architecture to accelerate scientific computing programs. However, existing stream processors and stream programming languages are not designed for scientific computing. To address this issue, we design and implement a 64-bit stream processor, Fei Teng 64 (FT64), which has a peak performance of 16 Gflops. FT64 supports two kinds of communications, message passing and stream communications, based on which, an interconnection architecture is designed for a FT64-based high-performance computer. This high-performance computer contains multiple modules, with each module containing eight FT64s. We also design a novel stream programming language, Stream Fortran 95 (SF95), together with the compiler SF95Compiler, so as to facilitate the development of scientific applications. We test nine typical scientific application kernels on our FT64 platform to evaluate this design. The results demonstrate the effectiveness and efficiency of FT64 and its compiler for scientific computing. 相似文献

13.

数据流分析的关键技术研究 总被引：2，自引：0，他引：2

汪小飞赵克佳田祖伟《计算机科学》2005,32(12):91-93

数据流分析在编译优化中起着非常关键的作用,尤其是想实现一个具有技术主动权的高性能优化编译器,对数据流分析方法的研究必不可少。本文介绍了数据流分析方法的基本概念和基本原理,介绍了数据流方程的一种解决方法。并结合GCC这个具体的编译器,简要分析了其中数据流分析的具体实现方法。相似文献

14.

AutoConfig: 面向深度学习编译优化的自动配置机制

张洪滨周旭林邢明杰武延军赵琛《软件学报》2024,35(6)

随着深度学习模型和硬件架构的快速发展,深度学习编译器已经被广泛应用.目前,深度学习模型的编译优化和调优的方法主要依赖基于高性能算子库的手动调优和基于搜索的自动调优策略.然而,面对多变的目标算子和多种硬件平台的适配需求,高性能算子库往往需要为各种架构进行多次重复实现.此外,现有的自动调优方案也面临着搜索开销大和缺乏可解释性的挑战.为了解决上述问题,本文提出了AutoConfig,一种面向深度学习编译优化的自动配置机制.针对不同的深度学习计算负载和特定的硬件平台,AutoConfig可以构建具备可解释性的优化算法分析模型,采用静态信息提取和动态开销测量的方法进行综合分析,并基于分析结果利用可配置的代码生成技术自动完成算法选择和调优.本文创新性地将优化分析模型与可配置的代码生成策略相结合,不仅保证了性能加速效果,还减少了重复开发的开销,同时简化了调优过程.在此基础上,本文进一步将AutoConfig集成到深度学习编译器Buddy Compiler中,对矩阵乘法和卷积的多种优化算法建立分析模型,并将自动配置的代码生成策略应用在多种SIMD硬件平台上进行评估.实验结果验证了AutoConfig在代码生成策略中有效地完成了参数配置和算法选择.与经过手动或自动优化的代码相比,由AutoConfig生成的代码可达到相似的执行性能,并且无需承担手动调优的重复实现开销和自动调优的搜索开销. 相似文献

15.

PCC中数组边界检查的优化和生成

胡荣贵陈意云郭帆张昱《小型微型计算机系统》2003,24(12):2278-2282

PCC的数组边界检查存在着由于无法确定数组下标表达式符号值的范围，而造成拒绝执行一些安全的移动代码等问题。本文给出的一种数组边界检查的优化及生成算法，不仅能够比较好地解决了这一问题，同时还生成了循环不变式注解中的条件谓词。我们设计的编译器——认证编译器——已经实现了这些算法，并完成了从用C编程语言的类型安全子集编写的源程序到携带注解的Intelx86／linux汇编语言程序的编译过程。由于基于语言安全策略系统的证明是建立在携带注解的代码基础之上的，因此该认证编译器中实现的算法在移动代码安全检查中非常有用。相似文献

16.

The Implementation of a High Performance GPGPU Compiler

Yi Yang Huiyang Zhou 《International journal of parallel programming》2013,41(6):768-781

In this paper we present our experience in developing an optimizing compiler for general purpose computation on graphics processing units (GPGPU) based on the Cetus compiler framework. The input to our compiler is a naïve GPU kernel procedure, which is functionally correct but without any consideration for performance optimization. Our compiler applies a set of optimization techniques to the naive kernel and generates the optimized GPU kernel. Our compiler supports optimizations for GPU kernels using either global memory or texture memory. The implementation of our compiler is facilitated with a source-to-source compiler infrastructure, Cetus. The code transformation in the Cetus compiler framework is called a pass. We classify all the passes used in our work into two categories: functional passes and optimization passes. The functional passes translate input kernels into desired intermediate representation, which clearly represents memory access patterns and thread configurations. A series of optimization passes improve the performance of the kernels by adapting them to the target GPGPU architecture. Our experiments show that the optimized code achieves very high performance, either superior or very close to highly fine-tuned libraries. 相似文献

17.

龙芯3A多核处理器系统级性能优化与分析

孟小甫高翔从明张爽爽《计算机研究与发展》2012,(Z1):137-142

多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还要结合处理器特性产生高效运行的代码,其性能好坏直接影响着系统的整体性能.为了提高龙芯3A系统的实际性能,从操作系统和编译器着手,结合龙芯3A微结构特征,进行了一系列有效的优化.这些措施包括CC-NUMA多核操作系统的实现、操作系统二级Cache锁机制、操作系统调度共享二级Cache分配、自动向量化编译和支持预取机制的编译等.实验结果表明,在系统软件中增加对处理器特性的支持,能够充分挖掘体系结构的优势,对系统性能有较大的好处.其性能优化技术对于其他处理器的优化也有一定的借鉴价值. 相似文献

18.

Integrating Parallelizing Compilation Technologies for SMP Clusters

下载免费PDF全文

Xiao-BingFeng LiChen Yi-RanWang Xiao-MiAn LinMa Chun-LeiSang Zhao-QingZhang 《计算机科学技术学报》2005,20(1):0-0

In this paper, a source to source parallelizing compiler system, AutoPar, is presentd. The system transforms FORTRAN programs to multi-level hybrid MPI/OpenMP parallel programs. Integrated parallel optimizing technologies are utilized extensively to derive an effective program decomposition in the whole program scope. Other features such as synchronization optimization and communication optimization improve the performance scalability of the generated parallel programs, from both intra-node and inter-node. The system makes great effort to boost automation of parallelization. Profiling feedback is used in performance estimation which is the basis of automatic program decomposition. Performance results for eight benchmarks in NPB1.0 from NAS on an SMP cluster are given, and the speedup is desirable. It is noticeable that in the experiment, at most one data distribution directive and a reduction directive are inserted by the user in BT/SP/LU. The compiler is based on ORC, Open Research Compiler. ORC is a powerful compiler infrastructure, with such features as robustness, flexibility and efficiency. Strong analysis capability and well-defined infrastructure of ORC make the system implementation quite fast. 相似文献

19.

BWDSP104X多条件谓词编译优化

韩东科郑启龙张仁高《计算机系统应用》2018,27(1):201-205

目前BWDSP104X编译器对程序中条件分支的处理是采用传统的谓词优化方法,及每条指令和一个谓词相关,只有当谓词为真时指令才被执行,但它存在的局限性是当涉及到多条件谓词时,并不能消除跳转分支,且多条件谓词之间可能存在控制依赖关系,不利于指令并行和指令流水. 因此在现有编译器框架下,针对传统谓词优化方法的不足之处,本文提出一种基于BWDSP104X体系结构下多条件谓词编译优化方法. 实验结果表明,与传统谓词优化方法相比,该优化算法在BWDSP104X编译器上能够取得平均5.62的加速比. 相似文献