共查询到20条相似文献,搜索用时 15 毫秒
1.
随着通用图形处理器在高性能计算领域的广泛应用,新的并行执行模式被提出。在新模式下,当前的存储调度策略未能使存储器的吞吐率达到最大。分析了图形处理器上多程序并行执行模式下应用程序访存行为特征及其性能损失不公平的原因,提出了一种基于访存行为感知的存储调度策略,利用不同程序类型的优势进行优先级调度。实验表明,该方法能够明显改善不同类型程序间性能损失不均衡的问题,相比基准结构对所有测试程序的存储系统吞吐率和公平性分别有平均9.7%和15.0%的提升。 相似文献
2.
面向嵌入式系统的优化编译器生成器设计 总被引:3,自引:0,他引:3
给出了一种编译器生成器的设计原理,利用编译器生成器可以迅速生成面向某种指令系统和机器特征,并且能够对输出代码进行自动紧凑的编译器。 相似文献
3.
面向嵌入式系统的优化编译器生成器设计 总被引:4,自引:0,他引:4
构造嵌入式系统是一个硬件软件的协同设计问题 .嵌入式软件的有效开发需要相应编译器的支持 .由于嵌入式系统存储空间有限 ,所以编译器生成的机器代码必须非常紧凑 .我们可以使用编译器的生成器来提高编译器的开发效率 .本文给出了一种编译器生成器的设计原理 ,利用该编译器生成器可以迅速生成面向某种指令系统和机器特征 ,并且能够对输出代码进行自动紧凑的编译器 相似文献
4.
异构众核架构具有超高的能效比, 已成为超级计算机体系结构的重要发展方向. 然而, 异构系统的复杂性给应用开发和优化提出了更高要求, 其在发展过程中面临好用性和可编程性等众多技术挑战. 我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro. 为了发挥新一代众核处理器的性能优势, 支撑新兴科学计算应用的开发和优化, 设计并实现面向SW26010Pro平台的优化编译器swLLVM. 该编译器支持Athread和SDAA双模态异构编程模型, 提供多级存储层次描述及向量操作扩展, 并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化. 测试结果表明, 所设计并实现的编译优化效果显著, 其中, 控制流向量化和节点合并优化的平均加速比分别为1.23和1.11, 而访存相关优化最高可获得2.49倍的性能提升. 最后, 使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估, 相较于SWGCC的相同优化级别, swLLVM整型课题性能平均下降0.12%, 浮点型课题性能平均提升9.04%, 整体性能平均提升5.25%, 编译速度平均提升79.1%, 代码尺寸平均减少1.15%. 相似文献
5.
本文以Microsoft C为例详细讨论了C编译器的存储模式及相关概念,这些概念对于应用程序的开发具有非常重要的意义。 相似文献
6.
国防科技大学自主研制的高性能加速器采用中央处理器(CPU)+通用数字信号处理器(GPDSP)的片上异构融合架构,使用超长指令集(VLIW)+单指令多数据流(SIMD)的向量化结构的GPDSP是峰值性能主要支撑的加速核。主流编译器在密集的数据计算指令排布、为指令静态分配硬件执行单元、GPDSP特有的向量指令等方面不能很好地支持高性能加速器。基于低级虚拟器(LLVM)编译框架,在前寄存器分配调度阶段,结合峰值寄存器压力感知方法(PERP)、蚁群优化(ACO)算法与GPDSP结构特点,优化代价模型,设计支持寄存器压力感知的指令调度模块;在后寄存器分配阶段提出支持静态功能单元分配的指令调度策略,通过冲突检测机制保证功能单元分配的正确性,为指令并行执行提供软件基础;在后端封装一系列丰富且规整的向量指令接口,实现对GPDSP向量指令的支持。实验结果表明,所提出的LLVM编译架构优化方法从功能和性能上实现了对GPDSP的良好支撑,GCC testsuite测试整体性能平均加速比为4.539,SPEC CPU 2017浮点测试整体性能平均加速比为4.49,SPEC CPU 2017整型测试整体性能平均... 相似文献
7.
为了评估数据并行(DLP)应用并行化后在GPU体系结构上的执行性能,针对OpenCL架构提出一种GPGPU量化性能模型.该模型充分考虑了影响GPGPU程序性能的各种因素:全局存储器访问、局部存储器访问、计算与访存重叠、条件分支转移和同步.通过对DLP应用的静态分析并设定具体的OpenCL执行配置,在无需编写实际GPGPU程序的前提下采用该模型即可估算出DLP应用在GPU体系结构上的执行时间.在AMD RadeonTM HD 5870 GPU和NVIDIA GeForceTM GTX 280 GPU上对矩阵乘法与并行前缀和的分析与实验结果表明:该性能模型能够相对准确地评估DLP应用并行化后的执行时间. 相似文献
8.
图形处理器(GPU)的高性价比吸引了越来越多的科学计算.和图形应用相比,科学计算程序存在纷杂的数据依赖和不规则访问,影响其在GPU上的执行性能.为此,提出一种面向GPU体系结构的程序重构方法.通过计算重构增大程序的可并行性和计算密集性,改善GPU上计算资源的利用率.通过数据重构消除程序中的不规则数据访问,使用向量数据类型提高程序的存储带宽.实验结果表明:文中提出的优化方法减少了程序在GPU上的执行时间,获得了1.17 ~8.91倍的加速比. 相似文献
9.
为提高云存储的访问速率并降低费用,提出了一种面向费用优化的云存储缓存策略。利用几乎免费的局域网环境下的多台桌面计算机,在本地建立一个分布式文件系统,并将其作为远端云存储的缓存。进行文件读取时,首先查找其是否在缓存中,若存在则直接从缓存读取;若不存在则从远端云存储读取。采用了最近最少使用(LRU)算法进行缓存替换,将冷门数据从缓存中替换掉。以亚马逊简单存储服务(S3)作为远端的云存储服务,对原型系统进行了简单的性能测试。测试结果表明,使用了所提出的缓存策略后,在降低费用的同时能够显著提高文件读取的速度。 相似文献
10.
11.
对大容量数据存储和快速读写的需求与计算机网络技术的发展,使得网络化存储系统成为网络服务器系统中I/O子系统研究的热点,作为网络存储系统的关键部件,对分布式文件系统的研究具有非常重要的意义.目前开源社区提供了KFS、moosefs、Fast DFS、TFS、GFS[1]等多款分布式文件系统,其中多数提供了基于Linux操作系统的API或者存储网关,却没有提供Windows版的存储网关.主要对分布式文件系统Windows版存储网关的设计框架和思路进行介绍与分析,并实现了一个基于HDFS的Windows版分布式文件系统的存储网关程序dfsclient. 相似文献
12.
针对多核处理器的特点,文章提出了一个符合MySQL接口标准的并行存储引擎MTPower.该存储引擎着重利用多核处理器的并行计算能力提升批量插入过程中的索引产生过程,主要包含存储引擎接口、并行批量线性Hash索引、并行批量B+树插入、支持并行访问的磁盘存储缓冲等部分.测试结果表明,在批量插入记录且需要创建Hash和B+树索引时,MTPower的性能比经典的单线程存储引擎MyISAM最高可以提高6.1倍和4.8倍;在系统中线程总数略大于处理器核数时,MTPower可以达到最佳性能;在处理器核的数量增加时,MTPower的性能也能随之提高. 相似文献
13.
提出一种数据Cache片上可重构存储系统,将程序不同阶段利用率低的数据Cache配置为SPM(scratch-pad memory),将访问频繁/冲突严重的数据页映射到SPM,动态降低能耗.在数据Cache要求提高时,再将SPM配置为Cache,提高Cache命中率.利用程序基本块向量法监测、区分程序不同阶段,建立数据Cache数学模型,基于程序运行阶段和时间域分割的Cache相变图统计数据页使用情况,决定放入SPM的数据页.仿真实验结果显示,采用所提出的片上可重构存储系统后,8KB4、16KB4和32KB4路关联Cache,平均能耗分别降低10.15%、11.35%和12.45%,系统性能明显提升. 相似文献
14.
刘静 《计算机光盘软件与应用》2012,(12):75+77
在现代社会中,科学科技水平发展迅速,人们进行不断创新很大程度上是为了提高工作效率,本文介绍了计算机领域中的嵌入式多核处理器优化问题,目前市场上用的比较多的是双核和四核的CPU,而六核的CPU也已经面世多时,所以在多处理机上编写、运行并行程序也变得相当普遍,如何充分认识与利用嵌入式多核的并行计算效率已经成为目前计算机研究的一个重点工作。 相似文献
15.
文献[2]针对ROLAP提出的多维层次聚簇存储模式(MHC),极大地提高了查询效率。然而与ROLAP相比,MOLAP往往具有更高的存储效率和查询效率。这让人自然地联想到:如果能构造一个集二者优点为一身的混合型OLAP系统,以实现MHC,也许能进一步提高系统性能。作为这一设想的探索性研究,本文利用ORDBMS的可扩展性实现了这一原形系统:多维数据按维层次分块聚簇,其中每个分块以数组ADT存储,分块间以B^+树索引聚簇。实验表明,本文提出的MHC实现能有效减少存储空间,进一步提高查询性能。 相似文献
16.
Co-Array Fortran(CAF)已经成为Fortran语言标准的一部分,在科学计算领域逐渐被接受。基于软件共享存储实现了一个CAF编译器,其通过直接的数组赋值实现Co-array数据通信,利用数据垫塞技术提高数据局部性,减少伪共享,优化CAF程序性能。典型科学计算程序测试表明,CAF能够获得和MPI相当的性能。 相似文献
17.
18.
该文提出了一种用于微处理器体系结构级测试程序自动生成的约束描述语言,并设计实现了该语言的编译器,详细介绍了语言特性以及为了生成合法体系结构级测试程序,编译器所做的特殊处理。最后给出了利用该语言对DLX微处理器进行验证的实验和结果。 相似文献
19.
阐述接口定义语言(IDL)编译器在CORBA开发模型中的作用.提出了IDL编译器的开发模型,讨论了在编译器实现过程中的技术问题. 相似文献
20.
共享内存结构上的程序自动并行化通常实现循环级并行,采用fork-join执行模式,并行性能有待提高。论文结合fork-join和SPMD两种执行模式的优势,在并行化编译过程中通过并行区合并和扩展,实现fork-join和SPMD混合执行模式,并在SPMD并行区中实现了基于跨处理器相关图的barrier同步优化。分析验证表明,这些优化策略减少了并行区和barrier同步的数目,有效地提高了生成并行程序的性能。 相似文献