首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
对间接存储器的访问延迟往往会影响应用程序的执行性能, 一种有效的解决方案是使用预取技术. 国产申威平台中支持常规访问模式的软件预取和硬件预取机制, 但是其GCC编译器中缺少为间接存储器访问模式自动插入预取的方法. 为了解决这个问题, 基于申威GCC开发了一个完整间接预取优化遍, 它利用深度优先搜索算法查找引用循环归纳变量的间接内存引用并为之生成合适的软件预取. 在一组内存受限的基准测试中, 自动预取遍对SW1621处理器的平均加速比达到1.16倍.  相似文献   

2.
处理器存储系统的效率对其整体性能有着十分重要的作用.文中介绍了P4处理器内存的体系结构,它包括一级数据Cache、二级Cache、Trace Cache;各部分完成的功能以及为提高命中率和降低存取时间,从而提高效率而采取的预取处理机制;P4处理器主要采取具有层次结构的内存设计、大容量的二级Cache和在跟踪Cache中采用预取处理机制的方法来提高Cache的命中率和降低未命中的代价来缩短处理器的访问时间,最终达到提高处理器整体性能的目的.  相似文献   

3.
硬件数据预取技术可以有效提升处理器的访存性能,是申威处理器性能优化过程中亟需突破的一项技术。硬件开销和处理器架构的制约是硬件预取技术实现中的主要难点。借鉴学术界对硬件预取技术的研究成果和工业界的应用现状,紧密结合申威处理器的结构特点,研究了申威处理器硬件预取技术的实现方法。以流预取为例,在处理器核心面积增加0.97%的情况下,硬件预取技术的应用可以将目前申威处理器的整数性能平均提升5.17%,最高提升28.88%;浮点性能平均提升6.39%,最高提升30.11%。  相似文献   

4.
流处理器上基于参数模型的长流分段技术   总被引:1,自引:1,他引:0  
杜静  敖富江  唐滔  杨学军 《软件学报》2009,20(9):2320-2331
长流分段是提高流处理器上流寄存器文件(stream register file,简称SRF)带宽利用率的重要途径之一.其中,量化受段大小影响的程序运行时间是获得最优分段的关键.为此提出了一种基于参数模型的长流分段技术,旨在获得理论上的最优分段以最小化程序运行时间.首先,建立了一个预取和重用优化指导的参数模型,以反映段大小对流处理器上程序性能的影响.然后,基于该模型分析,分别研究了计算密集型程序和访存密集型程序的最优分段策略.最后提出一种面向任意程序的最优分段技术.实验结果表明,该长流分段技术能够有效地避免和隐藏片外访存延迟,从而充分开发流处理器强大的计算能力.  相似文献   

5.
内存数据库在TPC-H负载下的处理器性能   总被引:2,自引:1,他引:1  
刘大为  栾华  王珊  覃飙 《软件学报》2008,19(10):2573-2584
Ailamaki等人1999年研究了数据库管理系统(database management system,简称DBMS)在处理器上的时间开销分解.此后,相关研究集中在分析DBMS在处理器上的瓶颈.但这些研究工作均是在磁盘数据库DRDBs(disk resident databases)上开展的,而且都是分析DBMS上的TPC-C类负载.然而,随着硬件技术的进步,现代计算机的多级缓存结构(memory hierarchy)在逐渐地"上移".例如,容量越来越大的芯片内缓存(on-chip caches)和芯片外缓存(off-chip caches),容量越来越大的RAM,Flash Memory等等.为此,处理器负载分析的研究工作也应随之"上移".研究内存数据MMDBs(mainmemory resident databases)在计算密集型负载下的处理器行为特性.由于磁盘数据库的主要性能瓶颈是磁盘I/O,因而可以用索引、压缩等技术进行优化;然而,内存数据库的性能瓶颈却在于处理器和内存之间的数据交换.针对这一问题,首先分析了磁盘数据库和内存数据库在TPC-H负载下处理器性能瓶颈的差异,并给出了一些优化建议,提出了通过预取的优化方法.其次,通过实验比较了不同存储体系结构(行存储与列存储)对处理器利用率的差异,并探索了下一代内存数据库体系结构方面的解决方案.此外,还研究了索引结构对处理器多级缓存的影响,并给出了索引的优化建议.最后,提出一个微测试集用于评估内存数据库在DSS(decision support system)负载下处理器的性能及行为特性.研究结果会对运行于下一代处理器上的内存数据库体系结构设计和性能优化提供一定的实验依据.  相似文献   

6.
Pentium4处理器的内存层次分析   总被引:2,自引:0,他引:2  
吴金  齐欢 《微机发展》2004,14(7):47-48,51
处理器存储系统的效率对其整体性能有着十分重要的作用。文中介绍了P4处理器内存的体系结构,它包括一级数据Cache、二级Cache、Trace Cache;各部分完成的功能以及为提高命中率和降低存取时间,从而提高效率而采取的预取处理机制;P4处理器主要采取具有层次结构的内存设计、大容量的二级Cache和在跟踪Cache中采用预取处理机制的方法来提高Cache的命中率和降低未命中的代价来缩短处理器的访问时间,最终达到提高处理器整体性能的目的。  相似文献   

7.
褚瑞  卢锡城  肖侬 《软件学报》2006,17(11):2234-2244
内存网格(RAM(random access memory) grid)是一种面向广域网上内存资源共享的新型网格系统.它的主要目标是在物理内存不足的情况下,提高内存密集型应用或IO密集型应用的系统性能.内存网格的应用效果取决于网络通信开销.在减少或隐藏网络通信开销的情况下,其性能可以进一步提高.通过对内存网格的分析,设计了一种基于"推"数据的内存网格预取机制.借助数据挖掘领域中序列模式挖掘的方法,提出了相应的预取算法.通过基于真实运行状态的模拟,对预取算法进行了评估和验证.  相似文献   

8.
在Linux环境下设计并实现了一个两级服务结构的网络内存系统(LNMS)。LNMS较传统网络内存系统具有更好的可扩展性。对LNMS提出了两种性能优化技术:预取和主动内存技术。在预取优化方面,针对并发应用提出一种M-PPM算法。主动内存技术则发掘了内存服务器的计算能力。实验表明,两种优化技术可有效地提升网络内存系统的性能。  相似文献   

9.
多线程处理器的推广受限于应用,目前大部分应用尤其是桌面应用都是单线程程序,不能充分利用多线程处理器提供的多个现场,并行执行以提高速度.使用空闲现场加速单线程应用是目前研究的一个热点,研究主要集中在提高传统串行应用存储访问的效率和分支预测的精度.在基于线程的数据预取方法TDP中,数据预取线程是从主线程的执行踪迹中提取的,它们使用空闲的现场,和主线程并行执行.由于数据预取线程仅仅包括和预取相关的指令,它们比主线程执行要快,可以在主线程需要数据之前,把数据取到离处理器更近的存储层次.基于线程的数据预取方法能够有效地解决传统数据预取方法难以处理的诸多问题,如不规则内存访问模式.研究控制相关对TDP的影响,具体分析使用错误前瞻的数据预取方法:通过在预取线程中加入分支指令,并用它们控制预取线程的执行过程.通过研究发现,在某些情况下即使控制前瞻已经被证实是错误的,继续执行预取线程可以获得更好的预取效果.模拟结果显示,使用错误前瞻可以获得5%的性能提升.  相似文献   

10.
针对现代计算机系统中的存储墙问题,提出一种适合于链式数据结构的数据预取方法——纯遍历推送方法。采用基于共享高速缓存的多核处理器平台CMP上的多线程技术,在主程序运行时分离出一个推送线程,由其将主线程需要的数据提前预取至处理器共享高速缓存中以隐藏主线程的存储器延迟。实验结果证明该方法在CMP架构下对以链式结构为主的内存受限程序的性能有一定的改进。  相似文献   

11.
网络Cache技术研究   总被引:2,自引:0,他引:2  
We describe the cache technology based on temporal locality ,spatial locality and geographicallocality,and propose the principles and methods to build the cache system.  相似文献   

12.
给出与平台无关的局部性量化方法,从空间局部性和时间局部性2个角度,量化SPEC2000测试基准程序,以及这些程序的数据段、代码段和堆栈段。时间和空间局部性组成的二维局部性分布直观地展示了基准测试程序的局部性。实验结果表明,程序数据局部性主要由堆段的局部性决定,堆段的局部性最差,栈的局部性最优。  相似文献   

13.
本文对近年来提出的局部保留映射(LPP)算法和判别局部保留映射(DLPP)算法思想进行了详细介绍,设计并完成了基于LPP和DLPP算法在掌纹识别中识别结果的对比实验。实验结果对基于这两种算法的掌纹识别方法给予数据支持,而且说明DLLP算法要优于LPP算法。  相似文献   

14.
为了解决雷达数据处理系统数据量日益增大,计算能力逐渐不足的问题,提出两种并行处理方法。第一种方法是对数据处理各步骤中的循环采用多个线程并行处理,属于细粒度并行;第二种方法是根据雷达数据的局部性特征,把雷达探测空域按照径向距离划分成多个部分,由多个子任务并行处理,属于粗粒度并行。实验结果显示,4线程细粒度并行雷达数据处理架构性能是原来的3倍,4任务粗粒度并行架构性能是原来的5倍,证明并行处理技术在雷达数据处理中的有效性,并且任务级的粗粒度并行架构更适合雷达数据处理。  相似文献   

15.
已有有意义串发现算法对于大规模语料中频繁出现的有意义串发现效果较好,而对于语料规模小,或者出现频次较低的有意义串识别效果不够理想。根据章回小说有意义串出现的特点,提出有意义串的局部性原理,并给出了字符串局部性的有效度量方式。将字符串的局部性和语用独立性结合起来,使用局部性和独立性共同描述字符串为有意义串的可能性。实验结果表明:该方法对于章回小说有意义串发现的准确率高于已有方法,同时能够更有效地发现较多的低频有意义串。  相似文献   

16.
可重用本体模块的抽取是本体重用的一个关键环节.与传统工程应用中使用的基于本体层次的结构化方法抽取本体模块相比,使用逻辑的方法能充分利用本体提供的语义信息,抽取的本体模块更具完整性和正确性.在研究保守扩展的本体模块理论基础上,根据Grau B C提出的()本地性规则,提出并证明了描述逻辑()对应的语义本地性规则和句法本地性规则,为基于该规则抽取可重用本体模块提供了理论基础.  相似文献   

17.
基于线性表出的非奇异循环变换局部性优化方法   总被引:1,自引:0,他引:1  
夏军  戴华东  杨学军 《计算机学报》2003,26(12):1609-1620
开发程序的局部性是当今并行编译优化研究的重点之一,而程序变换是开发程序时间局部性和空间局部性的重要手段之一.该文提出了一种新的利用非奇异循环变换来优化程序局部性的局部性优化方法,即基于线性表出的循环变换.该方法利用一组最少的线性无关向量组来线性表出数组访问的下标表达式,并据此构造非奇异变换矩阵来优化数组访问的时间局部性和空间局部性.该方法能充分开发数组访问的时间局部性,能简便地确定是否能对数组访问进行时间局部性或空间局部性优化,并能对给定的嵌套循环同时进行时间局部性和空间局部性优化.实验结果表明了该文所提出的基于线性表出的非奇异循环变换局部性优化方法是有效的.  相似文献   

18.
一种基于Schur分解的正交鉴别局部保持投影方法   总被引:2,自引:0,他引:2       下载免费PDF全文
人脸识别是模式识别领域中的一项重要的研究课题。到目前为止,已经提出了许多方法来处理人脸的识别问题。最近,许多流形学习算法被提出并且成功地应用于人脸识别当中。这些流形学习方法能够保持人脸图像数据的局部结构,同时,还可以发现人脸的非线性结构。在这些流形学习方法中,局部保持投影方法(LPP)是最有效的方法之一。基于LPP方法,提出了一种新的人脸识别方法——基于Schur分解的正交鉴别局部保持投影方法(ODLPPS)。与LPP方法相比,ODLPPS 把类间散度与类内散度之差的信息融入到LPP的目标函数中并且获得了正交的基向量。在ORL和Yale 人脸数据库上的实验结果表明,该方法在识别性能上优于一些已经存在的方法,如eigenface,Fisherface,LPP 和orthogonal LPP(OLPP)。  相似文献   

19.
一种 新的Cache优化方法—部分Cache局部性方法   总被引:5,自引:0,他引:5  
Cache的性能优化在高性能计算中起着非常重要的作用。传统的Cache优化方法存在着一些缺陷。本文分析RISC处理器的特点的基础 上,提出了“部分cache方法。实践表明,该方法有很好的优化效果,且易实于实现。  相似文献   

20.
Microprocessor speed has been growing exponentially faster than memory system speed in the recent past. This paper explores the long term implications of this trend. We define scalable locality, which measures our ability to apply ever faster processors to increasingly large problems (just as scalable parallelism measures our ability to apply more numerous processors to larger problems). We provide an algorithm called time skewing that derives an execution order and storage mapping to produce any desired degree of locality, for certain programs that can be made to exhibit scalable locality. Our approach is unusual in that it derives the transformation from the algorithm's dataflow (a fundamental characteristic of the algorithm) instead of searching a space of transformations of the execution order and array layout used by the programmer (artifacts of the expression of the algorithm). We provide empirical results for data sets using L2 cache, main memory, and virtual memory.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号