首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
基于投影分层技术的嵌套循环空间局部性优化方法   总被引:3,自引:0,他引:3  
从数据访问轨迹入手,探讨了利用数据变换来改善数据访问局部性的本质,提出了一种新的优化数据访问的投影分层技术以及基于它的数据变换框架.该框架主要利用投影技术来优化数据访问的空间局部性,并同时利用数据分层技术来解决因投影而带来的数据重叠问题.该数据变换框架不仅能处理仿射数组下标,而且还能处理许多非仿射的更复杂的数组下标,同时它还能简单直接地确定数据元素的最优存储布局以及优化数据访问的数据变换短阵,并能使访问间距尽量小.实验结果表明它是有效的.  相似文献   

2.
在IA-64架构Itanium2处理器上,应用gprof和pfmon对二维非线性对流扩散方程求解程序源代码进行了性能测试.在分析给定程序的数据结构,子过程调用关系,重点子程序中循环体的迭代空间、数据空间、访同轨迹,输入输出数据量大小和程序结构等的基础上,应用子过程合并、循环变换、分支消除、循环顺序逆转、数组一维结构化为二维结构、输入参数给定等方法,改善了数据访问的时空局部性,程序性能有15%的提高.  相似文献   

3.
利用U模变换增加并行粒度与改善数据访问局部性的方法   总被引:3,自引:0,他引:3  
提出了一种利用循环变换增加循环并行粒度,改善循环数据访问局部性的方法,该方法利用了给定二重循环的相关向量集的某些性质,将外层循环变量不同而内层循环变量相等的若干次迭代合并,成为折叠后迭代空间的一个结点,并且保持内层循环的并行性不变,从而达到增加循环并行粒度的目的。对于更普遍的情况,该文讨论了如何根据给定循环的循环向量集,确定一个U模变换对迭代空间进行变换,达到内层循环可并行和扩大循环粒度两个目的,针对循环变换中数据访问局部性可能变差的问题,该文提出了对内层循环先合并,根据合并后的相关向量集变换迭代空间,以及折叠迭代空间的方法,该文的方法是Wavefront循环并行化方法的一种扩展。  相似文献   

4.
基于Imagine体系结构,提出了一种科学程序局部性优化方法,旨在提高流程序的带宽利用率并保证Imagine强大的计算能力.关键技术在于通过对循环的计算变换和数据变换来开发体系结构的优势.对4个典型科学程序的实验表明,该优化能够有效地提高程序计算密集性且减少索引流,从而增强程序的局部性.  相似文献   

5.
阐述了一种适用于核外计算程序的变换技术,它通过联合使用循环变换和数据变换这两种编译优化技术来增强程序的局部性,提高数据存取效率。该方法不仅能优化单独一个嵌套循环,还能同时处理多个嵌套循环。实验结果表明了该方法能显著提高核外计算的性能。  相似文献   

6.
一种利用数据融合来提高局部性和减少伪共享的方法   总被引:6,自引:0,他引:6  
某些应用程序不能通过数组内元素的重排优化获得性能提高 .针对这一问题 ,该文扩展了数组之间数据重组优化方法 ,着重分析了将多个数组的数据按一定方式进行融合来提高局部性和减少伪共享优化方法的特性 .文章针对几种典型的数组关联模式 ,提出了相应的数据融合方法 ,并建立了一组粗略的性能代价判别规则 ,以指导编译器有选择地融合数组以提高程序的全局优化效果 .根据在多个平台上的测试结果 ,该文还分析了数据融合优化方法在不同体系结构上的性能可移植性 ,并将体系结构特征加入到性能代价判别规则中 ,使得此优化方法能适用于不同的体系结构 .测试结果表明 ,数据融合优化方法对提高某些应用程序的性能 ,尤其是其在软件DSM体系结构上的性能 ,是非常有效的  相似文献   

7.
合成孔径雷达SAR(Synthetic Aperture Radar)成像仿真对处理速度和存储空间都有很高的要求,因此基于并行计算平台的局部性优化技术成为了降低访存开销、提高SAR成像速度的关键技术之一。以典型SAR成像仿真程序——R-D程序为代表,研究SAR成像并行仿真中的访存局部性优化技术,重点根据循环变换和数据布局变换的局部性优化理论,提出对大规模SAR回波数据进行转置和分块的局部性优化技术。实验结果证明,经过访存局部性优化的SAR成像程序能够获得显著的性能提升。  相似文献   

8.
在PHP项目“高职院校共享型专业教学资源库平台”的开发中.通过研究与实践提出如何利用数组来降低因多重循环而引起的时间复杂度的问题。特别是当程序需要多次与数据库进行交互时,用此种方法来优化程序代码,将会使程序的运行速度大大加快,同时能降低系统消耗,具有很好的效果。  相似文献   

9.
该文和文(Ⅱ)、文(Ⅲ)用模型化和量化的手段,分析了阵和树两种常用的大型数据结构所固有的空间局部性,并且利用所建模型统一地分析了数据结构空间局部对存储系统效率的影响,优化编译器的设计等一系列的问题。该文抽象地讨论了阵的空间局部性和变换保真度。  相似文献   

10.
顺序队列是一种重要的线性表,它采用数组进行存储数据。为了避免出现假溢出,可把数组设计成逻辑上首尾相连的循环队列。在循环队列的应用中非常重要的一项操作即判队空或队满,目前较为常用的有设置一个标志位和牺牲一个数组空间来进行判定。该文提出设置两个标志位的新方法进行判定,并给出了相应的入队和出队算法。  相似文献   

11.
网络Cache技术研究   总被引:2,自引:0,他引:2  
We describe the cache technology based on temporal locality ,spatial locality and geographicallocality,and propose the principles and methods to build the cache system.  相似文献   

12.
预取技术分析   总被引:1,自引:0,他引:1  
内存时延是制约现代处理器性能的主要因素之一.预取技术通过提前从内存读取将来可能使用的数据降低内存时延对处理器执行的影响,是一种被广泛应用的提升处理器性能的技术.探讨了当前主流硬件平台的预取技术,分析了现有预取技术的不足并展望了预取技术的发展趋势.  相似文献   

13.
给出与平台无关的局部性量化方法,从空间局部性和时间局部性2个角度,量化SPEC2000测试基准程序,以及这些程序的数据段、代码段和堆栈段。时间和空间局部性组成的二维局部性分布直观地展示了基准测试程序的局部性。实验结果表明,程序数据局部性主要由堆段的局部性决定,堆段的局部性最差,栈的局部性最优。  相似文献   

14.
本文对近年来提出的局部保留映射(LPP)算法和判别局部保留映射(DLPP)算法思想进行了详细介绍,设计并完成了基于LPP和DLPP算法在掌纹识别中识别结果的对比实验。实验结果对基于这两种算法的掌纹识别方法给予数据支持,而且说明DLLP算法要优于LPP算法。  相似文献   

15.
为了解决雷达数据处理系统数据量日益增大,计算能力逐渐不足的问题,提出两种并行处理方法。第一种方法是对数据处理各步骤中的循环采用多个线程并行处理,属于细粒度并行;第二种方法是根据雷达数据的局部性特征,把雷达探测空域按照径向距离划分成多个部分,由多个子任务并行处理,属于粗粒度并行。实验结果显示,4线程细粒度并行雷达数据处理架构性能是原来的3倍,4任务粗粒度并行架构性能是原来的5倍,证明并行处理技术在雷达数据处理中的有效性,并且任务级的粗粒度并行架构更适合雷达数据处理。  相似文献   

16.
已有有意义串发现算法对于大规模语料中频繁出现的有意义串发现效果较好,而对于语料规模小,或者出现频次较低的有意义串识别效果不够理想。根据章回小说有意义串出现的特点,提出有意义串的局部性原理,并给出了字符串局部性的有效度量方式。将字符串的局部性和语用独立性结合起来,使用局部性和独立性共同描述字符串为有意义串的可能性。实验结果表明:该方法对于章回小说有意义串发现的准确率高于已有方法,同时能够更有效地发现较多的低频有意义串。  相似文献   

17.
可重用本体模块的抽取是本体重用的一个关键环节.与传统工程应用中使用的基于本体层次的结构化方法抽取本体模块相比,使用逻辑的方法能充分利用本体提供的语义信息,抽取的本体模块更具完整性和正确性.在研究保守扩展的本体模块理论基础上,根据Grau B C提出的()本地性规则,提出并证明了描述逻辑()对应的语义本地性规则和句法本地性规则,为基于该规则抽取可重用本体模块提供了理论基础.  相似文献   

18.
一种基于Schur分解的正交鉴别局部保持投影方法   总被引:2,自引:0,他引:2       下载免费PDF全文
人脸识别是模式识别领域中的一项重要的研究课题。到目前为止,已经提出了许多方法来处理人脸的识别问题。最近,许多流形学习算法被提出并且成功地应用于人脸识别当中。这些流形学习方法能够保持人脸图像数据的局部结构,同时,还可以发现人脸的非线性结构。在这些流形学习方法中,局部保持投影方法(LPP)是最有效的方法之一。基于LPP方法,提出了一种新的人脸识别方法——基于Schur分解的正交鉴别局部保持投影方法(ODLPPS)。与LPP方法相比,ODLPPS 把类间散度与类内散度之差的信息融入到LPP的目标函数中并且获得了正交的基向量。在ORL和Yale 人脸数据库上的实验结果表明,该方法在识别性能上优于一些已经存在的方法,如eigenface,Fisherface,LPP 和orthogonal LPP(OLPP)。  相似文献   

19.
一种 新的Cache优化方法—部分Cache局部性方法   总被引:5,自引:0,他引:5  
Cache的性能优化在高性能计算中起着非常重要的作用。传统的Cache优化方法存在着一些缺陷。本文分析RISC处理器的特点的基础 上,提出了“部分cache方法。实践表明,该方法有很好的优化效果,且易实于实现。  相似文献   

20.
Microprocessor speed has been growing exponentially faster than memory system speed in the recent past. This paper explores the long term implications of this trend. We define scalable locality, which measures our ability to apply ever faster processors to increasingly large problems (just as scalable parallelism measures our ability to apply more numerous processors to larger problems). We provide an algorithm called time skewing that derives an execution order and storage mapping to produce any desired degree of locality, for certain programs that can be made to exhibit scalable locality. Our approach is unusual in that it derives the transformation from the algorithm's dataflow (a fundamental characteristic of the algorithm) instead of searching a space of transformations of the execution order and array layout used by the programmer (artifacts of the expression of the algorithm). We provide empirical results for data sets using L2 cache, main memory, and virtual memory.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号