首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 756 毫秒
1.
将OpenMP程序扩展到异构多核结构时,非本地存储访问会导致访存开销增加,影响程序性能。针对该问题,引入带数组划分信息的数据分布子句,对数据在异构多核存储系统的布局进行管理,提出一种基于并行循环识别和数组引用模式分析的算法,实现该类子句的自动生成。实验结果表明,自动生成的OpenMP程序包含数据分布子句,具有较好的数据局部性,可降低访存开销,在异构多核系统上获得明显的性能提升。  相似文献   

2.
为提升树形结构模式和级联关系模式下的查询执行效率,提出一种行列混合式存储方法。通过在列存中引入分组概念,形成逻辑上完整但局部上独立的列组物理单元。研究分析了现有单纯行存储和列存储的优势和潜在不足,并在此基础上通过模式驱动对这一存储方法进行物理设计,使得研究能够适用主流的列存架构。基于开源框架Avro的列存内核Trevni,研究对所提方法予以实现以期显著降低列存到元组转换过程中的开销,同时保证数据交换仅限于查询所需的列。为提高在复杂模式下的可用性,基于union对存储结构进行优化,使得访问能够集中于有效的单元中,并基于空值支持关系查询场景中不满足外关键字约束的模式。实验基于十亿条TPCH数据进行,通过构建三层嵌套分组模式执行查询。结果表明,所提方法较传统行列存储方法效率有显著提升。  相似文献   

3.
针对现有的功耗管理未考虑高速暂存存储器(SPM)中不同的地址访问序列对功耗的影响问题,提出一种基于电路活跃度的SPM低功耗管理策略。通过重新组织指令与数据在SPM中的布局,降低SPM中存储对象访问时的电路活跃度,从而降低功耗。实验结果表明,与不考虑电路活跃度的基本策略相比,该分配策略可平均减少功耗15%以上。  相似文献   

4.
一种面向多核DSP的小容量紧耦合快速共享数据池   总被引:7,自引:0,他引:7  
该文结合片上便笺式存储器(SPM)的结构特点,提出了一种面向异构多核DSP的新型小容量紧耦合共享存储结构——快速共享数据池(FSDP).FSDP在存储层次上与一级Cache平行,可以被访存指令直接访问,采用多体并行的结构、交叉访问模式和基于硬件信号灯的自动同步机制,支持多个DSP核的并行访问与快速的核间数据交换,两核之间交换单个数据只需4拍.该文构建了FSDP的模拟模型,并进行了RTL级设计实现和分析.多种典型测试程序的验证表明,FSDP对于DSP核间细粒度共享数据的传输具有很高的效率,相比同类的VS-SPM结构能够将程序性能提高37%,与传统的共享数据Cache结合使用能够将异构多核DSP的性能提高13%.  相似文献   

5.
随着微处理器架构的发展,将片上SRAM组织成SPM这种软件管理的非cache结构成为众多处理器的选择。SPM结构的特点是实现简单,访问延迟低、带宽高。要有效利用有限的片上SPM空间提升程序性能,必须由用户显式进行数据的布局和传送,或者由编译器进行高效的自动访存优化。冗余读延迟写优化从循环中多个主存访问之间的关联性出发,自动进行了数据传送和缓存优化,提高了SPM上的数据重用率。经过测试,可以有效提升程序性能。  相似文献   

6.
近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字DSP在访存实时性、顺序与固定延迟、高效数据一致性方面的需求,设计了一种适用于DSP的标量访存单元,可配置的设计能够满足DSP的访存实时性;基于ID的顺序机制保证超长指令字架构对Load指令返回数据的顺序与固定延迟要求,存储开销为87.5 B;硬件查找“首1”加速了数据一致性所需的写回操作。当Cache中25%,50%和75%的行需要写回时,优化后的一致性写回开销为逐行扫描方法的26.4%,51.3%和76.2%,只与有效脏行数量成正比,与Cache容量无关。  相似文献   

7.
在大规模、数据量密集的特定应用场景下,以行存储访问数据的方式弊端日益凸显,逐渐不能满足数据高速访问的性能需求,数据亟需更加高效的传输和处理方式.因此,拓展新的内存访问方式,并且同时兼容行、列方向的访问对提升访问效率、降低整体功耗、节省内存空间有着重要意义.本文围绕动态随机存储和非易失性存储两个方面来详细介绍实现列方向的内存访问方式,重点分析了存储单元的结构设计以及实现列向存储访问过程.最后,对内存两种不同访问方式进行了比较和总结,并且对行列访问的内存数据库、数据挖掘、数据加密算法、实时系统的应用场景进行了展望.  相似文献   

8.
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。  相似文献   

9.
BLAS (basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外, BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access, RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access, DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术...  相似文献   

10.
为了提高访存效率,提供可以与计算流水线并行执行的多个独立的访存流水线,魂芯DSP片上存储器设计时采用分块内存结构,并在核内提供多个独立的地址生成单元用于访存操作.针对分块内存的结构特点,编译器对程序中的存储访问构建关于变量的冲突图,对分块内存进行存储块分配,优化数据在分块内存的分布.以数据在分块内存的优化分布为基础,指导程序中访存操作在地址生成单元的优化分配,使得编译器生成的代码可以最大程度地挖掘程序中数据访问的并行性.实验表明,基于分块内存的数据分配分布优化为其它优化如地址寄存器的分簇、访存向量化、软件流水等经典优化提供了良好基础,保证了编译器生成的代码可以充分发挥魂芯DSP提供的指令级并行能力.  相似文献   

11.
传统的副本布局大多假定数据是独立的、不需要任何管理成本,但并未考虑副本开销以及中间数据的生成对副本布局的影响。为此,给出一种兼顾成本与存储空间的两阶段高效数据副本生成与存储策略,在数据副本初始布局阶段,基于遗传算法通过比较数据传输开销与存储开销,尽可能地将数据放置在数据中心。在数据中心利用数据生成关系,通过比较数据存储开销与生成开销,并基于Dijkstra最短路径算法确定最小数据开销的数据存储与生成策略。实验结果表明,成本感知的两阶段副本存储与生成策略在确保数据可靠性访问的同时,可以有效减少数据开销与数据存储空间,从而提升云存储系统性能。  相似文献   

12.
低效率的访存操作是限制微处理器性能提高的一个关键因素。因此提高访存速度可以有效改善微处理器的性能。提出了一种基于增加数据宽度的方式来提高访存速度的方法。通过使用多字宽存储器来增加数据带宽,降低失效开销的时钟周期,从而达到提高访存效率的目的。  相似文献   

13.
提出延迟隐藏的数据预取模型,实现计算与访存的重叠操作,以达到共享二级缓存零缺失;给出基本块的概念,以简化算法的数据结构和减少存储开销;按基本块连续存储方式存储矩阵元素,从存储层次上优化算法,显著地减少页表缓冲缺失;采取非递归调度基本块的策略,充分利用多核计算机的共享二级缓存来减少访问主存的次数,并且不局限于某种特定的存储结构,实现算法缓存无关.多核计算机上的实验结果表明,给出的非递归计算矩阵乘积的线程级并行算法高效、可扩展.  相似文献   

14.
陈松灿  高航 《软件学报》1996,7(A00):425-430
本文针对基于Moore-Penrose广义逆实现的联想存储模型(如Kohonen模型、Murakami模型)缺乏对已存数据完全的联想回忆能力和非线性映射能力,通过在这些模型中引入一个扩展层(隐节点层)使原模型人具有对已存数据的完全回忆能力和一定的非线性映射能力,通过矩阵的奇异值分解,从理论上阐明了改进模型的性能优越性,模拟结果证实了这一点。  相似文献   

15.
流水线是制造高性能CPU的关键技术,目前被广泛研究的OR1200是一款带有四级流水线的免费开源CPU. 为了提高流水线的效率,针对OR1200没有设计访存流水段,流水线会暂停等待加载存储类指令这个问题,在LSU操作即访存操作模块,为OR1200增加了访存流水段,设计了冒险检测和旁路单元,因此CPU在访存阶段不需要暂停,从而使OR1200变为真正的五级流水线CPU;另一方面,当需要用加载指令加载数据的时候,会导致加载类数据冒险问题,为了解决此类冒险,设计了数据有效信号Tag,用来控制流水线暂停,对乘法计算、访存阶段以及其他不能在执行阶段得到结果的运算作流水线暂停判断,以等待数据的获取. 通过实验仿真证明,Tag信号暂停流水线一个时钟后会把数据反馈回去,成功解决了必须暂停数据相关问题的暂停判断问题.  相似文献   

16.
图像转置和图像分块处理在目前图像处理过程中是经常用到的两种操作.对于实时图像处理,图像转置和图像分块的效率直接影响到实时性,而图像转置和图像分块的效率和内存访问效率密切相关.而访存效率与计算机体系结构、存储器结构和实际操作策略有直接的关系.根据存储器的读写特性提出一种分段存储的高效内存访问策略,通过理论分析得出合理的分段长度,即图像转置时分段长度的选择与DDR2 SDRAM的型号有关;而图像分块时分段长度的选择则与数据块的大小有关.结合工程实际应用还推导了普适的总线地址与存储器物理地址之间的映射,同时给出了一种硬件实现方式,针对不同的应用,仅需要替换地址映射模块,具有一定的通用性和扩展性.分段存储方法已经在SAR实时成像压缩系统中得到有效的验证.  相似文献   

17.
高性能处理器普遍采用片上集成大容量复杂结构的一级Cache提高处理器性能,但随着Cache容量和复杂度的增加,访问Cache所产生的访存延迟和功耗明显增加;基于存储队列,提出了一种通过减少Cache访问次数来降低功耗和延迟的方法,利用存储队列来缓存Load/Store指令的数据,并且当存储队列不满时,通过空闲入口暂存已经完成的仿存数据,提高了连续访存数据的复用率,减少了Cache的访问次数;仿真结果显示,该方法在增加少量的控制逻辑基础上,显著减少了Cache的访问次数,降低了Cache的功耗,减少了访存延迟,加快了执行速度。  相似文献   

18.
受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非cache形式,与片外主存构成多级存储架构.这种存储架构需要软件显示管理应用程序中的数据存储和传输.为此,提出了一种众核多级访存资源的静态数据布局优化模型.该模型首先选择应用程序中可进行访存优化的数组变量,对这些变量进行优化收益的评估,然后建立一个类0-1背包优化问题的目标模型,最后针对该优化模型提出了一个实用的近似算法.实验结果验证了该模型的有效性.  相似文献   

19.
数据密集型应用中的核心循环消耗了程序的大量执行时间.如何实现核心循环在粗粒度可重构体系结构(CGRA)上的有效映射仍是当前研究领域的难点.为了在CGRA上最大程度开发应用并行性,降低循环访存开销,提高硬件资源利用率,文中提出一种新颖的面向CGRA循环流水映射的数据并行优化方法.通过定义一种新的可重构计算模型TMGC2以实现对循环的多条数据流水线并行加速.为避免并行化执行带来的额外存储体冲突问题影响CGRA执行性能,为后续循环映射创造良好的数据条件,引入存储体消除策略对数据进行重组,并结合数据重用图实现数据并行优化.实验表明,采用文中方法对已有CGRA循环流水映射方法进行优化,可以提高37.2%的数据吞吐量及41.3%的资源利用率.  相似文献   

20.
金波  缪裕青 《计算机工程》2007,33(16):50-52,5
微阵列数据集行少列多的特征,使得传统基于列枚举空间的算法应用于其中进行频繁闭合模式挖掘时其复杂性迅速增长。基于行枚举的CARPENTER算法较好解决了该问题。但CARPENTER算法使用映射转置表(TT)来完成频繁闭合模式完全集的挖掘效率不高。该文在CARPENTER算法基础上,提出LG-tree数据结构,并基于此结构提出挖掘频繁闭合模式的新算法MFCPLG。真实数据集的实验表明,MFCPLG算法的时间性能优于CARPENTER算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号