共查询到20条相似文献,搜索用时 46 毫秒
1.
Cell处理器是一款异构多核处理器,拥有强大的计算能力。但是,在进行应用并行化时,却受到本地存储器容量、访存带宽和数据传输延时等的限制。DMA传输是隐藏长延时、提高存储带宽利用率的有效方法。本文在分析Cell处理器结构基础上,进行了一系列详细的DMA测试,并利用指数拟合技术得到DMA平均带宽模型,发现参与DMA传输的SPE数量和每次DMA传输规模是影响DMA访存带宽的主要因素。 相似文献
2.
根据多媒体处理单元的访存特点,提出一种面向高性能多媒体SoC的分组访存调度算法.该算法将访存请求按照访存ID和页地址分组,以访存组为单位进行乱序调度,并通过维护相同ID访存请求之间的顺序保证访存的正确性:综合考虑访存单元的访存效率和服务质量要求,在每个访存单元独立的调度周期内提供最低带宽保障服务.将该分组访存调度算法应用于访存调度装置,实际应用仿真结果表明,与已有基于带宽分配的访存调度算法相比,文中算法在保障访存单元带宽需求的同时降低了访存延迟,并将平均带宽利用率提高了15%. 相似文献
3.
随着链路速度的增加,为避免拥塞所导致的报文丢失,网络处理器需使用大容量、高带宽的多通道报文缓冲存储器.如何高效利用多通道报文缓冲存储器的带宽成为网络处理器设计的一个重要问题.在分析网络处理器中报文缓冲特点的基础上,提出了一种流水输入/并行输出(PIPO)的新型多通道报文缓冲调度机制,采用流水输入调度技术处理输入端的写请求序列,采用并行输出调度技术调度输出端的读请求序列,同时采用存储访问策略优化输入/输出端的访存效率.通过模拟实验与传统的FCFS调度方法相比较,PIPO调度方法具有更高的带宽利用率和更低的瞬时带宽抖动. 相似文献
4.
矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95%以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50%左右. 相似文献
5.
通用处理器的高带宽访存流水线研究 总被引:1,自引:0,他引:1
存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体件能平均提高了8.6%. 相似文献
6.
7.
“神威·太湖之光”国产超级计算机的特点是适用于高通量计算系统,此类系统往往存储器访问延迟,网络延迟较长.在实际应用中,有一大类问题是时间演化的模拟问题,往往需要高频状态迭代,每次迭代需要通信.此类应用问题的典型代表是分子动力学模拟,分子的性质依赖于时间演化,导致状态相关的时间尺度上难以并行化.实际应用中,全原子模型需要模拟超过ms时间尺度,每一步的物理时间为1fs~2.5fs,这意味着所需时间步个数超过1012个.众核处理器中,不同核心访存时需较长的“排队”等待,造成访存延迟.另外,网卡通信延迟以及较长的数据通路会带来网络延迟,由此导致在长延迟的众核处理器上进行一次有效的模拟几乎是不可能的.解决此类问题的主要挑战是提高迭代频率,即每秒执行尽可能多的迭代步.针对神威高性能芯片处理器的体系结构特点,以分子动力学模拟为例,研究了一系列优化策略以提高迭代频率:(1)单核通信与片上核间同步相结合,降低通信成本;(2)共享内存等待与从核同步相结合,优化异构体系结构中的核间同步;(3)改变计算模式,减少核间数据关联和依赖关系;(4)数据传输与计算重叠,掩盖访存延迟;(5)规则化问题,以提高访存凝聚性. 相似文献
8.
结合访存失效队列状态的预取策略 总被引:1,自引:0,他引:1
随着存储系统的访问速度与处理器的运算速度的差距越来越显著,访存性能已成为提高计算机系统性能的瓶颈.通过对指令Cache和数据Cache失效行为的分析,提出一种预取策略--结合访存失效队列状态的预取策略.该预取策略保持了指令和数据访问的次序,有利于预取流的提取.并将指令流和数据流的预取相分离,避免相互替换.在预取发起时机的选择上,不但考虑当前总线是否空闲,而且结合访存失效队列的状态,减小对处理器正常访存请求的影响.通过流过滤机制提高预取准确性,降低预取对访存带宽的需求.结果表明,采用结合访存失效队列状态的预取策略,处理器的平均访存延时减少30%,SPEC CPU2000程序的IPC值平均提高8.3%. 相似文献
9.
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用... 相似文献
10.
一种片上众核结构共享Cache动态隐式隔离机制研究 总被引:2,自引:0,他引:2
访存带宽是限制众核处理器件能提升的关键,将片上最后一级Cache设计为所有处理器核共享是必要的.在共享Cache中隔离放置冲突的数据,是提高共享Cache性能的关键.文中提出了缓存块链接的硬件方法,用于隔离共享Cache中不同线程之间的数据.文中基于时钟精准的片上众核结构模拟器,使用Splash2程序组和生物信息学中的仟务,对所提机制进行了评估.实验结果表明,与传统共享Cache相比,使用缓存块链接机制时,使得共享Cache的冲突性缺失率降低约20%,而使得IPC平均提高了约10%. 相似文献
11.
Journal of Computer Science and Technology - The multicore evolution has stimulated renewed interests in scaling up applications on shared-memory multiprocessors, significantly improving the... 相似文献
12.
Data access delay has become the prominent performance bottleneck of high-end computing systems. The key to reducing data access delay in system design is to diminish data stall time. Memory locality a... 相似文献
13.
随着深度学习技术的快速发展和深入应用,深度学习训练规模持续增大,内存不足已成为影响深度学习可用性的主要瓶颈之一.内存交换机制是应对深度学习训练内存问题的关键技术,该机制利用深度学习训练内存需求的“时变”特征,在专用计算加速设备内存与外部存储之间按需移动数据,通过瞬时内存需求替代累积内存需求,保障深度学习训练任务的运行.对面向深度学习训练的内存交换机制进行综述,以深度学习训练内存需求的时变特征为研究视角,分别针对基于算子运行特征的内存换出机制、基于数据依赖关系的内存换入机制以及效能驱动的联合换出与换入决策等重要研究工作进行了总结分析,并针对该技术领域的发展方向进行了展望. 相似文献
14.
分布式共享存储(DSM)使得在分布式存储机器上,对显式消息传递编程的需要得到减轻。为降低存储问题延迟,DSM系统将数据复制多个拷贝。文中考查了几种用于控制因伪共享问题造成的存储抖动的方法,提出了一种新的存储一致性协议:写者拥有协议,它在运行时检测并消除伪共享。迭代运算中,由于数据在每次迭代中被地存取,写者拥有协议只要消除一次伪共享,所以额外开销非常小。实验数据表明,写者拥有协议通常情况下优于已有的 相似文献
15.
主要提出了一种检测实时操作系统内存分配性能的方法,利用概率统计的方法随机产生内存碎片,检测实时操作系统在不同条件下内存分配性能的变化,并采用符合正态分布的随机数产生内存碎片,对嵌入式操作系统VxWorks的内存分配性能进行检测,最后结合实际数据分析了VxWorks的内存分配性能符合实时操作系统的要求,同时验证了该检测方法的可行性和可信性。 相似文献
16.
本文研究机群系统的程序设计问题,旨在建立一种支持虚拟共享存储空间和多种并行性描述方式的并行程序设计模型。文中首先提出了抽象结构共享存储器模型的概念,并在此基础上建立了同时支持数据并行、任务并行和对象并行的层次并行模型,这两种模型构成了并行语言TipC++的并行程序设计模型。文中还初步讨论了基于这种程序设计模型的性能优化原语、编译优化和任务调度等问题。 相似文献
17.
18.
存储相关性预测对于减少存储相关性冲突、提高微处理器性能具有十分重要的作用。针对传统相关性预测器硬件开销大、可实现性较差的缺点,通过对存储相关性的局部性分析,提出了一种基于指令距离的存储相关性预测方法。该方法充分利用了发生存储相关性冲突的指令在指令距离上的局部性,预测冲突指令的指令距离,进而控制部分访存指令的发射时机,大大减少了存储相关性冲突的次数。实验结果表明,在硬件开销约为1KB的情况下,使用基于指令距离的相关性预测器后,每个时钟周期平均执行的指令数可以提高1.70%,最高可以提高5.11%。在硬件开销较小的情况下,较大程度提高了微处理器的性能。 相似文献
19.
粗粒度可重构阵列架构兼具灵活性和高效性,但高计算吞吐量的特性也会给访存带来压力。在片下动态存储器带宽相对固定的情况下,设计一种存算解耦合的访存结构。将控制逻辑集成在轻量级的存储空间中,通过可配置的存储空间隔离访存和计算的循环迭代,从而掩盖内存延时,同时利用该结构进行串联和对齐操作,以适配不同的计算访存频率比并优化间接访问过程。实验结果表明,该访存结构在目标架构中能够获得1.84倍的性能优化,其中乱序操作可使间接访问得到平均22%的性能提升。 相似文献
20.
针对标准和声搜索(HS)算法易陷入局部最优、收敛精度不高的不足,提出了一种基于圆形信赖域(CTR)的新型和声搜索算法--CTRHS。该算法运用逐双音调一次性产生方式,在记忆思考环节交互式地采取面向圆形信赖域的集约化思考操作,在双音调微调环节利用当前和声记忆库中的最好或最差和声来确定微调带宽,并且以新生成和声直接替换当前和声记忆库中最差和声来实现和声记忆库的更新。通过在9种标准测试函数上对CTRHS算法进行实验验证和算法性能对比,结果表明CTRHS算法在解质量、收敛性能上优于文献中已报道的7种HS改进算法,且当和声记忆库规模(HMS)、和声记忆库思考率(HMCR)分别取5和0.99时,它能表现出更佳的全局优化性能。 相似文献