期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吕晖谢向辉《计算机工程与科学》2015,37(12):2208-2215

提出一种同时基于预知信息和预测机制的SDRAM新型动态页策略。该策略可充分利用待处理访存请求的地址信息,能对后续页命中情况进行精确判断;而当没有待处理访存请求可预知时,则利用所记录的历史信息对后续页命中情况进行预测,以最大程度地选择最合适的页策略。分析证明该策略的硬件实现代价很小。实验证实三类主要的基于预知信息的动态页策略之间的性能差异较小,均能获得较理想的访存带宽,最好情况下,实际访存带宽可提升42%。其中,对于绝大多数测试激励,同时基于预知信息和预测机制的新型动态页策略的性能均为最优或接近最优,适应范围最广。相似文献

2.

基于优先级的访存调度算法研究

廖春科罗莉何鸿君《计算机与数字工程》2009,37(8):12-16

文章研究了存储控制器中的访存调度策略,提出了基于优先级的访存调度算法。首先使用遗传算法建立有效的数据源,然后对得到数据源应用统计进行调度优先级挖掘,共获取三个优先级别,这样仅使用这三个优先级构造调度算法进行访存序列调度。实验结果表明,提出的算法很好地降低了访存序列的运行时间,优化效果接近于文献[4]中提出的贪婪访存调度算法,但算法运行时间却远小于后者。相似文献

3.

乱序执行机器上的load指令调度

周谦冯晓兵张兆庆《计算机科学》2007,34(11):298-300

随着处理器和存储器速度差距的不断拉大，访存指令尤其是频繁cache miss的指令成为影响性能的重要瓶颈。编译器由于无法得知访存指令动态执行的拍数，一般假定这些指令的延迟为cache命中或者cache miss的延迟，所以并不准确。我们引入cache profiling技术来收集访存指令运行时的cache miss或者命中的信息，利用这些信息来计算访存的延迟。乱序机器上硬件的指令调度对于发射窗口内的指令能进行很好的动态调度，编译器则对更长的范围内的指令调度更有优势。在reorder buffer中cache miss一旦发生，容易引起reorder buffer满，导致流水线阻塞。调度容易cache miss的指令。使其并行执行，从而隐藏cache miss的长延迟，就可以提高程序性能。因此，我们针对load指令，一方面修改频繁miss的指令的延迟，一方面修改调度策略，提高存储级并行度。实验证明，我们的调度对于bzip2有高达4．8％的提升，art有4％的提升，整体平均提高1．5％。相似文献

4.

面向实时流处理的多核多线程处理器访存队列

田杭沛高德远樊晓桠朱怡安《计算机研究与发展》2009,46(10)

针对多核多线程处理器中乱序访存影响计算实时性的问题,在对典型访存队列进行研究的基础上提出了一种新的访存队列构建模型及其硬件结构.该模型采用窗口优化算法控制最差情况下的访存延迟,保证访存的实时性,同时又利用优化的乱序调度策略减少访存延迟.实验证明,该访存队列可控制最大访存延迟,与顺序访存相比,存储器具备更高的带宽,与传统的乱序访存相比较,可以充分满足计算的实时性需求,而存储器有效带宽基本不受影响,解决了多核多线程处理器承担实时流计算的基础难题. 相似文献

5.

高性能多媒体SoC分组访存调度算法

张广飞汪文祥蒋毅飞苏孟豪《计算机辅助设计与图形学学报》2011,23(9)

根据多媒体处理单元的访存特点,提出一种面向高性能多媒体SoC的分组访存调度算法.该算法将访存请求按照访存ID和页地址分组,以访存组为单位进行乱序调度,并通过维护相同ID访存请求之间的顺序保证访存的正确性:综合考虑访存单元的访存效率和服务质量要求,在每个访存单元独立的调度周期内提供最低带宽保障服务.将该分组访存调度算法应用于访存调度装置,实际应用仿真结果表明,与已有基于带宽分配的访存调度算法相比,文中算法在保障访存单元带宽需求的同时降低了访存延迟,并将平均带宽利用率提高了15%. 相似文献

6.

一种面向GPGPU的行为感知的存储调度策略

刘子骏何炎祥张军李清安沈凡凡《计算机工程与科学》2017,39(6):1011-1021

随着通用图形处理器在高性能计算领域的广泛应用,新的并行执行模式被提出。在新模式下,当前的存储调度策略未能使存储器的吞吐率达到最大。分析了图形处理器上多程序并行执行模式下应用程序访存行为特征及其性能损失不公平的原因,提出了一种基于访存行为感知的存储调度策略,利用不同程序类型的优势进行优先级调度。实验表明,该方法能够明显改善不同类型程序间性能损失不均衡的问题,相比基准结构对所有测试程序的存储系统吞吐率和公平性分别有平均9.7%和15.0%的提升。相似文献

7.

基于RISC-V的FFmpeg多媒体算法库优化策略

张桢梁军贾海鹏张云泉李青《计算机工程》2023,(4):159-165+173

RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗时的算法进行指令加速和并行优化。在深入研究RISC-V开源架构的基础上,构建一个基于RISC-V开源架构的高性能FFmpeg算法库。针对不连续访存类算法、数据依赖类算法、数据快速转换类算法,从向量单元配置、向量化访存、汇编优化、指令流水优化4个方面出发,大幅提升FFmpeg算法库在RISC-V处理器上的性能。实验结果表明,采用以上优化策略后的FFmpeg算法库在基于RISC-V架构的XT-910芯片上的性能得到明显提升,其中的不连续访存类算法、数据依赖类算法、数据快速转换类算法的加速比分别为8.20、3.67、3.62。相似文献

8.

cache profiling信息指导的软件流水

周谦冯晓兵张兆庆《计算机研究与发展》2008,45(5):834-840

软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环迭代的指令来加快循环的执行时间.随着处理器速度和访存速度差距越拉越大,访存指令尤其是cache miss的访存指令日益成为系统性能提高的瓶颈.由于这些指令的延迟不是固定的,如何在软件流水中预测并掩盖这些访存指令的延迟是非常重要的.与前人预测访存延迟的方法不同,引入cache profiling技术,通过动态收集到profile信息来预测访存延迟,并进行适当的调度.当增加模调度循环中的访存指令的延迟时,启动间隔也会随之增大,导致性能不会随之上升.CSMS算法和FLMS算法在尽量不增大启动间隔的情况下,改变访存指令的延迟.改进了CSMS算法和FLMS算法,根据cache profiling的信息来改变访存延迟,所以比前人的方法更为准确.实验表明,新方法可以有效地提高程序性能,对SPEC2000测试程序平均性能提高1%左右,个别例子的性能改进高达11%. 相似文献

9.

一种加速访存地址计算的编译优化

高秀武姜军白书敬黄亮明《计算机工程》2023,49(1):173-180

在国产申威高性能多核服务器系统中,基础编译系统对应用程序中访存操作进行代码生成时,没有考虑国产处理器指令特征,导致编译器生成的访存地址计算代码效率较低,影响国产高性能处理器的性能。为充分发挥国产处理器高性能计算能力,提出一种加速访存地址计算的编译优化方法。加速访存地址计算编译优化基于处理器支持带扩展因子的运算指令,在编译器后端内存地址表达式合法性检查中,添加针对乘加模式的地址计算表达式合法性检查算法,自动识别地址表达式中存在的乘加运算并进行合法性检验,对符合条件的地址表达式在代码生成阶段匹配生成带扩展因子的运算指令来快速计算访存地址,从而加快访存指令的发射与执行以及应用程序中的访存地址生成,提升访存效率。使用行业标准性能测试集SPEC CPU2006对优化效果进行评测,结果表明,相比优化前SPECspeed Integer与SPECspeed Float Point两个子集,该优化方法平均性能分别提高了2.53%与1.50%。相似文献

10.

面向系统吞吐量与公平性的存控调度算法综述

《计算机应用与软件》2017,(5)

现代处理器多使用片外存储器动态随机存储器DRAM(Dynamic Random Access Memory),但受到工艺限制,对片外存储器的存储速度一直是制约处理器性能的瓶颈。存储控制器作为处理器芯片与片外存储器的接口,使用的调度算法会对访存性能产生直接且关键的影响。针对现代DRAM的结构,以及几种典型的面向系统吞吐量与公平性的存控调度算法,对这些算法各自的优势与劣势作了简要分析,提出有待改进的地方。通过对面向系统吞吐量与公平性的存控调度算法的设计框架作一般化分析,得出新算法的设计与优化的方向。相似文献

11.

网络处理器设计中的存储瓶颈问题

马思瑶尹佳斌孙志刚《计算机研究与发展》2009,46(Z2)

网络处理器设计中的存储瓶颈问题是指网络处理进行FIB(forwarding information base)查表、QoS调度、计数器管理等操作对外部控制存储器访问的延时与网络处理性能难以匹配的问题.目前网络处理器设计采用并行处理的方法隐藏访存延时,但由于设计复杂性和功耗问题,大规模并行技术难以在40Gbps以上的网络处理中继续应用.对当前网络处理器中存储瓶颈问题及其解决方法进行研究,指出其局限性,并针对未来更高性能网络处理,如100Gbps接口网络处理的设计提出了一种新的网络处理模型. 相似文献

12.

Data‐aware task scheduling on heterogeneous hybrid memory multiprocessor systems

Junjie Chen Kenli Li Zhuo Tang Chubo Liu Yan Wang Keqin Li 《Concurrency and Computation》2016,28(17):4443-4459

In this paper, we propose a method about task scheduling and data assignment on heterogeneous hybrid memory multiprocessor systems for real‐time applications. In a heterogeneous hybrid memory multiprocessor system, an important problem is how to schedule real‐time application tasks to processors and assign data to hybrid memories. The hybrid memory consists of dynamic random access memory and solid state drives when considering the performance of solid state drives into the scheduling policy. To solve this problem, we propose two heuristic algorithms called improvement greedy algorithm and the data assignment according to the task scheduling algorithm, which generate a near‐optimal solution for real‐time applications in polynomial time. We evaluate the performance of our algorithms by comparing them with a greedy algorithm, which is commonly used to solve heterogeneous task scheduling problem. Based on our extensive simulation study, we observe that our algorithms exhibit excellent performance and demonstrate that considering data allocation in task scheduling is significant for saving energy. We conduct experiments on two heterogeneous multiprocessor systems. Copyright © 2016 John Wiley & Sons, Ltd. 相似文献

13.

Memory access schedule minimization for embedded systems

Jingtong Hu Chun Jason Xue Wei-Che Tseng Qingfeng Zhuge Yingchao Zhao Edwin H.-M. Sha 《Journal of Systems Architecture》2012,58(1):48-59

The growing gap between microprocessor speed and DRAM speed is a major problem that computer designers are facing. In order to narrow the gap, it is necessary to improve DRAM’s speed and throughput. To achieve this goal, this paper proposes techniques to take advantage of the characteristics of the 3-stage access of contemporary DRAM chips by grouping the accesses of the same row together and interleaving the execution of memory accesses from different banks. A family of Bubble Filling Scheduling (BFS) algorithms are proposed in this paper to minimize memory access schedule length and improve memory access time for embedded systems.When the memory access trace is known in some application-specific embedded systems, this information can be fully utilized to generate efficient memory access schedules. The offline BFS algorithm can generate schedules which are 47.49% shorter than in-order scheduling and 8.51% shorter than existing burst scheduling on average. When memory accesses are received by the single memory controller in real time, the memory accesses have to be scheduled as they come. The online BFS algorithm in this paper serves this purpose and generates schedules which are 58.47% shorter than in-order scheduling and 4.73% shorter than burst scheduling on average. To improve the memory throughput and further reduce the memory access schedule, an architecture with dual memory controllers is proposed. According to the experimental results, the dual controller algorithm can generate schedules which are 62.89% shorter than in-order scheduling, 14.23% shorter than burst scheduling, and 10.07% shorter than single controller BFS algorithms on average. 相似文献

14.

嵌入式处理器片外访存加密机制设计与实现

刘根贤王海霞刘振宇汪东升《计算机工程与应用》2014,50(22):92-96

高安全敏感领域的嵌入式系统面临总线监听、数据篡改、离线分析等类型的恶意攻击,试图窃取密码、篡改信息等。特别是配合硬件电路的攻击,给用户造成重大的损失。为了从根本上解决系统外部电路系统攻击威胁,提出片外访存加密认证机制,选择AES-GCM算法,对所有片外写数据进行加密,对读数据进行解密并认证。同时设计一次密码与页地址置乱函数产生二次密钥,保障了加密强度。进一步通过软件实现LRU Cache优化性能,在STM32系列微处理器硬件平台上,软件实现片外访存加密认证机制。在内存压力测试中,加密片外访存性能平均降低了9%。相似文献

15.

H.264编码器存储带宽分析及DRAM控制器设计

下载免费PDF全文

胡红旗许家栋孙景楠《计算机工程与应用》2009,45(14):141-144

在分析H.264/AVC编码过程中存储器带宽需求的基础上,提出一种DRAM控制器结构,并实现了几种不同调度策略的DRAM控制器结构设计。实现了令牌环、固定优先级和抢占式等三种结构,结合已有的存储空间映射方法,通过减少换行及Bank切换过程中的冗余周期,进一步提高存储器的带宽利用率。实验结果表明,提出的三种存储器结构中抢占式调度具有最高的宽利用率,可满足150 MHz时钟频率条件下HDTV1080P实时编码的应用。相似文献

16.

GPU矩阵乘法的性能定量分析模型

尹孟嘉许先斌熊曾刚张涛《计算机科学》2015,42(12):13-17, 22

性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基本组成部分,是一种具有计算和访存密集特点的典型应用,其性能是GPU高性能计算的一个重要指标。性能模型作为并行系统性能评价的新的技术解决方案,具有许多其它性能评价方法无法比拟的优势。建立了一个性能模型,模型通过对指令流水线、共享存储器访存、全局存储器访存进行定量分析,找到了程序运行瓶颈,提高了执行速度。实验证明,该模型具有实用性,并有效地实现了矩阵乘法的优化。相似文献

17.

一种解决访存调度问题的改进蚁群优化算法

田烁窦强王勇张洪广周朝兵李石明《计算机工程与科学》2016,38(8):1563-1567

存储器的访问调度策略是复杂的,不仅仅要考虑具体的电路时序参数,还有访存节拍数。在分析DRAM的特点以及访存调度策略的基础上,考虑DDR3时序规范,提出一种改进的蚁群优化访问调度策略。采用不同的trace作为测试,同贪婪式调度算法作比较,该算法可以有效降低平均总延迟、提高带宽利用率。相似文献