共查询到19条相似文献,搜索用时 78 毫秒
1.
随着处理器和存储器速度差距的不断拉大,访存指令尤其是频繁cache miss的指令成为影响性能的重要瓶颈。编译器由于无法得知访存指令动态执行的拍数,一般假定这些指令的延迟为cache命中或者cache miss的延迟,所以并不准确。我们引入cache profiling技术来收集访存指令运行时的cache miss或者命中的信息,利用这些信息来计算访存的延迟。乱序机器上硬件的指令调度对于发射窗口内的指令能进行很好的动态调度,编译器则对更长的范围内的指令调度更有优势。在reorder buffer中cache miss一旦发生,容易引起reorder buffer满,导致流水线阻塞。调度容易cache miss的指令。使其并行执行,从而隐藏cache miss的长延迟,就可以提高程序性能。因此,我们针对load指令,一方面修改频繁miss的指令的延迟,一方面修改调度策略,提高存储级并行度。实验证明,我们的调度对于bzip2有高达4.8%的提升,art有4%的提升,整体平均提高1.5%。 相似文献
2.
值预测和指令重用是通过开发程序执行结果的冗余来解决数据相关的两种不同的新技术。本文首先从这两种新技术的原理出发,深入剖析了它们的技术特性,然后研究了它们与微体系结构其它特征间的相互影响,最后评估了这些技术对微处理器性能的影响。 相似文献
3.
指令调度通过调整指令之间的顺序来提高指令级并行度(ILP)。然而基本块通常很小,因而潜在的ILP也很小。随着芯片设计技术的发展,现代的处理机所包含的资源却越来越丰富。指令调度只有跨越基本块的边界(即全局指令调度)才能够充分发挥处理机潜在的和程序中固有的ILP。全局指令调度可划分为有环和无环两种。该文介绍了无环全局指令调度的几种影响力较大的算法。同时还简单介绍了有关全局指令调度的新的热点。 相似文献
4.
传统的缓存替换策略主要基于经验主义,近年来研究者们使用预测技术推测访存行为,提高缓存替换的准确性,预测技术的应用是当前缓存替换策略研究的热点.由于访存行为自身的复杂性,直接在缓存系统中预测访存行为是困难的,要面对很大的不确定性.当前已有的研究为了解决该问题,使用越来越复杂的预测算法来分析访存行为之间的关联.然而这种方式并未真正减小不确定性,同时现有的缓存替换策略很难避免乱序执行和缓存预取对访存行为分析过程的干扰.为了解决以上问题,提出了一种新的预测缓存访问序列的方法IFAPP(instruction flow access pattern prediction),根据分支预测技术推测程序指令流,定位指令流中的访存指令,进而对其中访存指令的行为逐一进行预测.通过访存序列计算每个替换候选项的重用距离,将重用距离最远的候选项踢出.该方法可以避免乱序执行和缓存预取的干扰,预测对象是行为简单的独立访存指令,减少预测过程中所面对的不确定性.实验结果表明,该算法在一级数据缓存上比LRU算法平均减少3.2%的缓存缺失.相比经典的基于缓存预测的BRRIP和BIP算法,该算法在一级数据缓存上分别减少12.3%和14.4%的缓存缺失. 相似文献
5.
访存指令的乱序执行会导致存储相关性冲突。存储相关性预测技术能够减少相关性冲突,提升处理器性能。已有学术研究工作普遍存在硬件开销大、实现复杂度高的不足;商业处理器中的存储相关性预测技术虽然实现简单,但又存在不具有自适应性或不利于利用指令并行性等问题。设计了一种简单、高效的存储相关性预测器SMDP,它具有自适应、易实现、充分利用指令并行性等优点。实验表明,SMDP能有效提高处理器性能,在与实际处理器接近的较小指令窗口配置下,与盲预测机制相比,平均性能提高0.7991%,最高可达4.9225%。 相似文献
6.
7.
基于循环的指令高速缓存访问预测方法 总被引:1,自引:0,他引:1
为了减少高速缓存访问功耗,提出了一种针对循环的基于历史访问路径的指令高速缓存访问预测方法。该方法以循环作为高速缓存访问路预测行为开启的先决条件,通过指令高速缓存的历史访问路径训练预测器。当循环体再次进入时选择对应的访问路径预测器,获取目标指令高速缓存的路进行访问,降低访问功耗。并进一步提出多路径路预测方法,以得到更高的预测准确率。基于Powerstone测试基准的实验结果表明,该预测方法能达到99%的预测准确率。相比传统的指令高速缓存,使用本方法的高速缓存可平均降低65%的访问功耗,仅增加约0.2%的平均指令高速缓存访问周期。 相似文献
8.
一种精确的分支预测微处理器模型 总被引:3,自引:0,他引:3
在当今深流水宽发射的微处理器中,为实现高性能,精确的分支预测是不可缺少的关键技术.分支预测失效将浪费大量的时钟周期,无法发挥乱序执行的效能.宽发射微处理器的有效性能同时还依赖指令窗口的大小和指令预取宽度.提出了一种新的更精确的支持分支预测和分支误预测周期损失的微处理器模型.根据指令的执行带宽为指令窗口中可用指令数的平方根统计规律,给出了一个更为精确的描述微处理器取指带宽、分支预测精度、分支误预测周期损失、指令窗口大小和IPC之间关系的算法,并讨论了这些参数的综合权衡以及这些参数对程序IPC的影响.由此可以确定依赖多个微处理器参数的取指带宽阈值和微处理器中几个关键参数的选取. 相似文献
9.
近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字DSP在访存实时性、顺序与固定延迟、高效数据一致性方面的需求,设计了一种适用于DSP的标量访存单元,可配置的设计能够满足DSP的访存实时性;基于ID的顺序机制保证超长指令字架构对Load指令返回数据的顺序与固定延迟要求,存储开销为87.5 B;硬件查找“首1”加速了数据一致性所需的写回操作。当Cache中25%,50%和75%的行需要写回时,优化后的一致性写回开销为逐行扫描方法的26.4%,51.3%和76.2%,只与有效脏行数量成正比,与Cache容量无关。 相似文献
10.
MIPS作为RISC体系的典型代表,不能避免代码密度不高和指令域的有效利用程度低的缺陷,使得程序体积膨胀.文中将MIPS指令集扩展为exMIPS ISA,并提出一种基于MIPS体系的指令融合技术.它在解码阶段对预取指令扫描并转换成exMIPS ISA,将符合融合条件的相邻两条或多条exMIPS ISA指令压缩合并.一条"融合指令"的执行,等效于多条被融合的指令同时发射执行,不仅提升了CPU性能,也提升了指令域的有效利用率和代码密度.SimpleScalar模拟平台的实验结果显示可获得较大的性能提升. 相似文献
11.
超长指令字数字信号处理器(VLIW DSP)的指令级并行性(ILP)主要通过指令分簇和软件流水来实现。在以前的研究中,指令分簇主要只考虑指令级并行性和减少簇间转移指令,对异构体系结构和某些寄存器只能分在指定簇上的情况考虑较少。提出一种基于数据流图(DFG)的异构体系结构上的分簇方法,利用指令的相关性将DFG划分为与簇数目相同个数的子图,再根据特殊寄存器对簇的要求采用启发式算法对子图进行调整,实验结果表明这种分簇方法使得负载更均衡,加速比相对于传统方法可以提高8%左右。 相似文献
12.
13.
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 相似文献
14.
近年来大规模开放在线课程获得了较为广泛的关注。由于学习者学习方式不合理使得学习兴趣下降,学习效果不佳,MOOCs辍学率很高,针对这一问题,从学习者学习活动日志中自动抽取一段时间内连续特征,以学习者行为特征为自变量,建立MOOCs辍学预测模型。在KDD Cup 2015数据集上的实验表明,使用基于卷积神经网络的长短期记忆CNN_LSTM辍学预测模型,能够帮助MOOCs课程教师和设计者追踪课程学习者在不同时间步长的学习状态,从而动态监控不同阶段的辍学行为,模型的预测准确率高,这将为教师改进教学方法提供更合理的指导和建议。 相似文献
15.
已有的快速搜索算法中,绝大多数都不检查搜索区中所有候选项,所以,当视频序列中有快速或随机运动时,这些算法常导致搜索陷入局部最优。为了解决这一问题,提出了一种估算当前搜索点和最佳点之间的距离的度量方法,在此基础上提出了一种新的自适应的阈值方案,并结合层次搜索技术,既有效提高了具有快速或随机运动的视频的运动估计的搜索速度,也保证了算法较好的PSNR性能。 相似文献
16.
针对底层虚拟机混淆器(OLLVM)在指令混淆层面只支持指令替换一种算法,且仅支持5种运算符和13种替换方案的问题,设计了一种改进版的指令混淆框架InsObf,以加强OLLVM指令层面的混淆效果。InsObf包含指令加花和指令替换,其中指令加花首先对基本块的指令进行依赖分析,然后插入叠加跳转和虚假循环两种花指令;指令替换在OLLVM的基础上,拓展至13种运算符,共计52种指令替换方案。在底层虚拟机(LLVM)上实现了框架原型后,通过实验表明,与OLLVM相比,InsObf在时间开销增长约10个百分点,空间开销增长约20个百分点的情况下,圈复杂度和抗逆向能力均可提高近4倍;与同样基于OLLVM改进的Armariris和Hikari相比,InsObf在同一量级的时空开销下,可以提供更高的代码复杂度。因此,InsObf可提供指令层级的有效保护。 相似文献
17.
18.