期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王晶樊晓桠叶曾《计算机科学》2008,35(2):259-262

在SMT结构中,可以同时从多个线程中取指.当可取指线程个数较少时,分支预测的重要性与在超标量处理器中的相比有增无减,因为SMT结构中转移误预测的代价更大了.影响分支预测准确率的关键因素是历史信息的组织方式和更新方式.本文仿真分析了这些因素对分支预测准确率的影响,提出了一种基于综合历史信息的分支预测算法--IHBP,把全局信息和局部信息结合在一起预测转移,解决了SMT结构中分支预测信息过时、混乱等问题,使得预测的准确率更具备鲁棒性.仿真结果表明:在8线程结构中,该算法与目前国际普遍采用的Gshare算法和Pag算法相比,分支预测准确率分别提高了8.5%和2.3%. 相似文献

2.

Perceptron-Based 分支预测SimpleScalar中的实现

下载免费PDF全文

叶新栋唐志强涂时亮《计算机系统应用》2010,19(1):51-54

SimpIeScaIar是目前国际上常用的一种超标量处理器的性能模拟器。首先分析了SimpleScaIar模拟器的内部体系结构,并在此基础上深入剖析了其分支预测部件的实现机制。针对SimpIeScaIar模拟器分支预测部件只支持基于计数器预测器的局限性,通过深入研究Perceptron-based分支预测器的实现机制,提出并设计了如何在SimpleScaIar模拟器中实现Perceptron-based分支预测器的方案。对超标量处理器的性能模拟和研究有着实际的意义。相似文献

3.

提前分支预测结构及算法研究

下载免费PDF全文

靳文兵石峰左琦张杨《计算机研究与发展》2013,50(10):2228-2238

在理论上,越来越复杂的分支预测算法和更大的存储结构会使分支预测精度不断提高,但当前复杂算法和庞大数据结构所引发的分支预测时延已无法满足流水线单周期运行要求.针对分支预测精度和时延的矛盾,设计提出提前分支预测结构(ahead branch prediction architecture,ABPA).ABPA为流水线前端取指部件提供简单的分支预测表,以实现快速分支预测;复杂的预测算法和较大的存储结构均被移至流水线后端实现,从而保证了分支预测精度.对于一直难以准确预测的多目标间接分支指令,设计提出基于分支历史和目标路径的间接分支预测算法(indirect branch prediction algorithm based on branch history and target path,BHTP algorithm).提前分支预测算法采用改进的高精度分支预测算法和BHTP算法的混合.嵌入提前分支预测算法的分支预测引擎实现流水线后端的分支推测和目标预测,以及流水线前端的分支预测表更新.实验结果表明：采用ABPA结构和BHTP算法的分支预测系统平均精度达到94.27%.设计不仅实现了快速、高精度分支预测,更为分支预测的深入研究提供了条件. 相似文献

4.

以基本块为单位的非顺序指令预取 总被引：1，自引：0，他引：1

沈立戴葵王志英《计算机工程与科学》2003,25(4):94-98

取指令能力的高低对微处理器的性能有很大影响。指令预取技术能够有效地降低指令Cache的访问失效率,提高微处理器的取指令能力,进而提高微处理器的性能。本文提出了一种由分支指令指导的、以基本块为单位的非顺序指令预取技术,每次预取将一个完整的基本块读入指令Cache。这种方法使用静态策略分析程序行为,实现所需的硬件复杂度低。模拟结果显示,该方法能够有效地提高指令Cache访问的命中率。相似文献

5.

一种支持Superscalar-VLIW混合架构处理器的混合分支预测设计

《计算机应用与软件》2017,(2)

描述在一款支持超标量与超长指令字结构的混合架构数字信号处理器上设计的分支预测结构。为控制硬件复杂度并充分提高预测准确度,设计双峰预测器与PAp预测器混合型预测结构,充分发挥两种预测器的优点。在设计完成的处理器上,运行标准DSPstone程序。实验结果表明,添加分支预测结构使得处理器性能平均提升23%,并且混合型预测结构相比单一预测结构在准确度方面优势明显。相似文献

6.

最新ILP微处理器的设计特点及分析 总被引：1，自引：0，他引：1

王俊宇夏宏王沁《计算机工程与应用》2001,37(5):28-31

文章综述了指令级并行（ILP）微处理器的特点,着重介绍了第七代X86、Itanium、E2K等ILP微处理器的体系结构和所采用的新技术,分析了它们各自的特点和问题,并对ILP微处理器的发展方向进行了探讨。相似文献

7.

嵌入式微处理器分支预测的设计与实现

陈海民李峥王瑞蛟《计算机应用》2011,31(7):2004-2007

针对五级流水线嵌入式微处理器的特定应用环境,对分支预测技术进行了深入研究,提出了一种新的分支预测方案。该方案兼容带缓存设计,通过扩展指令总线,在取指段提前对分支指令跳转方向和目标地址进行预测,保存可能执行而未执行的指令和地址指针以备分支预测失效时得以恢复,减少了预测失效的代价,同时保证了指令流的正确执行。研究表明,该方案硬件开销小,预测效率高,预测失效代价低。相似文献

8.

一种基于快速比较的分支处理技术

韩霞杨洪斌吴悦杨通辉《计算机应用与软件》2008,25(5):105-106

首先分析了分支指令对系统性能的影响,重点描述了超标量流水线微处理器IP核BSR03(Breeze Superscalar RISC 03)中的新型分支处理方法-快速比较的分支处理技术.在快速比较的分支处理技术中把分支的处理融入到译码分派部分,以空间换取时间,使分支的处理得到提前,从而提高系统的性能. 相似文献

9.

VLIW-Superscalar混合结构处理器分支预测结构设计

《计算机应用与软件》2014,(8)

在一款同时支持超标量与超长指令字执行方式混合结构数字信号处理器上,为超标量结构添加分支预测功能。为控制硬件设计的复杂度,同时保证分支预测的命中率,分支预测方案使用gshare预测器。在设计完成的硬件上,运行由Open64编译器编译的Dhrystone、Coremark基准测试程序。实验结果表明,在添加分支预测功能后,处理器的性能提高30%~35%。相似文献

10.

基于指令距离的存储相关性预测方法

路冬冬何军杨剑新王飙《计算机应用》2013,33(7):1903-1907

存储相关性预测对于减少存储相关性冲突、提高微处理器性能具有十分重要的作用。针对传统相关性预测器硬件开销大、可实现性较差的缺点,通过对存储相关性的局部性分析,提出了一种基于指令距离的存储相关性预测方法。该方法充分利用了发生存储相关性冲突的指令在指令距离上的局部性,预测冲突指令的指令距离,进而控制部分访存指令的发射时机,大大减少了存储相关性冲突的次数。实验结果表明,在硬件开销约为1KB的情况下,使用基于指令距离的相关性预测器后,每个时钟周期平均执行的指令数可以提高1.70%,最高可以提高5.11%。在硬件开销较小的情况下,较大程度提高了微处理器的性能。相似文献

11.

基于历史长度自适应的分支预测方法

赵朝君陈晨陈志坚孟建熠《计算机辅助设计与图形学学报》2015,(4)

通过研究处理器动态分支预测器中预测效率与分支历史长度的关系,针对程序中各分支指令存在不同最优历史长度的规律,提出一种搜索各分支指令最佳历史长度的分支预测方法.该方法通过实时监测分支指令的预测准确率,在分支预测表硬件资源不变的情况下动态调整预测器的历史长度,以适应程序的动态运行特征.实验结果表明,在相同硬件资源下,文中方法相对于Gshare预测器错误率降低15.8%,相对于Bi-mode预测器预测错误率降低10.3%. 相似文献

12.

Worst Case Execution Time Analysis for a Processor with Branch Prediction 总被引：4，自引：0，他引：4

Colin Antoine Puaut Isabelle 《Real-Time Systems》2000,18(2-3):249-274

The fundamental requirement for hard real-time systems is that task deadlines be never missed. As a consequence, knowing tasks worst case execution times (WCET) is crucial for such systems. Taking into account modern architectural features makes it possible to determine tighter WCET bounds than with program analysis that ignores such features. While effects of caches and pipelines on WCET analysis have been extensively studied, to our knowledge the effect of the branch prediction on WCET evaluation has not been studied yet. This paper describes a method for statically bounding the number of timing penalties due to erroneous branch predictions. The proposed method is based on static program analysis and branch target buffer modelling. It consists in collecting information on branch target buffer evolution by considering all possible execution paths of a program. Collected information can then be used to classify control transfer instructions so that their worst case branching cost can be estimated and incorporated into the program WCET. A method is also given to tightly predict the WCET of loops whose number of iterations depend on counter variables of outer loops. Experimental results show that the timing penalty due to wrong branch predictions estimated by the proposed technique is close to the real one, which demonstrates the practical applicability of our method. 相似文献

13.

An Exploration of Instruction Fetch Requirement in Out-of-Order Superscalar Processors

Pierre Michaud André Seznec Stéphan Jourdan 《International journal of parallel programming》2001,29(1):35-58

The performance of superscalar processors depends on many parameters with correlated effects. This paper explores the relations between some of these parameters, and more particularly, the requirement in instruction fetch bandwidth. We introduce new enhancements to increase the bandwidth of conventional instruction fetch engines. However, experiments show that the performance does not increase proportionally to the fetch. Once the measured IPC is half the instruction fetch bandwidth, increasing the fetch bandwidth brings very little improvement. In order to better understand this behavior, we develop a model from the empirical observation that the available instruction parallelism grows as the square root of the instruction window size. From the model, we derive that the fetch bandwidth requirement grows as the square root of the distance between mispredicted branches. We also verify experimentally that, to double the IPC, one should both double the fetch bandwidth and decrease the number of mispredicted branches fourfold. 相似文献

14.

反馈式编译优化在转移预测中的研究

白书敬李中升漆锋滨《计算机工程与应用》2006,42(2):78-80

处理器性能的发挥常常受到转移指令的限制,所以转移预测的成功与否对于处理器的性能影响至关重要。反馈式编译优化是一种基于程序当前和以前运行时的趋势来改变程序以后执行动作的技术,能够提供给编译器一些有用的优化信息。本文针对ALPHA中的结构特点,利用反馈式编译优化技术,提高了ALPHA中的转移预测命中率,实验结果表明,加速比效果较为明显。相似文献

15.

Power PC620微处理器的结构介绍

林钟官《微处理机》1997,(3):59-64

ＰｏｗｅｒＰＣ６２０是ＰｏｗｅｒＰＣ系列中用于高档工作站和高速服务器的第一种芯片，它采用了许多先进的微结构。例如：采用了动态转移预测、推测执行、寄存器更名、保留站和高带宽总线接口等新的结构技术，以提高指令的并行性，使其能持续达到每个周期执行４条指令的速度。本文详细地介绍了ＰｏｗｅｒＰＣ６２０的结构特点及其主要的性能。相似文献

16.

开源处理器Rocket的分支预测机制与性能评估

雷思磊《单片机与嵌入式系统应用》2017,17(6)

Rocket是基于RISC-V指令集架构的开源处理器,具有分支预测功能,其实现了GShare分支预测机制,在分析Rocket处理器分支预测处理过程、分支预测实现原理的基础上,利用模拟器进行了性能测试,并依据测试结果,对Rocket处理器分支预测参数配置给出建议. 相似文献

17.

间接转移指令在动态二进制翻译器中的预测方法

徐超豪臧斌宇《小型微型计算机系统》2007,28(11):2080-2084

动态二进制翻译器中间接转移指令的预测优化对其性能至关重要.在研究了动态二进制翻译器的取值信息收集框架后,给出如何在程序运行起始阶段对间接转移指令的目标地址进行取值信息收集的方法,并结合统计原理,提出对目标地址的预测应该结合取值信息进行区间估计.最后,提出了一个基于取值信息收集分析结果进行目标地址预测的优化决策函数并且通过在动态二进制翻译器"IA-32 Execution Layer"上进行实验验证了该决策函数对于间接转移指令预测的效果,并讨论了其准确性和精确度. 相似文献

18.

A General Low-Cost Indirect Branch Prediction Using Target Address Pointers

下载免费PDF全文

谢子超佟冬黄明凯《计算机科学技术学报》2014,29(6):929-946

Nowadays energy-efficiency becomes the first design metric in chip development. To pursue higher energy efficiency, the processor architects should reduce or eliminate those unnecessary energy dissipations. Indirect-branch pre- diction has become a performance bottleneck, especially for the applications written in object-oriented languages. Previous hardware-based indirect-branch predictors are generally inefficient, for they either require significant hardware storage or predict indirect-branch targets slowly. In this paper, we propose an energy-efficient indirect-branch prediction technique called TAP （target address pointer） prediction. Its key idea includes two parts： utilizing specific hardware pointers to accelerate the indirect branch prediction flow and reusing the existing processor components to reduce additional hardware costs and power consumption. When fetching an indirect branch, TAP prediction first gets the specific pointers called target address pointers from the conditional branch predictor, and then uses such pointers to generate virtual addresses which index the indirect-branch targets. This technique spends similar time compared to the dedicated storage techniques without requiring additional large amounts of storage. Our evaluation shows that TAP prediction with some representative state-of-the-art branch predictors can improve performance significantly over the baseline processor. Compared with those hardware-based indirect-branch predictors, the TAP-Perceptron scheme achieves performance improvement equivalent to that provided by an 8 K-entry TTC predictor, and also outperforms the VPC predictor. 相似文献

19.

龙芯1号处理器结构设计 总被引：26，自引：7，他引：26

胡伟武唐志敏《计算机学报》2003,26(4):385-396

首先介绍了龙芯处理器的研制背景及其技术路线。分析了龙芯处理器坚持高性能定位、稳扎稳打的设计策略以及兼容主流处理器的原因,并指出在目前达到与国外相同主频的客观条件不具备的情况下,应走通过优化处理器结构来提高性能的道路,并以处理器结构技术的突破为根本。然后介绍了龙芯1号处理器的体系结构设计,包括基于操作队列复用的动态流水线设计、在乱序执行的情况下实现精确例外处理、取指与转移控制结构、存储管理以及针对缓冲区逐出攻击的系统安全设计等等。测试表明龙芯1号处理器的指令流水线效率高,其安全设计能有效防范使用缓冲区送出技术进行的网络攻击。但龙芯1号处理器的Cache过小,在组织方式上也有待改进。相似文献