期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周宏伟张民选《电子学报》2008,36(11):2107-2112

随着工艺尺寸缩小及处理器频率提高,功耗问题已成为当代微处理器设计面临的主要挑战.传统的指令cache(I-Cache)功耗控制策略一般只单独降低指令cache的动态或者静态功耗.提出的两种改进的功耗控制策略,基于昏睡指令cache体系结构,能够更有效地同时降低指令cache的动态和静态功耗.一种称作"使用双预测端口路预测器的多路路预测策略",另一种称作"基于分阶段访问cache的按需唤醒预测策略",分别用于处理器前端流水线级数保持不变和可以增加额外前端流水线级数两种情形.实验结果表明:与传统的策略相比,提出的两种策略具有更优的能量效率,可以在不显著影响处理器性能的前提下,更有效地降低指令cache和处理器的功耗. 相似文献

2.

一种基于值预测和指令复用的按序处理器预执行机制

下载免费PDF全文

党向磊王箫音佟冬陆俊林易江芳王克义《电子学报》2011,39(12):2880-2883

为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%. 相似文献

3.

分支预测与值预测在 VLIW处理器中的实现

李笑天郭德源何虎《微电子学与计算机》2015,(1)

为了降低超长指令字（VLIW）架构的平均跳转开销和平均访存时延,并减少VLIW程序的代码体积,提出了一种全新的将分支预测与值预测技术应用于VLIW架构的方法。首先分析现有超标量（Superscalar）架构中动态预测技术与V L IW架构中指令静态并行之间所存在的矛盾;通过拓展原有跳转指令和读内存指令,使之与不同的延时槽个数相对应,并根据不同的指令来阻塞流水线或延时写回寄存器,从而解决动态预测技术造成V L IW架构静态调度周期错乱的问题。基于Gem5仿真平台和清华大学Magnolia VLIW数字信号处理器（DSP）的基准测试程序实验表明,该分支预测与值预测技术能显著地提高VLIW架构的性能,缩小VLIW程序的代码体积。相似文献

4.

HIP:一种基于提示值索引的间接转移预测技术

下载免费PDF全文

谢子超史秦青《电子学报》2012,40(8):1523-1531

随着模块化程序和面向对象语言的发展,间接转移预测已成为影响处理器性能的瓶颈.本文提出了一种基于提示值索引的间接转移预测技术(Hint-indexed Indirect-branch Prediction,HIP).该技术将间接转移指令目标地址保存在BTB中,每个目标地址使用一个提示值与之对应.HIP技术在进行间接转移预测时,首先使用已有的分支方向预测器区分不同的间接转移场景,并获得其中存储的提示值.该提示值与指令地址进行计算,生成一个虚拟地址,用于索引存储间接转移目标地址的BTB项.实验表明,该技术可以显著提高性能,而且不需额外的大容量存储结构.与常用的基于BTB的结构相比,HIP技术可将基础处理器性能提升20.38%.与已有基于硬件的方法相比,HIP比VPC方法性能提高8.66%,并且可以获得与48KB TTC预测器相同的性能提升效果.HIP还可以将处理器能耗平均降低14.34%. 相似文献

5.

五级流水线RISC-V处理器的研究与性能优化

李介民张善从《微电子学与计算机》2022,(3):78-85

国内基于RISC-V指令集的嵌入式处理器的研究在近几年内得到了快速发展.在性能评估研究上多集中于2-3级流水的小规模、低功耗处理器,针对5级流水架构处理器的性能量化研究较少.针对该问题,在传统5级顺序流水架构的基础上,分别从RISC-V指令预测、流水线机制、乘除法算法、存储架构等方面分析处理器优化的策略.针对不同策略优... 相似文献

6.

下一代微处理器架构基于EPIC技术的64位指令集架构（ISA）

《今日电子》1997,(12):55-55,62

传统的微处理器架构具有一些基本的性能限制。为了达到更高的性能,处理器不仅要能更快地执行指令,而且还要在每个周期中执行更多的指令,即通常所说的“并行执行”。比较好地进行并行执行,可同时处理更多的信息——也就是提高了处理器的总体性能。在传统的系统架构下,由于编译程序在组织指令方面的局限性,处理器的性能并没有得到充分发挥。分支指令(在程序内改变执行流程)、存储器等待时间(数据到达存储器的时间)和现有处理器的局限性使并行处理成为必要。相似文献

7.

一种混合型值关联间接跳转预测机制

下载免费PDF全文

谭明星刘先华张吉豫佟冬程旭《电子学报》2012,40(11):2298-2302

准确的间接跳转预测对现代处理器的性能和能耗有效性都具有重要意义.本文提出了一种混合型值关联间接跳转预测机制,通过混合使用多种关联信息以降低间接跳转误预测率.该机制一方面依赖于编译器根据高层次数据流信息识别间接跳转指令所对应的初始关联数据值.另一方面,该机制针对间接跳转预测的不同场景分别设计了两类关联信息:单一数据值和值历史,并实现了一种低开销的硬件结构,该硬件结构在运行时刻根据不同应用场景动态选择最佳关联信息引导间接跳转预测.实验结果表明,相对于传统的BTB预测器和最新的VBBI预测器,本文机制能够有效降低误预测率,提高程序性能并降低系统能耗. 相似文献

8.

分支指令特性与分支预测器的性能研究

喻明艳张祥建王晨旭《微电子学与计算机》2010,27(6)

根据分支指令的特性,分析了分支行为与分支预测技术对单发射嵌入式处理器CPI栈(CPI stacks)组成的影响,并在RTL级设计了分支预测器的时序精确模型,通过硬件模拟方法对分支指令特性和分支预测器的性能进行了研究.实验考察了分支指令在分支预测器命中或缺失时的不同跳转统计特性,验证了分支预测器对CPI栈影响的理论推导,为单发射嵌入式处理器中分支预测器的设计与优化提供了精确的实验依据. 相似文献

9.

MMX技术概览（二）

《今日电子》1997,(5):63-66

应用实例本部分将为您介绍采用MMX指令集来实现基本编码结构的一些实例。条件选择多媒体应用程序必须处理大量数据。有时需要根据对输入数据进行的条件查询来选择数据。通过采用微体系结构以提高性能及实现更深流水线,Intel已将其处理器家族的性能提高到新的阶段。由于误测可能会造成流水线溢出而降低性能,分支预测是使流水线保持高效运行的一项重要技术。下例介绍了一种减少使用分支指令(特别是那些与数据相关,因而很难相似文献

10.

一种面向超标量处理器的高能效指令缓存路选择技术 总被引：1，自引：1，他引：0

下载免费PDF全文

谢子超陆俊林佟冬王箫音程旭《电子学报》2011,39(11):2473-2479

路选择技术可以有效降低指令缓存能耗开销,但已有方法通常会由于预测错误或更新机制复杂而引入额外的取指延迟,导致整体能效性降低.本文面向典型超标量处理器的指令缓存结构,提出了一种高能效的路选择融合技术(Combining Way Selective Cache,CWS-Cache).基于对路预测和路历史技术适用条件的分析,... 相似文献

11.

现代RISC处理器的流水线技术

郑飞《微电子学与计算机》1993,10(9):28-31,35

在阐明现代RISC处理器采用的超级标量技术与超级流水线技术的基础上,介绍超级标量处理器IBM RISC Systcm/6000、超级流水线处理器MIPS R4000及RISC/CISC混合处理器Intcl 486的流水线设计,论述了其实现中的问题与技术,包括流水线的数据依赖性、分支预测、存储器障碍、代码重排等.最后指出发展趋向。相似文献

12.

Dallas／Maxim新型电池电量计

《电子产品世界》2006,(9X):36-36

Dallas／Maxim推出一款可编程单节锂离子电池（Li＋）电量计与保护器DS2790。DS2790的计算核心是低功耗微控制器MAXQ20，采用基于累加器（MAC）的16位RISC架构。因为指令同时包含操作代码和操作数，处理器可以在一个时钟周期内完成取指令和执行操作，无需流水线机制。处理器核支持16级硬件堆栈，可以快速完成子程序调用和任务切换。可以通过三个内部数据指针快速有效地处理数据，多数据指针允许一个以上的函数访问数据存储器，而无需每次都保存和恢复数据指针。为了允许用户编制专有算法，DS2790包含三种类型的存储器：程序存储器、数据EEPROM和数据RAM。DS2790还提供电流、累计电流、相似文献

13.

应用预取策略的行缓冲指令Cache设计 总被引：1，自引：0，他引：1

李伟立于立新《微电子学与计算机》2011,28(1)

行缓冲是一种有效的低功耗方案,但其极大地降低了处理器的运算性能.设计并实现了使用预取策略的行缓冲Cache,使用一个缓冲行来预取存储在L1 Cache中的指令,从而降低了行缓冲结构中由于容量缺失而造成的流水线停顿,提升了处理器的运算性能.以Leon2的VHDL模型为试验环境进行了验证,带有预取策略的行缓冲结构较原来的结构平均提升了12.4%. 相似文献

14.

标志预访问和组选择历史相结合的低功耗指令cache 总被引：2，自引：0，他引：2

下载免费PDF全文

张宇弘王界兵严晓浪汪乐宇《电子学报》2004,32(8):1286-1289

指令cache是处理器的主要耗能部件之一.研究发现,在指令顺序执行的情况下,访问同一cache行只需要访问一次标志存储器,因此标志存储器存在大量空闲周期.本方法利用标志存储器的空闲周期来预先访问地址连续的下一个cache行的标志,从而预先获得cache行命中和组选择信息,这样当真正取下一行的指令时,根据获得的该cache行的标志信息就无需访问没有被选中的数据存储器.预先访问标志存储器的另一个优点是可以加入组预测算法来减少对标志存储器的访问.为了减少短距离跳转时对cache的访问,环形历史缓冲区(CHB)保存了部分组选择结果来获得跳转目标地址的cache行信息.该方法没有性能损失,而且具有硬件实现简单,硬件代价小等优点.该方法已被应用于250MHz的RISC处理器中. 相似文献

15.

Efficient Memory Architecture and Implementation of Motion Compensation for Multi-Standard Video Decoder

CAO Chao YU Lizhen ZHANG Yanjun LI Guangzhen 《电视技术》2012,36(15)

设计了一种适用于多标准视频解码器的存储架构,采用并行多级流水线用以实现AVS,MPEG -2,H.264标准中不同模式的图像预测计算,缓存机制避免了频繁访问外部存储器SDRAM,提高了运动补偿计算性能,减少了计算周期.使用90nm的CMOS工艺库,在135 MHz的工作频率下综合,电路规模为45 kgate(千门)左右,处理一宏块需要大约520个时钟周期,结果表明该设计满足高清视频处理的要求. 相似文献

16.

MIPS32~74K~(TM)内核系列的微架构优势

《中国集成电路》2007,(9)

1.简介MIPS科技的MIPS32!74KTM内核系列采用全新的超标量、无序流水线架构,可通过可合成的方法实现优化的性能。17段流水线双发指令充分利用了MIPS32RISC指令集架构的负载存储特性。74K内相似文献

17.

多标准视频解码器运动补偿存储架构设计

曹超《电视技术》2012,36(15):59-63

设计了一种适用于多标准视频解码器的存储架构,采用并行多级流水线用以实现AVS,MPEG-2,H.264标准中不同模式的图像预测计算,缓存机制避免了频繁访问外部存储器SDRAM,提高了运动补偿计算性能,减少了计算周期。使用90 nm的CMOS工艺库,在135 MHz的工作频率下综合,电路规模为45 kgate(千门)左右,处理一宏块需要大约520个时钟周期,结果表明该设计满足高清视频处理的要求。相似文献

18.

基于存储体系结构的处理器性能提升

任浩琪林正浩《集成电路应用》2005,(3):28-30

随着计算机体系结构的发展，处理器运算单元速度大大提高，存储器速度成为处理器性能提高的瓶颈。通过实际分析，提出解决该问题的方法与途径。一个好的存储体系结构能够大大改善处理器性能。选取合适的缓存大小、路组，建立多级缓存结构，采用Wwrite buffer、victimcache和stream buffer可以进一步缓解暂停处理器运算单元流水线所带来的性能下降问题。相似文献

19.

基于反向支配关系的指令重用优化

吴炳廉何炎祥《微电子学与计算机》2015,(3):6-10

提出了一种基于反向支配关系的指令重用优化,在编译器中计算条件分支的反向支配基本块以及基本块内的控制无关语句,将这些信息编码成一条指令放置在分支指令之前.修改过的寄存器重命名阶段根据指令提供的信息保留部分错路指令的结果以便恢复后重用,降低了处理器分支预测错误的代价.实验表明该方法对典型应用有性能提升,与纯硬件方法相比硬件开销更小. 相似文献

20.

基于RISC-V的嵌入式多指令集处理器设计及实现

成元虎黄立波崔益俊马胜王永文隋兵才《电子学报》2021,49(11):2081-2089

软件生态是限制RISC-V指令集架构发展的主要因素之一.让RISC-V处理器可以直接运行ARM Thumb二进制代码能在一定程度上缓解其在嵌入式领域中的软件生态问题.本文基于二进制翻译,通过硬件支持ARM Thumb的标志位、分支指令、条件执行,在RISC-V处理器上以较低的面积和功耗开销实现了对ARM Thumb程序的支持并获得了较好的性能.通过运行Embench基准程序套件,该处理器翻译运行ARM Thumb程序的平均性能能够到达直接运行RISC-V程序性能的75.5％.相较于仅使用二进制翻译支持ARM Thumb,该处理器运行ARM Thumb程序的性能提升了3.1倍,面积开销则下降了7.8％. 相似文献