首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对超标量处理器中长周期执行指令延迟退休及持续译码导致的重排序缓存(ROB)阻塞问题,提出一种指令乱序提交机制。通过设计容量可配置的多缓存指令提交结构,实现存储器操作指令和ALU类型指令的分类退休,根据超标量处理器架构及性能需求对目标缓存和存储缓存容量进行参数化配置降低流水线阻塞风险,同时利用指令目的寄存器编码提交模式加快指令提交速率。实验结果表明,该机制提高了单次指令提交数量,基于该机制的超标量处理器相比传统基于ROB顺序提交机制的超标量处理器在减少硬件开销的情况下平均IPC指数提升46%,相比基于值预测、乱序退休和组提交的超标量处理器平均IPC指数增益为19%,综合性能更优。  相似文献   

2.
在一款同时支持超标量与超长指令字执行方式混合结构数字信号处理器上,为超标量结构添加分支预测功能。为控制硬件设计的复杂度,同时保证分支预测的命中率,分支预测方案使用gshare预测器。在设计完成的硬件上,运行由Open64编译器编译的Dhrystone、Coremark基准测试程序。实验结果表明,在添加分支预测功能后,处理器的性能提高30%~35%。  相似文献   

3.
任建  安虹  路放  梁博 《计算机科学》2006,33(3):239-243
同时多线程处理器(SMT)每个周期能够从多个线程中发射指令执行,从而大大地提高了超标量微处理器的指令吞吐量,但多个线程的同时执行也带来了许多硬件资源的共享冲突问题.其中,多个线程共享分支预测硬件的方案会对分支预测精度产生较大的影响.研究SMT处理器中分支处理方案对于处理器整体性能的影响,对于指导SMT处理器的设计是十分重要的.本文利用SMT处理器模拟器,针对各线程运行独立应用的SMT结构实验评估了几种著名的分支预测方案;给出了在单线程和多线程情况下,分支预测方案对分支预测精度和处理器整体性能的影响的分析;总结出在这样的SMT结构中,各线程拥有独立的预测器是一种较好的选择,并且由于各独立预测器可以采用小而简单的结构,所以不会带来太多的硬件开销.  相似文献   

4.
前瞻性执行技术是一种提高超标量处理器性能的有效技术,为了分析前瞻性执行的超标量处理器的性能潜力。  相似文献   

5.
王显著  李三立  黄震春 《计算机学报》1998,21(12):1112-1118
本文讨论了开发Java处理器的指令级并行性的策略,提出采用虚拟寄存器技术的Java处理器(VRJP)结构,并给出了判断相关性和管理虚拟寄存器的方法。分析和实验表明,VRJP能够有效地开发Java的指令级并行性,提高Java程序的执行效率。在VRJP中,大多数虚拟寄存器都不需要对应的物理寄存器,大大降低了物理寄存器的访问频率。  相似文献   

6.
《电子技术应用》2016,(1):19-21
多核同时多线程处理器(SMT_PAAG)是用于图形、图像及数字信号处理的一种多核处理器。基于这种处理器提出了一种硬件线程调度器,该调度器采用同时多线程技术,最多可同时执行四个线程,支持八个线程阻塞模式下的快速上下文切换。这样避免了因阻塞带来的等待问题,能够有效提高处理器的工作效率和资源利用率。通过在处理器上运行图形处理算法进行性能评测。结果表明,SMT-PAAG处理器通过挖掘指令级并行和线程级并行,将处理器的性能提高了69.25%。  相似文献   

7.
提出了一种专用指令处理器的软硬件协同设计方法,该方法可以在设计的早期阶段对处理器进行系统探索和验证.根据椭圆曲线密码算法的特点,并按照专用指令处理器的设计原则,以椭圆曲线密码运算基本操作及运算存储特性为基础,设计了超长指令字ECC专用指令处理器的指令集结构模型.根据处理器的指令集结构模型,以指令模拟器为基础,搭建了处理器的软硬件协同验证平台,从系统设计、RTL描述和FPGA硬件原型3个不同层次对处理器进行了验证.  相似文献   

8.
介绍了国际主流密码算法AES和SHA,综述了当前主流通用处理器架构的密码算法指令发展现状。为提高国产通用处理器在密码安全领域的性能,设计了面向国产通用处理器的AES和SHA密码算法扩展指令集,实现了能全流水执行的AES和SHA密码算法指令执行部件,并进行了实现评估和优化。该密码算法指令执行部件的工作频率达2.0 GHz,总面积为17 644μm2,总功耗为59.62 mW,相比软件采用原有通用指令实现,对AES密码算法的最小加速比为8.90倍,对SHA密码算法的最小加速比为4.47倍,在指令全流水执行时可达19.30倍,显著地改善了处理器执行AES和SHA密码算法的性能,有望应用于国产通用处理器并进一步提升国产通用处理器芯片在密码安全应用领域的竞争力。此外,该密码算法指令部件还可以封装成专门用于支持密码算法的IP,应用在密码安全领域的专用芯片中。  相似文献   

9.
现代高性能处理器PowerPC620与Alpha21164的核心技术分析   总被引:2,自引:0,他引:2  
PowerPC620和Alpha21164是当今世界上的两种高性能的处理器,它们的实现体现了两种截然不同的高性能处理器设计思想,故从体系结构、指令流水线性、指令调度规则、转移处理、存储系统等角度对他们作一详细分析,有助于了解当今高性能处理器的核心技术和指令级并行处理技术的发展方向。  相似文献   

10.
谓词执行能使分片式处理器充分利用众多的执行单元,开发指令级并行性.但因此形成的超块也使得分支误预测代价增大,所以提高分支预测器的性能至关重要.本文提出一种基于剖析信息决策的谓词执行技术,该技术利用剖析信息对谓词执行前后的执行周期进行估算,从而对分支的谓词执行进行决策.该技术使分支预测器的命中率提高了0.68%~3.50%,使系统性能提高了1.67%~8.33%.同时,利用select指令表示谓词化指令也消除了重命名阶段寄存器多定义问题.  相似文献   

11.
在计算机诞生的初期,还没有现在类似Windows的多任务操作系统,人们关注的重点在于单任务程序的执行性能,当时人们评价处理器性能的主要参照办公软件、字处理软件、电子表格软件这样的单任务执行速度?而如今,3D游戏、三维创作、多媒体文件处理这样的应用占据了大部分使用者处理器的多数时间,对于这些应用,注重单线程性能的传统架构已经显得不合时宜。05年年初,Intel AMD的一系列动作清楚地表明,处理器产业已经找到了新的大幅度提高处理器性能的方式——那就是“多核心处理器”,未来的处理器性能设计将会把焦点从原来追求ILP性能向多核心处理器所能释放出来的多线程并行能力转移,即TLP性能。目前对于Intel和AMD的多核心处理器技术方案已经在产品上实施,而本文所要讲述的CELL处理器则是完全不同的另一种呈现,下面我们就一起来揭开“CELL”的神秘技术面纱。  相似文献   

12.
通过对嵌入式处理器进行多媒体处理能力的扩展可增强其对多媒体数据的处理能力。以 32 bit龙腾嵌入式处理器为基础 ,研究 AltiVec技术以及超标量技术 ,设计了该处理器中支持 AltiVec技术的多媒体协处理单元。该单元采用五级流水线 ,将指令动态调度技术分配到不同的流水线中 ,在提高处理性能的同时保证了设计频率。通过多媒体基准程序测试 ,该单元的指令 IPC为 1. 2, SMIC0. 18μm工艺库下 ,频率为 350 MHz,该协处理单元提高了龙腾处理器的性能。  相似文献   

13.
传统的Java程序利用软件Java虚拟机(Java Virtual Machine,JVM)对Java字节码文件进行解释或二次编译后交由本地CPU执行,其运行速度大大受限,而硬件JVM处理器可直接执行Java字节码,因而大幅提高了Java程序的运行速度,所以硬件JVM处理器是突破Java程序性能瓶颈的最有效方法.本文以Jop Java及picoJava为例,根据Java虚拟机的规范分析了硬件JVM处理器中最重要的流水线结构、堆栈结构及操作的实现方式、指令折叠技术和字节码与微码的映射技术,并提出了改进措施.  相似文献   

14.
EPIC硬件简单,同时多线程易于开发线程级并行,在EPIC上实现同时多线程可以结合二者的优点。取指策略对同时多线程处理器的性能有重要影响。该文介绍了几种有代表性的超标量同时多线程处理器取指策略,分析了这些策略在EPIC同时多线程处理器上的适用性,提出了一种新的适用于EPIC的取指策略SICOUNT。分析表明SICOUNT策略可以充分利用EPIC软硬件协同的优势,在选择取指线程时使用编译器所提供的停顿信息,能更精确地估计各个线程的流动速度,使取出指令的质量更高。  相似文献   

15.
网络处理嚣是专门为网络处理而设计的处理嚣,其指令集是软硬件的界面,指令集的设计对性能有较大的影响.本文提出了一种针对高频率指令对-HFIP的组合优化方法,该方法充分利用了网络处理器基准程序里指令执行过程中的动态相关性,开发了simpIescalar模拟嚣的指令格式里未使用的空住作为新指令的扩展域.采用量化的方法对实验结果进行分析.模拟结果显示该方法合理有效,在提高网络处理器性能的同时有效降低指令cache的功耗.实现性能/功耗的权衡.  相似文献   

16.
奔腾~*Ⅱ处理器家族的性能与上一代英特尔架构处理器相比有很大的提高,这种提高是基于高能奔腾~*处理器技术和英特尔MMX~(TM)媒体增强技术的紧密结合。得益于英特尔的MMX技术,使软件的性能更高,应用程序的性能有了发展余地。高能奔腾~*处理器的动态执行技术: ·多分支预测:通过几个分支预测程序的流向,加速处理器的工作流程。·数据流分析:通过分析指令间的数据依存关系,作出一个优化的重排序指令计划。·推测执行:推测地执行指令,基于这一优化了的安排,使处理器的超标量执行单元始终处于运行状态,从而提高整体性能  相似文献   

17.
汪腾 《微计算机应用》2002,23(6):359-361
本文介绍了一种超长指令字(VLIW)结构的处理器执行部件(ALU)的结构和实现,并对其中一些优化设计的技术进行了讨论,这些技术主要包括共享端口减少模块的输入输出端口数,平均分配各级流水线负担以提高主频,相似操作集中以优化设计等等。  相似文献   

18.
SMA:一种新的多线程处理器模型   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出一种新的多线程处理器模型,它结合了前瞻性执行机制和多线程执行机制,既能从更大的指令窗口中开发出更多的ILP,又能屏蔽各种长延迟操作,达到较高的资 源利用率。本文深入讨论了SMA模型及其特点,并进行了初步的性能分析。  相似文献   

19.
高性能数字信号处理器的设计   总被引:1,自引:0,他引:1  
严伟  龚幼民 《微处理机》2004,25(4):10-15
本文完成了16位的数字信号处理器的设计,该数字信号处理器设计了针对信号处理的指令与体系结构,指令数为88条,综合后数字信号处理器的内核单元数为12799。十六位定点数字信号处理器为单发射系统,采用了多数据和地址总线设计,使四级流水在流水线的四个周期保持正常的数据流动,分散的寄存器形式结构,使多数指令在一周期内得到完成。数字信号处理器包含了中央算术逻辑单元、乘法器单元、移位器单元、排序器单元、辅助寄存器单元、中断单元的设计。在中央算术逻辑单元中,完成加/减运算以及逻辑运算,在进位链中采用了选择进位链,对数据溢出采用了饱和处理的方法;在乘法器单元中采用BOOTH算法和先进进位加法器相结合的单元设计;在排序器设计中,按照中断、指令第二指令字、累加器、堆栈等不同的程序排序源设计不同的通路,并按照ZLVC的条件,设计了条件转移指令;在辅助寄存器单元选择一条与正向进位相反方向的进位来实现FFT算法位反序要求;在中断单元中,采用二级中断,大堆栈保存地址,流水“冲刷”技术。  相似文献   

20.
发射队列是超标量处理器的乱序控制部件,也是处理器中的关键部件,对整个处理器的性能起着决定性的作用.提出了一种能够有效提高乱序超标量处理器性能的双端口发射队列结构.该队列能够根据指令之间的相关性,估算指令的发射时机,将指令分配到不同的队列中.对比了2种不同的发射策略对性能的影响,输入端标记执行流水线的策略能够获得较高的IPC性能,最大能提高10.68%.同时对比了采用相同发射策略时,发射队列项数对性能的影响,相比于24项发射队列,32项发射队列能够平均提升2% 的IPC性能,最大可以提升8.59%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号