期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《计算机应用与软件》2017,(2)

描述在一款支持超标量与超长指令字结构的混合架构数字信号处理器上设计的分支预测结构。为控制硬件复杂度并充分提高预测准确度,设计双峰预测器与PAp预测器混合型预测结构,充分发挥两种预测器的优点。在设计完成的处理器上,运行标准DSPstone程序。实验结果表明,添加分支预测结构使得处理器性能平均提升23%,并且混合型预测结构相比单一预测结构在准确度方面优势明显。相似文献

2.

魂芯分簇VLIW DSP上指令调度的优化

《微型机与应用》2017,(11)

魂芯DSP处理器是一款32 bit静态超标量、分簇结构的、支持SIMD的VLIW处理器。魂芯DSP芯片有4个执行簇和3个内存块,但簇间数据传输和寻址会占用总线带宽。魂芯DSP上每个簇中有大量的计算部件,但是现有的编译器框架中指令调度算法是针对非分簇结构的,无法充分利用魂芯DSP的分簇结构特点,产生出高效的指令级并行代码。根据魂芯处理器架构分簇的特点,提出了在魂芯DSP上进行指令分簇和指令调度的启发式算法,并且在开源Open64编译器框架上进行了实现。实验结果表明,该算法在魂芯DSP编译器上的实现可以显著提高一些在DSP上有着计算密集型程序的性能。相似文献

3.

基于真实历史反馈的自适应值预测器的设计与优化

隋兵才《计算机工程与科学》2021,43(2):274-279

乱序超标量处理器所能获得的指令级并行能力越来越有限,为了获得更高的指令并行性,必须增加更多的乱序执行和控制资源.随着处理器架构的变化,值预测技术能够在现有主流处理器微架构的基础上以更少的硬件开销,获得更高的数据并行性,进一步提升处理器的乱序执行性能.提出了一种基于真实历史反馈的上下文值预测器(RH-VTAGE),通过设置失效列表和预测精度表来控制反馈RH-VTAGE的预测精度,减少预测失效时的流水线恢复开销.同时,在值预测器的最后阶段增加了真实历史反馈的控制计数器,并设计了自适应置信度控制逻辑,针对不同类型的指令按概率对置信度进行动态调整.实际测试结果表明,相对于其他预测器,RH-VTAGE的整数程序预测性能没有明显提升,但是对于浮点程序性能最大提升31.2％. 相似文献

4.

VLIW-Superscalar混合结构处理器分支预测结构设计

《计算机应用与软件》2014,(8)

在一款同时支持超标量与超长指令字执行方式混合结构数字信号处理器上,为超标量结构添加分支预测功能。为控制硬件设计的复杂度,同时保证分支预测的命中率,分支预测方案使用gshare预测器。在设计完成的硬件上,运行由Open64编译器编译的Dhrystone、Coremark基准测试程序。实验结果表明,在添加分支预测功能后,处理器的性能提高30%~35%。相似文献

5.

一种高性能分簇式超标量微处理器结构

甘初晖杨兵喻明艳《微处理机》2008,29(6)

随着超标量微处理器指令发射宽度的增大,流水线中各个部件的硬件复杂度以及连线长度迅速增加,特别是当工艺线宽越来越小时,连线延迟成为阻碍处理器性能提高的瓶颈。我们提出了一种分簇式超标量处理器结构,在维持发射宽度不变的前提下能够有效降低硬件复杂度,缩短连线长度,减小延迟时间。通过对该分簇的处理器进行模拟并估算它们的物理寄存器组的延迟和面积,我们发现,对于2×4分簇结构,在寄存器组面积减少12%的同时,处理器性能至少可获得16%的提升。相似文献

6.

基于历史长度自适应的分支预测方法

赵朝君陈晨陈志坚孟建熠《计算机辅助设计与图形学学报》2015,(4)

通过研究处理器动态分支预测器中预测效率与分支历史长度的关系,针对程序中各分支指令存在不同最优历史长度的规律,提出一种搜索各分支指令最佳历史长度的分支预测方法.该方法通过实时监测分支指令的预测准确率,在分支预测表硬件资源不变的情况下动态调整预测器的历史长度,以适应程序的动态运行特征.实验结果表明,在相同硬件资源下,文中方法相对于Gshare预测器错误率降低15.8%,相对于Bi-mode预测器预测错误率降低10.3%. 相似文献

7.

基于整数线性规划的VLIW DSP指令分簇调度

周鹏《计算机应用研究》2022,39(10)

在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用零一决策变量表示函数中指令的分簇、指令的局部调度以及簇间传输指令的全局调度,并将指令之间的依赖关系和对处理器资源的竞争关系构造为线性约束,最终得到一个以最小化函数的估计执行时间为目标的整数线性规划模型。实验结果表明,求解该模型得到的分簇调度方案对程序性能的优化显著强于现有算法,并且求解模型所耗费的时间是可接受的。相似文献

8.

基于数据流块的空间指令调度方法

刘炳涛王达叶笑春范东睿张志敏唐志敏《计算机研究与发展》2017,54(4):750-763

分簇超标量处理器将硬件资源分区来避免大的单体部件导致的功耗与周期惩罚,动态多核处理器融合多个物理核的硬件资源提供适应程序需求的计算能力,这些结构合理使用空间分布的硬件资源实现高能效的计算.空间分区结构中指令负载不均衡和跨区操作数传递延迟等问题可导致性能惩罚,需要有效的指令调度方法将计算在分区间进行分布.提出了基于数据流块(data-flow block, DFB)的空间指令调度方法.DFB是动态构建、缓存并重用的一个或数个顺序执行的指令基本块的调度模式.DFB调度算法建模动态指令流中的数据流约束和硬件资源定义的调度空间,然后根据指令量化的相对关键性完成调度决策.介绍了DFB调度的微结构框架和算法.通过对分区数、分区间延迟和调度窗口容量等与调度方法密切相关的微结构参数的实验,证明了DFB调度的性能和稳定性优于负载均衡调度和基于依赖的调度.最后举例证明结合一种数据流块缓存实现的DFB调度达到的调度效果接近理想化的DFB调度. 相似文献

9.

超标量处理器乱序提交机制的研究与设计

李昭刘有耀焦继业潘树朋《计算机工程》2021,47(4):180-186

针对超标量处理器中长周期执行指令延迟退休及持续译码导致的重排序缓存(ROB)阻塞问题,提出一种指令乱序提交机制.通过设计容量可配置的多缓存指令提交结构,实现存储器操作指令和ALU类型指令的分类退休,根据超标量处理器架构及性能需求对目标缓存和存储缓存容量进行参数化配置降低流水线阻塞风险,同时利用指令目的寄存器编码提交模式... 相似文献

10.

基于SimpleScalar的动态分支预测器研究

张筱史战果吴迪《微型电脑应用》2011,27(11):19-21,68,69

分支预测精度是影响当代处理器性能的重要指标,在近十年内一直是学术界和工业界的研究热点。为给不同应用场合的处理器动态分支预测器设计提供性能参考,针对处理器架构设计中应用广泛的几种动态分支预测器,使用SPEC CPU2000在SimpleScalar模拟器中进行仿真及测试分析。测试结果以预测精度和指令/时钟周期作为指标,并结合硬件开销,分析了不同种类分支预测器的适用对象和场合。相似文献

11.

Evaluation and choice of various brånch predictors for low-power embedded processor

下载免费PDF全文

Fan?DongRui?Email author Yang?HongBo Gao?GuangRong Zhao?RongCai 《计算机科学技术学报》2003,18(6):833-838

Power is an important design constraint in embedded computing systems. To meet the power constraint, microarchitecture and hardware designed to achieve high performance need to be revisited, from both performance and power angles. This paper studies one of them: branch predictor. As well known, branch prediction is critical to exploit instruction level parallelism effectively, but may incur additional power consumption due to the hardware resource dedicated for branch prediction and the extra power consumed on mispredicted branches. This paper explores the design space of branch prediction mechanisms and tries to find the most beneficial one to realize low-power embedded processor. The sample processor studied is Godson-like processor, which is a dual-issue, out-of-order processor with deep pipeline, supporting MIPS instruction set. 相似文献

12.

Evaluation and Choice of Various Branch Predictors for Low-Power Embedded Processor 总被引：2，自引：0，他引：2

下载免费PDF全文

范东睿杨洪波高光荣赵荣彩《计算机科学技术学报》2003,18(6):0-0

Power is an important design constraint in embedded computing systems.To meet the power constraint,microarchitecture and hardware designed to achieve high performance need to be revisited,from both performance and power angles.This paper studies one of them:branch predictor.As well known,branch prediction is critical to exploit instruction level parallelism effectively,but may incur additional power consumption due to the hardware resource dedicated for branch prediction and the extra power consumed on mispredicted branches.This paper explores the design space of branch prediction mechanisms and tries to find the most beneficial one to realiz elow-power embedded processor.The sample processor studied is Godson-like processor,which is adual-issue,out-of-order processor with deep pipeline,supporting MIPS instruction set. 相似文献

13.

一种时钟级处理器模拟器的快速开发方法

下载免费PDF全文

杨伟陈明宇许建卫《计算机工程与应用》2010,46(6):63-66

基于功能级处理器模拟器,采用时序制导的方法,提出了一种时钟级处理器模拟器的快速开发方法。该方法对指令的模拟引入流水线,依靠流水线的时序推动功能模块的运行,如ALU、Co-processor、MMU、TLB等。给出了RISC/MIPS流水线的设计方法,并进一步阐述了如何将流水线和处理器功能级模拟单元的耦合起来,构成时钟级模拟的整体框架。基于此框架,开发了ClkSim模拟器。经过SPEC CPU 2000的对比测试,ClkSim拥有较高的模拟性能和精度。相似文献

14.

一种有效的同时多线程处理器取指控制机制 总被引：1，自引：0，他引：1

何立强刘志勇《计算机学报》2006,29(4):535-543

同时多线程处理器通过每时钟周期从多个运行的线程取指令执行,极大地提高了处理器的性能.分支预测器的预测精度和取指策略的效率是影响同时多线程处理器性能的关键.通过将一个基于值的分支预测器和一个基于线程推进速度的取指策略相结合,提出一种新的取指控制机制.该结构的硬件开销较小,实现复杂度较低.实验结果表明,该取指控制机制有效地提高了处理器的性能,其相对于传统取指控制机制的性能加速比为28%且该加速比也高于目前基于流缓冲区和基于分支分类器的取指控制机制. 相似文献

15.

The QC-2 parallel Queue processor architecture

Ben A. Abderazek Arquimedes CanedoAuthor VitaeTsutomu YoshinagaAuthor Vitae Masahiro SowaAuthor Vitae 《Journal of Parallel and Distributed Computing》2008

Queue based instruction set architecture processor offers an attractive option in the design of embedded systems. In our previous work, we proposed a novel queue processor architecture as a starting point for hardware/software design space exploration for embedded applications. In this paper, we present a high performance 32-bit Synthesizable QueueCore (QC-2)—an improved and optimized version of the produced order parallel Queue processor (PQP), with single precision floating-point support. The QC-2 core also implements a novel technique used to extend immediate values and memory instruction offsets that were otherwise not representable because of bit-width constraints in the PQP processor. 相似文献

16.

基于Au1200处理器的车载多媒体电脑设计

下载免费PDF全文

王建国马然《计算机工程》2009,35(23):243-245

提出一种基于Au1200处理器的车载多媒体电脑设计方案,采用SOC技术及MIPS架构,嵌入WindowsCE操作系统,从而实现多种功能,介绍硬件平台设计方案和操作系统的开发流程,并对嵌入式操作系统的设计过程进行说明。仿真实验结果表明,该方案是有效可行的。相似文献

17.

Performance Evaluation of Data Value Prediction Schemes

下载免费PDF全文

Yong Xiao Xing-Ming Zhou 《计算机科学技术学报》2005,20(5):615-623

Data value prediction has been widely accepted as an effective mechanism to break data hazards for high performance processor design. Several works have reported promising performance potential. However, there is hardly enough information that is presented in a clear way about performance comparison of these prediction mechanisms. This paper investigates the performance impact of four previously proposed value predictors, namely last value predictor, stride value predictor, two-level value predictor and hybrid (stride two-level) predictor. The impact of misprediction penalty, which has been frequently ignored, is discussed in detail. Several other implementation issues, including instruction window size, issue width and branch predictor are also addressed and simulated. Simulation results indicate that data value predictors act differently under different configurations. In some cases, simpler schemes may be more beneficial than complicated ones. In some particular cases, value prediction may have negative impact on performance. 相似文献

18.

嵌入式处理器中降低Cache缺失代价设计方法研究 总被引：2，自引：0，他引：2

黄海林许彤范东睿唐志敏《小型微型计算机系统》2006,27(11):2077-2081

以龙芯1号处理器为研究对象，探讨了嵌入式处理器中降低Cache缺失代价的设计方法．通过分析处理器的结构特征，本文实现了在关键字优先基础上一次缺失下命中的非阻塞数据Cache，可以将处理器平均性能提高3．9％,同时利用局部性原理，在关键字优先非阻塞数据Cache的基础上，本文提出了一种类非阻塞的指令Cache设计方法，可以降低指令Cache的缺失代价，以较小的实现代价进一步将处理器平均性能提高7．7％．通过本文的工作，可以同时降低指令Cache和数据Cache的缺失代价，处理器的平均性能提高了11．6％．相似文献

19.

基于IDA处理器模块扩充的描述语言建立

下载免费PDF全文

刘晋汾尹青蒋烈辉刘铁铭《计算机工程》2012,38(2):45-47

目前的IDA不能支持所有处理器模型的反汇编。为此,给出一种适用于IDA处理器模块自动生成的反汇编描述语言,为IDA处理器模块插件的扩充提供支持。该描述语言采用基于上下文无关文法的属性文法表现形式,包括对处理器存储系统的声明以及对处理器指令集的语法和语义描述。应用结果表明,该方法适用于IDA处理器模块插件的扩充。相似文献

20.

一款可编程语音处理器的设计与应用

下载免费PDF全文

韩大晗崔慧娟唐昆刘大力《计算机工程》2007,33(12):251-252,255

为了提高通信系统的保密性,降低制造成本,需要进行专用处理器的设计.该文基于SELP(Sinusoidal Excitation Linear Prediction)算法模型原理,设计了一款高质量多速率语音专用处理器芯片.芯片使用可重构体系结构和超长指令字系统设计方法,将复杂度高的子程序进行优化,能够显著提高指令并行度.仿真结果表明:在该芯片上实现语音压缩编码算法,执行效率高于相同工艺水平的通用数字信号处理器,并保持原有编码质量.该处理器能够实现多种类型的语音压缩算法,使语音算法可以达到高保密性、低复杂度和易开发性. 相似文献