期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙彩霞郑重邓全隋兵才王永文倪晓强《计算机研究与发展》2021,58(6):1230-1233

DMR是由国防科技大学计算机学院自研的一款兼容RISC-V架构的乱序超标量通用处理器核,支持用户态(user-mode)、特权态(supervisor-mode)和机器态(machine-mode)三种特权级模式,兼容RV64G指令集规范,并进行了自定义向量扩展,虚存系统支持Sv39和Sv48,物理地址为44b.DMR的单周期整数流水线为12级,指令乱序发射、顺序提交,指令发射宽度为4,实现了多个分布式调度队列,每拍最多可乱序调度9条指令执行.DMR采用覆盖率驱动的多层次、多平台的功能验证方法,已经在FPGA原型系统下成功启动Linux OS,CoreMark分数为5.12MHz,在14nm工艺下主频可达到2GHz. 相似文献

2.

浅谈超标量处理器的微结构

张长顺《电子计算机》1996,(6):2-9

相似文献

3.

多核处理器的功耗估算模型

刘辛沈立苏博王志英《软件学报》2015,26(7):1840-1852

精确的功耗估算能够为操作系统调度、软/硬件能效优化提供有效的指导.以往的研究表明:通过监测处理器内部相关硬件事件(如提交的指令数、Cache访问次数等),可以对功耗进行估算.但是,已有的相关功耗模型的精度并不理想,误差通常在5%以上.通过分析处理器提供的硬件事件,并在众多事件中筛选出一组与程序运行功耗密切相关的事件,使用逐步多元线性回归分析,建立了一个与应用无关的实时功耗估算模型,该模型可以直接移植到支持SMT的平台上.通过PARSEC和SPLASH2两个基准测试程序集进行了验证,估算误差分别为3.01%和1.99%.针对建模耗时长的问题,提出了基于两阶聚类的优化改进方法.所提出的估算模型能为构建具有动态平衡功耗和平滑峰值功耗的智能功耗感知系统提供借鉴. 相似文献

4.

前瞻性执行超标量处理器的性能分析模型

肖刚周兴铭《计算机研究与发展》1999,36(4):494-499

前瞻性执行技术是一种提高超标量处理器性能的有效技术,为了分析前瞻性执行的超标量处理器的性能潜力。相似文献

5.

基于RISC-V参数化超标量处理器的优化设计

下载免费PDF全文

刘有耀潘宇晨《计算机工程与应用》2022,58(5):66-74

为解决嵌入式领域对处理器不同性能面积的需求,以及对重排序缓冲区阻塞,保留站派遣长短周期指令时导致的吞吐率不平衡及堵塞问题,设计并优化了一种简便配置的参数化流水线超标量处理器.通过定制化流水线中的分支预测,缓存与运算单元,将RISC-V指令划分5大类处理,对不同周期的执行单元采用级联与并行的混合分布方式,将充当排序缓存中... 相似文献

6.

一种双端口发射队列及其性能优化

隋兵才孙彩霞王永文郭辉《计算机工程与科学》2021,43(7):1168-1172

发射队列是超标量处理器的乱序控制部件,也是处理器中的关键部件,对整个处理器的性能起着决定性的作用.提出了一种能够有效提高乱序超标量处理器性能的双端口发射队列结构.该队列能够根据指令之间的相关性,估算指令的发射时机,将指令分配到不同的队列中.对比了2种不同的发射策略对性能的影响,输入端标记执行流水线的策略能够获得较高的I... 相似文献

7.

超标量与超流水线混合结构微处理器Pentium

郑飞《微处理机》1994,(4):1-5

CISC与RISC相结合、超标量与超流水线相结合的Pentium微处理器是Intel80x86系列微处理器的最新升级换代产品。本文在简要介绍其设计特色与内部单元结构的基础上，分别讨论Pentium微处理器的超标量整数处理单元、超流水线浮点处理单元、分离型Cache、指令集与指令预取等主要模块的设计原理与实际性能，并指出其应用前景。相似文献

8.

功耗受限情况下多核处理器能效优化方案

《计算机工程》2017,(4):39-45

将处理器功耗控制在预算以下有助于降低散热成本和提升系统稳定性,但现有功耗优化方案大多依赖线下分析得到的先验知识,影响实用性,而集中式搜索最优策略的算法也存在复杂度过高的问题。为此,提出功耗优化方案PPCM。利用动态电压频率调整(DVFS)技术控制CPU功耗在预算内以提高处理器能效。同时,将功耗控制和功耗分配解耦合以提高灵活性。采用动态调整的线性模型估计功耗,通过反馈控制技术对其进行调节。以计算访存比为指标在应用间分配功耗,并考虑多线程应用特征进行线程间功耗分配。实验结果表明,PPCM比Priority算法速度平均提高10.7%,能耗平均降低5.1%,能量-延迟积平均降低14.3%。与PCM CA算法相比,其速度平均提高4.5%,能量-延迟积平均降低5.0%。相似文献

9.

嵌入式系统超标量体系CPU的高效软件优化技术

张云《单片机与嵌入式系统应用》2012,12(3):16-18

阐述实际电力自动化装置开发过程中如何提升嵌入式系统CPU运行效率,进行软件效率优化。虽然现代超标量体系结构的CPU标称性能很强大,但需要采取有针对性的措施进行优化,才能发挥其真正性能。在实践中,根据超标量体系结构CPU的特点,有针对性的进行软件优化和代码重构,优化前后性能有大幅度的提升。这说明CPU体系结构特定的软件优化对发挥系统性能有着至关重要的影响。相似文献

10.

高性能通用处理器中的漏电功耗优化

张戈胡伟武《计算机学报》2006,29(10):1764-1771

针对高性能通用处理器的结构特性及设计特点,指出了由于在高性能通用处理器中存在发射宽度较大、数据通路规整的基本特点,其大多数电路中的堆叠效应依然明显存在．由此结合一款高性能通用处理器——龙芯2号的具体设计,对该处理器主要数据通路模块进行了输入向量控制,并提出以“直接观察法”、“有效分解法”、“操作数隔离复用法”、“模拟退火算法”等多种技术思想为基础的电路最小漏电功耗分析及优化的实用性方法．实验结果表明,以上方案能够使得处理器的主要数据通路的漏电功耗减少近27％,同时模拟退火算法与以往的随机算法以及遗传算法相比在寻找电路最小漏电功耗的全局搜索能力上具有优势．相似文献

11.

Accurately modeling superscalar processor performance with reduced trace

Kiyeon Lee Sangyeun Cho 《Journal of Parallel and Distributed Computing》2013

Trace-driven simulation of out-of-order superscalar processors is far from straightforward. The dynamic nature of out-of-order superscalar processors combined with the static nature of traces can lead to large inaccuracies in the results when the traces contain only a subset of executed instructions for trace reduction. In this paper, we describe and comprehensively evaluate the pairwise dependent cache miss model (PDCM), a framework for fast and accurate trace-driven simulation of out-of-order superscalar processors. The model determines how to treat a cache miss with respect to other cache misses recorded in the trace by dynamically reconstructing the reorder buffer state during simulation and honoring the dependencies between the trace items. Our experimental results demonstrate that a PDCM-based simulator produces highly accurate simulation results (less than 3% error) with fast simulation speeds (62.5× on average) compared with an execution-driven simulator. Moreover, we observed that the proposed simulation method is capable of preserving a processor’s dynamic off-core memory access behavior and accurately predicting the relative performance change when a processor’s low-level memory hierarchy parameters are changed. 相似文献

12.

超标量处理器中引入SMT技术的性能分析研究

下载免费PDF全文

史莉雯樊晓桠黄小平《计算机工程与应用》2009,45(5):13-15

同时多线程（SMT）是一种允许多个独立的线程每周期发射多条指令的技术,这种技术充分利用了可能存在的指令级并行和线程级并行,提高了有限资源的利用率。文章以西北工业大学航空微电子中心自主研发的32位超标量处理器“龙腾R2”为基础,引入SMT技术,在基本不改变内部结构大小、不增加执行功能部件、仅做一些必要修改的前提条件下进行研究。通过仿真不同的线程数和各种线程组合,进行性能分析。尽管存在制约性能提升的一些因素,引入SMT技术后依然获得了最高约50%的性能增加。相似文献

13.

超标量TURB052嵌入式微处理器结构设计

吴晓非《电子技术应用》2009,35(10)

介绍了TURBO52的研究背景及技术路线,在保持对经典8051指令集后向兼容的前题下,通过重新进行结构设计来提高系统性能。介绍了指令流水线的结构设计,包括两路超标量结构、分支预测、动态执行和存储管理。在FPGA上运行真实控制系统应用程序测试表明,在相同工作频率下运行一系列系统软件可达经典8051的30倍以上,最高指令吞吐率每时钟周期两条指令。但由于未实现三级存储体系和数据高速缓存,工作在100 MHz以上性能的提升会受限。相似文献

14.

高性能处理系统中自修改代码的高效检测技术

谢菲张浩《计算机工程与科学》2009,31(11)

在主流通用处理系统中,超标量机制及高速缓存使得自修改代码(SMC)成为一种需要特殊处理的情况,为了继续支持使用自修改代码的程序并兼容原有程序,在处理系统设计中需要对SMC的情况进行支持。本文分析并对比了多种程序的SMC行为及解决方案,设计了一种利用FIFO队列在流水线外检测SMC的方案,避免了对主流水线的干扰;并通过复用访存通路来检测SMC导致的缓存一致性问题,由于优化后的设计不需要额外的端口,避免了在数据缓存使用多端口设计,使得整体面积下降了1.16%。同零开销的理想方案相比,该方案对性能的影响小于0.1%。相似文献

15.

一种轻量级的处理器核性能分析框架

雷国庆马驰远王永文郑重《计算机工程与科学》2021,43(2):199-204

面向国产处理器核心性能提升的实际需求,针对处理器核RTL设计中可能出现的性能缺陷问题,提出了一种基于RT L仿真的轻量级处理器核性能分析框架.该性能分析框架基于定向和随机测试激励,通过对基准处理器核(Base Core)和新一代处理器核(New Core)的RT L设计进行快速模拟仿真,并对模拟结果进行对比分析,从而发... 相似文献

16.

An Exploration of Instruction Fetch Requirement in Out-of-Order Superscalar Processors

Pierre Michaud André Seznec Stéphan Jourdan 《International journal of parallel programming》2001,29(1):35-58

The performance of superscalar processors depends on many parameters with correlated effects. This paper explores the relations between some of these parameters, and more particularly, the requirement in instruction fetch bandwidth. We introduce new enhancements to increase the bandwidth of conventional instruction fetch engines. However, experiments show that the performance does not increase proportionally to the fetch. Once the measured IPC is half the instruction fetch bandwidth, increasing the fetch bandwidth brings very little improvement. In order to better understand this behavior, we develop a model from the empirical observation that the available instruction parallelism grows as the square root of the instruction window size. From the model, we derive that the fetch bandwidth requirement grows as the square root of the distance between mispredicted branches. We also verify experimentally that, to double the IPC, one should both double the fetch bandwidth and decrease the number of mispredicted branches fourfold. 相似文献

17.

超标量处理器乱序提交机制的研究与设计

李昭刘有耀焦继业潘树朋《计算机工程》2021,47(4):180-186

针对超标量处理器中长周期执行指令延迟退休及持续译码导致的重排序缓存(ROB)阻塞问题,提出一种指令乱序提交机制.通过设计容量可配置的多缓存指令提交结构,实现存储器操作指令和ALU类型指令的分类退休,根据超标量处理器架构及性能需求对目标缓存和存储缓存容量进行参数化配置降低流水线阻塞风险,同时利用指令目的寄存器编码提交模式... 相似文献

18.

Dynamic Functional Unit Assignment for Low Power

Haga Steve Reeves Natasha Barua Rajeev Marculescu Diana 《The Journal of supercomputing》2005,31(1):47-62

A hardware method for functional unit assignment is presented, based on the principle that a functional unit's power consumption is approximated by the switching activity of its inputs. Since computing the Hamming distance of the inputs in hardware is expensive, only a portion of the inputs are examined. Integers often have many identical top bits, due to sign extension, and floating points often have many zeros in the least significant digits, due to the casting of integer values into floating point, and other reasons. The accuracy of these approximations is studied and the results are used to develop a simple, but effective, hardware scheme. 相似文献

19.

龙芯2号处理器设计和性能分析 总被引：16，自引：4，他引：16

胡伟武张福新李祖松《计算机研究与发展》2006,43(6):959-966

介绍龙芯2号处理器设计及其性能测试结果．龙芯2号采用四发射超标量超流水结构。片内一级指令和数据高速缓存各64KB，片外二级高速缓存最多可达8MB．为了充分发挥流水线的效率，龙芯2号实现了先进的转移猜测、寄存器重命名、动态调度等乱序执行技术以及非阻塞的Cache访问和load Speculation等动态存储访问机制．龙芯2号处理器采用0．18gm的CMOS工艺实现，在正常电压下的最高工作频率为500MHz，500MHz时的实测功耗为3～5W．龙芯2号单精度峰值浮点运算速度为20亿a／秒，双精度浮点运算速度为10亿a／秒，SPECCPU2000的实测性能是龙芯1号的8～10倍，综合性能已经达到PentiumⅢ的水平．目前芯片样机能流畅运行完整的64位中文Linux操作系统，全功能的Mozilla浏览器、多媒体播放器和OpenOffice办公套件，可以满足绝大多数桌面应用的要求．相似文献