首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 147 毫秒
1.
如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以静态电路和标准单元设计为主的ASIC设计方法对处理器功耗带来的影响.由此,结合一款高性能、低功耗通用处理器--龙芯2号的具体实现,对其设计特点和功耗特性进行分析,实现了以龙芯2号处理器为基本研究对象的结构级功耗评估方法.该评估方法充分考虑了CMOS静态电路的结构级功耗刻画方法,因此更加适合目前以ASIC设计方法为主的高性能处理器结构的功耗评估.该结构级功耗评估方法与RTL级的功耗评估方法相比,具有速度快和灵活性好的优点.在2.4GHz的Intel Xeon上,该功耗评估方法的速度约为300K/s,是RTL级的评估方法的5000倍,而且误差很小.  相似文献   

2.
许彤  张仕健  吕涛 《计算机工程》2010,36(20):19-21
为提高处理器核仿真模型的效率,提出基于SimpleScalar架构对龙芯1号处理器进行虚拟处理器模型行为建模,IPC平均误差为2.3%,速度达到每秒1 000 000条指令。基于可控随机事件机制实现的总线功能模型可以为片上系统(SoC)设计提供激励主动生成方案和片上互连验证功能。实验结果证明,该方法对处理器IP仿真建模具有普适意义,能够被无缝融入SoC流程中。  相似文献   

3.
基于龙芯CPU的多核全系统模拟器SimOS-Goodson   总被引:6,自引:0,他引:6  
随着片上多核结构成为当前高性能微处理器发展的趋势,目标工作负载也变得多样化,传统的用户级模拟器已不能适应未来体系结构的研究需要.基于SimOS全系统模拟环境,设计并实现了龙芯CPU的片上多核全系统模拟器SimOS-Goodson.在SimOS-Goodson的设计中运用了时序与功能分离的组织形式,并采用了一种新的值预测校验算法来解决模拟环境中的存储一致性问题.经过与真实硬件环境进行交叉校正,保证了模拟器的可信度与准确度.与用户级模拟器相比,SimOS-Goodson保持了高速、灵活的优点,又具备精确、全系  相似文献   

4.
设计并实现了一个网络计算机系统方案.该方案采用国产高性能龙芯2E处理器和自主设计的北桥,对于主板上的电源设计、北桥设计、信号完整性等关键问题给出了相应的解决方法.针对信号完整性问题提出了先期约束后期仿真的布线机制,提高了高速信号系统板级设计的可靠性.理论分析和实验结果表明,该方案是一个通用可靠的龙芯2E板级系统方案.  相似文献   

5.
龙芯1号处理器结构设计   总被引:33,自引:7,他引:26  
首先介绍了龙芯处理器的研制背景及其技术路线。分析了龙芯处理器坚持高性能定位、稳扎稳打的设计策略以及兼容主流处理器的原因,并指出在目前达到与国外相同主频的客观条件不具备的情况下,应走通过优化处理器结构来提高性能的道路,并以处理器结构技术的突破为根本。然后介绍了龙芯1号处理器的体系结构设计,包括基于操作队列复用的动态流水线设计、在乱序执行的情况下实现精确例外处理、取指与转移控制结构、存储管理以及针对缓冲区逐出攻击的系统安全设计等等。测试表明龙芯1号处理器的指令流水线效率高,其安全设计能有效防范使用缓冲区送出技术进行的网络攻击。但龙芯1号处理器的Cache过小,在组织方式上也有待改进。  相似文献   

6.
龙芯2号微处理器的功能验证   总被引:12,自引:0,他引:12  
开发龙芯2号这样的高性能通用处理器是一项极其复杂的艰巨任务.龙芯2号处理器的设计规模和复杂度比龙芯1号增加了许多倍,如何保证设计的正确性是一个重大挑战.简单的系统级测试已经不能满足设计的需要,这就要求采用多种有效的、先进的验证方法和工具帮助设计者尽可能早的发现和改正设计错误.主要介绍了在龙芯2号处理器的设计开发过程中采用的功能验证流程和主要验证方法.模拟仿真是主要的验证手段,新的形式化验证方法也应用到了验证流程当中.  相似文献   

7.
龙芯2号处理器的同时多线程设计   总被引:1,自引:0,他引:1  
提出了适合龙芯2号处理器的同时多线程处理器模型,并介绍了具体的微体系结构设计以及相应的Linux操作系统的实现方案.通过在设计的龙芯2号同时多线程处理器上启动Linux操作系统,并运行应用程序,例如SPEC CPU2000,进行性能评测.结果表明,龙芯2号同时多线程处理器通过挖掘线程级并行性,将龙芯2号处理器的性能提高了31.1%.  相似文献   

8.
龙芯1号微处理机性能模拟器   总被引:1,自引:0,他引:1  
性能模拟器是现代微处理器结构设计过程中性能评估的重要工具.它要求灵活性好、运行速度快和准确度高,然而,实现这样一个模拟器除了工作量大之外,还需要相当的设计技巧.通过改造SimpleScalar的sim—outorder,开发了一个针对龙芯1号微处理器结构的性能模拟器,既减小了开发的工作量,又实现了灵活性、速度及准确度三者之间的平衡.实验数据表明,该性能模拟器平均运行速度在200KIPS以上,IPC平均偏差在10%以内.  相似文献   

9.
《工业控制计算机》2008,21(1):19-19
近日,我国首台采用国产高性能通用处理器芯片“龙芯2F”和其他国产器件、设备和技术的万亿次高性能计算机“KD-50-I”在中国科技大学研制成功,并于2007年12月26日通过专家鉴定。“KD-50-I”万亿次高性能计算机采用单一机柜,集成了336颗“龙芯2F”处理器,理论峰值计算能力达到1万亿次,整机系统结构先进,  相似文献   

10.
龙芯2号同时多线程处理器的软硬件接口设计   总被引:1,自引:0,他引:1  
随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术,而多线程处理器的软硬件接口也就成为急需解决的问题.在分析同时多线程的软件需求的基础上,提出龙芯2号同时多线程处理器的软硬件接口协同设计解决方案,给出相应的操作系统实现方案.同时,在Linux 2.4.20的基础上实现了龙芯2号同时多线程处理器相应的操作系统.通过运行SPEC CPU2000等测试程序进行性能评测,充分说明实现软硬件接口的龙芯2号同时多线程处理器极大地提高了多进程负载的性能.分析和设计方案不仅适用于同时多线程处理器,而且对于片内多核处理器的设计也有借鉴作用.  相似文献   

11.
一种分片式多核处理器的用户级模拟器   总被引:1,自引:0,他引:1  
黄琨  马可  曾洪博  张戈  章隆兵 《软件学报》2008,19(4):1069-1080
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台.  相似文献   

12.
This paper introduces the microarchitecture and physical implementation of the Godson-2E processor, which is a four-issue superscalar RISC processor that supports the 64-bit MIPS instruction set. The adoption of the aggressive out-of-order execution and memory hierarchy techniques help Godson-2E to achieve high performance. The Godson-2E processor has been physically designed in a 7-metal 90nm CMOS process using the cell-based methodology with some bitsliced manual placement and a number of crafted cells and macros. The processor can be run at 1GHz and achieves a SPEC CPU2000 rate higher than 500.  相似文献   

13.
矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95%以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50%左右.  相似文献   

14.
Although the design of many kinds of microprocessors has been under developing for several decades,the computer architecture R&D community lacks well documented lessons and experiences about design decisions in the research literature.In this paper,we systematically present the design decisions we made during the designing and prototyping of Godson-2 series processors.The 250MHz Godson-2B,450MHz Godson-2C,and 1GHz Godson-2E processors that implement 64-bit,four-issue,out-of-order architecture were taped out in 2003,2004,and 2005,respectively.Each processor triples its predecessor in the SPEC CPU2000 rates.Our first-hand experiences and lessons gained from these designs would provide unique perspectives and insights that are not available in any existing text books and/or published papers.We summarize 10 critical lessons and experiences based on hundreds of our attempts at architectural and design optimizations for performance improvement of Godson-2 series processors.The issues include silicon-simulation correlation,design balancing,performance optimizing,and pico-architecture tuning.We conclude that persistent improvement,attitude towards work-on-silicon design, and insightful understanding of software and fabrication process are the three most important factors for designing a high performance processor with low energy consumption.  相似文献   

15.
龙芯1号处理器的故障注入方法与软错误敏感性分析   总被引:12,自引:0,他引:12  
在纳米级制造工艺下以及在航天等特殊应用场合中,可靠性将是处理器设计中的一个重要考虑因素.以龙芯1号处理器为研究对象,探讨了处理器可靠性设计中的故障注入方法,并提出了一种同时运行两个处理器RTL模型的故障注入与分析方法,可以实现连续快速的处理器仿真故障注入.在此基础上,进一步分析了龙芯1号处理器的软错误敏感性,通过快速注入大约30万个软错误,保证了分析结果具有较好的统计意义,可以有效指导后续的容错与可靠性设计.  相似文献   

16.
The Godson-3B processor is a powerful processor designed for high performance servers including Dawning Servers.It offers significantly improved performance over previous Godson-3 series CPUs by incorporating eight CPU cores and vector computing units.It contains 582.6 M transistors within 300 mm2 area in 65 nm technology and is implemented in parallel with full hierarchical design flows.In Godson-3B,advanced clock distribution mechanisms including GALS (Globally Asynchronous Locally Synchronous) and clock mesh are adopted to obtain an OCV tolerable clock network.Custom-designed de-skew modules are also implemented to afford further latency balance after fabrication.The power reduction of Godson-3B is maintained by MLMM (Multi Level Multi Mode) clock gating and multi-threshold-voltage cells substitution schemes.The highest frequency of Godson-3B is 1.05 GHz and the peak performance is 128 GFlops (double-precision) or 256 GFlops (single-precision) with 40 W power consumption.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号