首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
龙芯2号同时多线程处理器的软硬件接口设计   总被引:1,自引:0,他引:1  
随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术,而多线程处理器的软硬件接口也就成为急需解决的问题.在分析同时多线程的软件需求的基础上,提出龙芯2号同时多线程处理器的软硬件接口协同设计解决方案,给出相应的操作系统实现方案.同时,在Linux 2.4.20的基础上实现了龙芯2号同时多线程处理器相应的操作系统.通过运行SPEC CPU2000等测试程序进行性能评测,充分说明实现软硬件接口的龙芯2号同时多线程处理器极大地提高了多进程负载的性能.分析和设计方案不仅适用于同时多线程处理器,而且对于片内多核处理器的设计也有借鉴作用.  相似文献   

2.
随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术.提出一种融合同时多线程技术和微线程技术的新型体系结构同时多微线程(simultaneous multi-microthreading,SMMT),并给出同时多微线程体系结构的实现方案. SMMT有效结合同时多线程技术硬件代价小和微线程技术能够加速单进程应用的优点,通过软硬件协同的方式充分挖掘单进程程序的微线程级并行性.通过在设计的龙芯2号同时多微线程处理器上进行性能评测,结果表明,同时多微线程体系结构能够有效地加速单进程的程序,以很小的硬件代价显著地提高了处理器的性能.  相似文献   

3.
功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现,除实现完整的MIPS定、浮点指令集外,还实现了龙芯2号类MMX自定义多媒体指令集以及定点操作在浮点部件(FPU)中的数据通路复用.龙芯2号浮点部件遵照IEEE754和MIPS相关标准,浮点加法4拍完成,浮点乘法5拍完成,浮点除法4~17拍完成.物理设计支持0.18μm工艺下主频500MHz的标准单元实现,浮点单精度峰值性能达到2GFLOPS.双精度峰值性能达到1GFLOPS.  相似文献   

4.
系统软件作为处理器和应用程序之间的接口,对于充分利用处理器的特性来维护处理器与应用程序的稳定性和提高应用程序的性能起着极其重要的作用.描述了在Linux内核中解决龙芯2号处理器的Cache别名问题的方法以及通过增加页的大小、软TLB和FAST_TLB_REFILL的方法减小TLB失效的性能损失,还有Uncache Accelerate对媒体播放软件的加速.实验结果表明,在系统软件中增加这些方法的支持,对系统的稳定性和性能都有较大的好处.  相似文献   

5.
同时多线程技术   总被引:2,自引:0,他引:2  
同时多线程技术结合了超标量处理器与多线程处理器两者的优点,通过增加很少的硬件资源,把一个物理核映射为多个逻辑核,成为一种研制高性能处理器的重要途径.重点介绍了同时多线程处理器出现的原因、优点、基本组成结构、当前的研究成果及影响,并探讨了当前同时多线程技术的发展趋势.  相似文献   

6.
介绍了基于龙芯2号的PC104Plus处理器模块的设计方案。该方案以龙芯2号为核心,符合PC104Plus总线规范,并针对模块中电源设计、复位时序、时钟电路及信号完整性等关键问题给出了相应的解决方法。基于该方案的处理器模块已研制成功并应用于一航空电子视频记录仪中。  相似文献   

7.
同时多线程处理器中同时执行的线程共享处理器中的资源,而这些有限的共享资源在线程之间的分配状况将决定每个线程执行的性能和处理器的总体性能。如何根据不同类别共享资源的特性对它们进行合理有效分配成为同时多线程处理器研究的重要课题之一。本文对同时多线程处理器中各类共享资源的特性进行深入研究与分析,分析结果表明,队列类共享资源的分配方式对每个线程执行的性能和SMT处理器的总体性能具有至关重要的影响。因此,同时多线程处理器中共享资源分配的关键在于控制队列类共享资源的分配。  相似文献   

8.
介绍了一款嵌入式处理器模块的设计,该模块采用龙芯2号增强型处理器,并针对嵌入式应用特点自行设计了北桥。模块体积为100 mm×66 mm,板载FLASH和DDR内存,可独立引导系统内核工作,利用串口作为系统终端。实际使用可作为嵌入式系统子卡使用,板载了32位PCI总线接口和32位LOCAL BUS接口,用户可根据实际需求来进行系统功能扩展和二次开发。介绍了该模块设计中的关键技术以及系统扩展方法。  相似文献   

9.
同时多线程(SMT)是一种延迟容忍的体系结构,它在每个周期内可以执行多个线程的多条指令.在SMT处理器上,对于片上共享存储这个复杂的结构资源,至今还没有很好的共享和冲突解决方案.本文着重研究了在多个并发执行的线程间划分共享Cache所存在的问题,指出基于LRU策略的传统Cache会根据需要隐式地划分共享Cache,这在某些情况下会导致全局性能的下降.针对这一问题并且考虑到SMT处理器上对Cache访问带宽的需求,本文提出采用一种多模块多体的Cache结构设计方案.并且在一个修改过的SMT模拟器上对该设计方案进行了性能评价.实验结果显示,相比于基于LRU策略的传统Cache,这一结构可以将一个4路SMT处理器的IPC提高9%.  相似文献   

10.
网络带宽的快速增长使得网络的瓶颈由带宽逐渐变成了节点设备。网络处理器则通过良好的体系结构设计和专门针对网络处理优化的部件,为上层提供了一个良好的可编程环境。系统级模拟是在制造芯片前设计现代网络处理器的有效方法。本文基于专用的网络处理器测试基准和处理器模拟器设计了适合于网络处理的同时多线程结构,它结合了指令级并行和线程级并行的优点,经过测试获得了高性能。同时分析了线程个数对系统性能和处理器面积的影响,并根据综合评价函数选择了优化的线程数为6。  相似文献   

11.
龙芯3号互联系统的设计与实现   总被引:5,自引:1,他引:4  
龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙芯3号的互联结构中还设置了软件路由配置机制,可以在板级直接构筑中等规模的CC-NUMA系统和更大规模的NCC-NUMA系统,提供高效的通信机制.介绍了基于龙芯3号的多处理器系统互联架构.采用了双层可伸缩互联结构:片内由二维Mesh连接多个结点,结点内由交叉开关连接多个处理器核和二级缓存模块.片间无需额外硬件支持即可通过支持缓存一致性的HyperTransport接口实现16核的多处理器系统.利用层次化目录技术,龙芯3号还可以支持更大规模的多处理器系统.龙芯3号的互联架构为搭建简洁、高效、灵活、高度可扩展的共享存储多处理器系统提供了有力支持.  相似文献   

12.
The Godson-2G microprocessor is a high performance SOC which integrates a four-issue 64-bit high performance CPU core(called GS464),a DDR2/3 controller,a HyperTransport controller,a PCI/PCI-X controller,etc.It is physically implemented in 65 nm CMOS process and reaches the frequency of 1GHz with power consumption less than 4 W.The main challenges of Godson-2G physical implementation include nanometer process technology effects,high performance design targets,and tight schedule.This paper describes the ke...  相似文献   

13.
路放  安虹  梁博  任建 《计算机科学》2006,33(1):158-163
同时多线程(SMT)技术是目前微处理器体系结构的研究热点之一。为了支持对SMT技术和基于SMT核的单芯片多处理器(CMP)体系结构技术的深入研究,我们在广泛使用的超标体系结构模拟器Simple Sealar的基础上,通过对SMT结构的关键特性进行适当的抽象,开发了一个SMT体系结构模拟器OpenSMT。本文介绍了谊模拟器主要的设计思想和实现方法,包括多个线程上下文结构的表示、超标量流水线各个阶段的模拟,以及模拟器设计和实现时需要解决的几个关键问题等。初步的应用研究表明,与现有可免费获得的研究用SMT模拟器相比,该模拟器能够较好地平衡模拟性能、灵活性和精度三个基本设计目标,实现了执行驱动、易于扩展指令集结构、良好的用户接口、灵活的软件结构、适宜评估更广泛的SMT体系结构设计空间等设计要求。  相似文献   

14.
Linux下多线程Socket通讯的研究与应用   总被引:12,自引:0,他引:12  
Linux操作系统具有良好的稳定性和出色的网络性能,因此被广泛应用于网络服务领域。而在Linux下开发高性能的网络通讯程序,是充分发挥Linux网络特性的一个关键因素。文章通过对Socket通讯模型的分析和比较,阐述了在大规模分布式系统中采用多线程Socket通讯技术的必要性。并且以HT-7数据采集和控制系统中的炮号服务器为例,详细说明了如何在Linux下利用多线程Socket通讯技术进行网络通讯程序的开发。  相似文献   

15.
龙芯2号处理器设计和性能分析   总被引:16,自引:4,他引:16  
介绍龙芯2号处理器设计及其性能测试结果.龙芯2号采用四发射超标量超流水结构。片内一级指令和数据高速缓存各64KB,片外二级高速缓存最多可达8MB.为了充分发挥流水线的效率,龙芯2号实现了先进的转移猜测、寄存器重命名、动态调度等乱序执行技术以及非阻塞的Cache访问和load Speculation等动态存储访问机制.龙芯2号处理器采用0.18gm的CMOS工艺实现,在正常电压下的最高工作频率为500MHz,500MHz时的实测功耗为3~5W.龙芯2号单精度峰值浮点运算速度为20亿a/秒,双精度浮点运算速度为10亿a/秒,SPECCPU2000的实测性能是龙芯1号的8~10倍,综合性能已经达到PentiumⅢ的水平.目前芯片样机能流畅运行完整的64位中文Linux操作系统,全功能的Mozilla浏览器、多媒体播放器和OpenOffice办公套件,可以满足绝大多数桌面应用的要求.  相似文献   

16.
Microarchitecture of the Godson-2 Processor   总被引:23,自引:3,他引:23       下载免费PDF全文
The Godson project is the first attempt to design high performance general-purpose microprocessors in China. This paper introduces the microarchitecture of the Godson-2 processor which is a 64-bit, 4-issue, out-of-order execution RISC processor that implements the 64-bit MlPS-like instruction set. The adoption of the aggressive out-of-order execution techniques (such as register mapping, branch prediction, and dynamic scheduling) and cache techniques (such as non-blocking cache, load speculation, dynamic memory disambiguation) helps the Godson-2 processor to achieve high performance even at not so high frequency. The Godson-2 processor has been physically implemented on a 6-metal 0.18μm CMOS technology based on the automatic placing and routing flow with the help of some crafted library cells and macros. The area of the chip is 6,700 micrometers by 6,200 micrometers and the clock cycle at typical corner is 2.3ns.  相似文献   

17.
推测多线程技术通过推测执行的方式开发应用程序的线程级并行性,以提高程序执行性能。该技术一般通过执行模型来检测运行时可能的线程推测错误情况,并采取合适的机制恢复程序正确运行。描述的Prophet是一种基于硬件实现的推测多线程执行模型。重点描述了Prophet执行模型针对执行模型设计的关键问题的解决方案,包括Prophet的线程状态控制和多版本的Cach。系统,Prophet的多版本Cache系统提供了推测数据缓存功能,并使用基于总线监听的Cache协议实现了数据依赖违规检测。还给出了使用Olden基准程序对Prophet执行模型进行功能和性能测试的结果,并分析说明了Prophet系统可以有效地开发应用程序的线程级并行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号