共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
系统软件作为处理器和应用程序之间的接口,对于充分利用处理器的特性来维护处理器与应用程序的稳定性和提高应用程序的性能起着极其重要的作用.描述了在Linux内核中解决龙芯2号处理器的Cache别名问题的方法以及通过增加页的大小、软TLB和FAST_TLB_REFILL的方法减小TLB失效的性能损失,还有Uncache Accelerate对媒体播放软件的加速.实验结果表明,在系统软件中增加这些方法的支持,对系统的稳定性和性能都有较大的好处. 相似文献
3.
功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现,除实现完整的MIPS定、浮点指令集外,还实现了龙芯2号类MMX自定义多媒体指令集以及定点操作在浮点部件(FPU)中的数据通路复用.龙芯2号浮点部件遵照IEEE754和MIPS相关标准,浮点加法4拍完成,浮点乘法5拍完成,浮点除法4~17拍完成.物理设计支持0.18μm工艺下主频500MHz的标准单元实现,浮点单精度峰值性能达到2GFLOPS.双精度峰值性能达到1GFLOPS. 相似文献
4.
图形处理器(GPU)以其强大的图形加速性能以及在通用计算领域的出色表现正在被越来越广泛地应用。但随着芯片规模和集成度的不断提升,单个GPU芯片的功耗已经高达376W,是高端通用处理器的2~3倍。高功耗带来的可靠性、稳定性以及芯片成本问题使“功耗墙”已经成为未来GPU设计过程中需要突破的关键问题之一。立足于体系结构层次,结合图形处理器的渲染流水线的结构特点,从深度测试和消隐、染色器数据通路、纹理映射和压缩、渲染策略、寄存器文件和片上Cache等角度描述了图形处理器的低功耗设计技术,并指出了GPU低功耗设计技术的进一步研究方向。 相似文献
5.
嵌入式处理器TLB设计方法研究 总被引:3,自引:1,他引:3
以处理器的TLB(Translation Look-aside Buffer)部件为研究对象,探讨嵌入式处理器TLB部件的高能效设计方法.用龙芯1号这款有代表性的真实处理器为设计模型,通过对功耗、面积、关键路径和性能等多方面的试验分析,提出了新颖的TLB低功耗设计方法.在经过改进后的TLB设计中,TLB部件的RAM部分的面积减少了50%,功耗降低了92.7%,整个TLB部件的面积减少了23.7%,功耗降低了28.5%,而电路延迟几乎没有增加,处理器的性能也没有受到影响.这充分说明改进方案是非常实用而有效的. 相似文献
6.
Cell处理器是一款异构多核处理器,拥有强大的计算能力。但是,在进行应用并行化时,却受到本地存储器容量、访存带宽和数据传输延时等的限制。DMA传输是隐藏长延时、提高存储带宽利用率的有效方法。本文在分析Cell处理器结构基础上,进行了一系列详细的DMA测试,并利用指数拟合技术得到DMA平均带宽模型,发现参与DMA传输的SPE数量和每次DMA传输规模是影响DMA访存带宽的主要因素。 相似文献
7.
通用处理器的高带宽访存流水线研究 总被引:1,自引:0,他引:1
存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体件能平均提高了8.6%. 相似文献
8.
基于程序访存模式的低功耗存储技术 总被引:1,自引:0,他引:1
与不断提升的计算能力相适应,移动手持设备上的存储系统结构越来越复杂,容量越来越大.这种趋势导致存储系统,主要是片上缓存和主存,在系统总能耗的占比中不断攀升.在当前手持设备多由电池驱动并且电池容量十分有限的情况下,存储系统的低功耗设计就显得十分重要.虽然现有的存储器件提供了一定的硬件节能支持,但是只有与应用程序的访存行为的规律相结合,才能充分发挥硬件的节能潜力.对现有的各种低功耗存储技术进行了梳理和总结,给出程序的访存模式的概念,归纳出访存模式在3个方面的内涵,并进一步详细介绍了程序的访存模式在片上缓存和主存低功耗技术中的应用.最后,展望未来结合访存模式进行低功耗存储系统研发的可能方向. 相似文献
9.
结合访存失效队列状态的预取策略 总被引:1,自引:0,他引:1
随着存储系统的访问速度与处理器的运算速度的差距越来越显著,访存性能已成为提高计算机系统性能的瓶颈.通过对指令Cache和数据Cache失效行为的分析,提出一种预取策略--结合访存失效队列状态的预取策略.该预取策略保持了指令和数据访问的次序,有利于预取流的提取.并将指令流和数据流的预取相分离,避免相互替换.在预取发起时机的选择上,不但考虑当前总线是否空闲,而且结合访存失效队列的状态,减小对处理器正常访存请求的影响.通过流过滤机制提高预取准确性,降低预取对访存带宽的需求.结果表明,采用结合访存失效队列状态的预取策略,处理器的平均访存延时减少30%,SPEC CPU2000程序的IPC值平均提高8.3%. 相似文献
10.
跨平台系统级虚拟机软件模拟访存操作效率低,严重影响了虚拟机的性能.为提高跨平台虚拟机访存效率,提出了一种使用宿主系统TLB硬件、加速跨平台系统级虚拟机访存地址转换的软硬件协同优化方法.该方法相对于软件访存模拟方法,有效利用了宿主系统的硬件资源,提高了跨平台系统级虚拟机执行访存操作效率.实验结果表明该方法将虚拟机系统的整体性能提高了近15%.提出的方法已实际应用在龙芯系统级跨平台虚拟机中. 相似文献
11.
嵌入式处理器中降低Cache缺失代价设计方法研究 总被引:2,自引:0,他引:2
以龙芯1号处理器为研究对象,探讨了嵌入式处理器中降低Cache缺失代价的设计方法.通过分析处理器的结构特征,本文实现了在关键字优先基础上一次缺失下命中的非阻塞数据Cache,可以将处理器平均性能提高3.9%,同时利用局部性原理,在关键字优先非阻塞数据Cache的基础上,本文提出了一种类非阻塞的指令Cache设计方法,可以降低指令Cache的缺失代价,以较小的实现代价进一步将处理器平均性能提高7.7%.通过本文的工作,可以同时降低指令Cache和数据Cache的缺失代价,处理器的平均性能提高了11.6%. 相似文献
12.
嵌入式处理器的Cache结构研究 总被引:5,自引:0,他引:5
陈章龙 《小型微型计算机系统》2004,25(7):1204-1206
针对嵌入式处理嚣结构的特点,探讨虚拟Cache的结构、性能及实施方法等进行,讨论了Cache的锁定来改进Cache的循环淘汰置换算法的可行性,并对基于ARM架构的嵌入式处理器的Cache结构特点作了介绍。 相似文献
13.
一种嵌入式处理器的动态可重构Cache设计 总被引:1,自引:0,他引:1
一般的处理器芯片都有片上高速缓存Cache,它一般是由固定大小的一级Cache(L1)和二级Cache(L2)构成,文章介绍了一种在嵌入式处理器设计中实现的动态可重构Cache。动态可重构Cache的思想最早是罗彻斯特大学(UniversityofRochester)的学者在他们的一篇关于存储层次的论文1中提出的,当时主要是针对高性能的超标量通用处理器。在此嵌入式处理器设计过程中,笔者创造性地继承了这一思想。通过增加少量硬件以及编译器的配合,在嵌入式处理器中L1Cache和L2Cache总体大小不变的情况下,L1Cache和L2Cache的大小可以根据具体的应用程序动态配置。通过对高速缓存的动态配置,不仅可以有效地提高Cache的命中率,还能够有效降低处理器的功耗。 相似文献
14.
该文分析总结了当前在内存数据库中提高树索引的缓存敏感性的主要技术,设计并实现了一个具有缓存敏感性的AVL树,即CC-AVL树。CC-AVL树合理利用缓存行的大小,并构造父子节点在内存中连续存储的结构,从而使一个缓存行中包含正要访问的节点和其左孩子节点,同时使用CPU支持的数据预取技术获得右孩子节点。从而使CC-AVL树比AVL树具有更高的缓存敏感性。CC-AVL树被用于一个运行在IP交换机中的嵌入式内存数据库HSQL中。 相似文献
15.
一种用于评估多核处理器存储层次性能的模型,使用排队论建模,求解速度快,可以在设计早期给出不同配置参数对处理器整体性能的影响,从而调整存储层次结构,优化设计. 相似文献
16.
本文论述了存储器分级结构,即cache—内存—外存三级结构的构成及作用,并说明了这种分级结构在微机中的应用现状。 相似文献
17.
18.
基于存储技术的高速嵌入式处理器的设计与实现 总被引:1,自引:0,他引:1
SoPC(片上可编程系统,System on a Programmable Chip)在嵌入式系统中有着广泛的应用,通常用FPGA(现场可编程门阵列,Field Programmable Gate Array)实现.一类嵌入式处理器,例如小波变换处理器、压缩和解压缩处理器、FFT处理器,都可以采用基于存储技术的设计方法.FPGA的片内存储资源相对较少,如何有效地利用FPGA的片内存储资源实现高速的嵌入式处理器成为需要研究的问题.文中以FFT处理器为例说明这种方法的有效性,通过采用一种地址映射调度策略和两种无冲突操作数地址映射方式,减少了所使用的FPGA片内存储资源,提高了处理速度.该FFT处理器在实际系统中起到了关键作用. 相似文献