首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 338 毫秒
1.
为构建一个合理高效的多核系统通信架构及数据存储路径,提出了一种使用多通道Cache的可扩展可配置多核体系(Architecture Utilizing Multi-Channel Cache,AUMCC),并基于FPGA利用LEON3处理器建立了该体系的原型平台.AUMCC体系中采用多通道Cache作为L2级Cache,并且基于多通道Cache的不同访问模式,AUMCC可以配置成私有L2 Cache或共享L2 Cache两种结构.原型系统中模拟测试结果表明,相比传统共享L2Cache体系,性能提高了37%,同时AUMCC的系统层次化特性确保了良好的系统扩展性。  相似文献   

2.
针对多核共享Cache动态划分技术存在硬件存储开销较大、划分颠簸等问题,提出了一种渐变的多核共享Cache动态划分算法。渐变算法旨在追求最优划分性能的同时,减小划分机制实现的硬件开销。渐变算法采用基于组相联Cache路的划分机制,每次划分时最多只允许1路的Cache转移。具有硬件存储开销小、划分稳定、易于实现等特点。例如,对于1MB的16路组相联L2Cache,渐变的Cache动态划分机制仅增加0.01%的硬件存储开销,与UCP方法比较,增加的硬件存储开销可减小至6.25%。  相似文献   

3.
针对异构多核架构下,大量共享末级缓存(last level cache,LLC)空间被GPU应用程序占据,导致系统性能降低的问题,提出了一种基于异构多核的LLC缓冲管理策略buffer-for-GPU(BFG).该策略在共享末级缓存旁侧建立一个与其结构相同的缓冲buffer,缓存不敏感GPU消息直接访问buffer而不访问LLC.针对CPU应用程序和GPU应用程序不同的特性,采用合理的替换策略,增加cache命中率.结果表明:BFG使CPU和GPU每一时钟周期内所执行的指令数(instruction per cycle,IPC)分别平均提升2. 48%和9. 30%,CPU应用程序命中率平均提升70. 45%. BFG可以有效地过滤GPU请求,为CPU应用程序腾出LLC空间,从而提高系统性能.  相似文献   

4.
针对Cache目录一致性协议,提出一种Home自稽查和私有数据本地访问的方法。利用Cache写机制同步更新Home过程,增加Home稽查流程来判断Home Core工作状态,并通过广播使副本数据无效的方法来解决Home Core异常带来的Cache不一致问题;通过静态区分本地和共享数据,使本地数据不参与Cache一致性过程来提高访问效率。仿真测试表明,改进后的Cache一致性在数据准确性和访问效率有所提高,方案合理可行。  相似文献   

5.
为降低消费类电子产品中嵌入式Flash的读取功耗,设计了一种基于Cache机制的Flash控制器。将Cache机制引入Flash控制器中,运用控制变量的方法,分析了容量、关联度和行长与Cache命中率、微控制器功耗的关系,给出了Cache相应的参数。结果表明,容量选择1024字节、关联度和行长选择4字/1路模式时,Cache具有较高命中率,微控制器功耗的优化效果最为明显。  相似文献   

6.
可将科学计算中大量算法的计算形式视为由流计算和相当比例的通用计算混合而成。针对低并行度计算以及不易流化(Streamlization)的数据结构对流计算整体性能具有较大影响,提出了一种软、硬件可控的适应性片上存储结构DAMS Cache。该结构能够同时适应混杂流计算中流数据以及标量数据的存储需求;采用了适应性动态存储资源分配策略和适应性动态地址映射策略解决地址映射冲突问题;通过全硬件支持非规则流、条件流的存储与访问,混合数据替换策略能够充分挖掘数据的生产者-消费者局部性及时间、空间局部性。验证评估实验表明,相对Cache以及SPM(Scratchpad Memory),DAMS Cache算法的适应性较好,面向混杂流计算的性能较优。  相似文献   

7.
通过引入二级trace cache做为一级trace cache补充,捕获那些由于一级trace cache容量冲突而被换出的trace,能够部分缓解trace cache容量失效问题.在进一步提高处理器的性能的同时,也大大降低了为构造trace而对指令cache带宽的要求,空闲的指令cache带宽可以进一步被trace的预构及其他一些技术所利用.实验表明,在64KB一级Trace Cache的基础上,引入一个容量为1MB的二级Trace Cache后,对于go和gcc这类工作集较大的程序,处理器的性能提高了13%,指令cache带宽要求下降27%.  相似文献   

8.
为了降低整个处理器的功耗,分析了当前多核Cache低功耗技术,并提出一种面向多核共享Cache低功耗的重构方法.在共享Cache上进行静态重构,分析了Cache重构的必要性,然后在Cache访问的过程中加入重构策略.实验结果证明:在性能平均损失4%的情况下,功耗平均降低了18%左右.  相似文献   

9.
提出了一种基于G-Chord算法的节点Cache共享模型,实现对象的搜索、存储和分发,有效地利用了客户节点的缓存内容,提高了客户间的合作,减小了客户的等待时间,降低了服务器的压力.仿真实验证明,采用G-Chord算法处理节点的路由表长度有了显著的缩减,能够保持较好的平均路径长度.此外,对分组数量的不同取值、节点负载的研究也为G-Chord的分组方案提供了一定的参考依据.  相似文献   

10.
大量数据运算和交换需要现场FPGA配合DSP进行处理,导致装置结构复杂、功耗增大,影响系统可靠运行。以片上系统芯片为基本架构,基于高速一致性接口和双倍数据率共享的数据交互机制,提出一种基于SOC系统的FPGA和ARM数据交互方法,可适用于智能变电站继电保护装置。该方法充分利用ACP接口带宽和SOC L2 Cache特性,通过ARM外挂的DDR存储器进行数据交互;同时,考虑到继电保护各种报文的优先级,对于报文采用严格优先级的调度方案,确保高优先级报文被优先传递。装置性能测试结果验证了该设计方案的可行性。  相似文献   

11.
在分析传统的解决Cache一致性问题方法的基础上,应用偏序关系理论,建立了LC存储模型及Cache一致性协议,该协议同以往基于“存储一致性假定”的传统协议相比具有简单和可伸缩性的优点,解决了传统协议对存储操作顺序严格限制的问题。  相似文献   

12.
RAID及并行预取技术分析   总被引:1,自引:0,他引:1  
介绍目前常用的RAID级别,并从I/O响应时间、磁盘调度算法、数据预取策略、Cache替换算法方面分析了并行预取技术.最后提出了设计并行预取系统的若干建议。  相似文献   

13.
微型计算机系统中Cache的结构及性能分析   总被引:2,自引:0,他引:2  
在对 Cache原理和结构的研究基础上 ,以 80 386和 Pentium为例 ,分析了微机系统中的 Cache结构以及 Cache结构对微机系统性能的影响。  相似文献   

14.
文章分析了传统的WEB在线交流平台的优缺点,针对在线交流平台的需求,采用AJAx和.NET的XML WebService、Web高速缓存技术,开发了基于AJAX的WEB在线交流平台。AJAX页面无刷新技术的使用,合理的避免了页面的整体刷新,从而提升了用户体验,提高了系统性能。  相似文献   

15.
应用于超宽输入范围的变拓扑LLC电路   总被引:1,自引:0,他引:1  
为了拓展新能源并网的输入电压范围,提出一种全桥LLC (FBLLC)和半桥LLC(HBLLC)相结合的变拓扑电路.当输入电压低,采用FBLLC模态;当输入电压高,采用HBLLC模态.通过由数字信号处理器(DSP)进行全数字控制,电路随着输入电压的变化在HBLLC和FBLLC之间切换.这种变拓扑电路完全不增加额外器件,单纯依靠软件控制,控制简单,在拓扑切换上采用一种新的控制策略来尽可能优化效率.与传统LLC对比,分析和实验表明,在相同条件下,变拓扑LLC使输入电压范围能够拓展1倍.通过一个最大和最小输入电压比为4的对比试验,分别采用变拓扑LLC和传统LLC,结果表明:采用变拓扑电路,其整体效率能提升约3%.该拓扑适合应用于超宽输入电压范围的场合,如风力、光伏发电等.  相似文献   

16.
基于LLC谐振变换器的工作原理,提出了一种基于优化LLC谐振变换器中的励磁电感来降低谐振电流和变压器次级输出电流有效值的设计方法.根据高效率、高功率密度和高频化的要求,通过研究各参数变化对电路运行和性能所造成的影响,设计了一个1MHz的LLC谐振变换器,给出了实验和仿真结果.  相似文献   

17.
为了降低电压型逆变器在高频感应加热电源应用中功率器件上的电流和功耗,提出了一种适用于高频大功率感应加热的新型电感-电感-电容(LLC)谐振拓扑。在拓扑中增加电感,使电源和负载隔离,通过调节负载电流大小来降低功率器件上的功耗;同时去掉高频功率匹配变压器,减小电源的体积和重量,并提高电源效率。给出了该拓扑的谐振特性和各参数设计准则,并根据拓扑特性和系统要求设计了新的锁相环(PLL)控制系统。仿真和实验结果表明,这种拓扑相对于传统的谐振拓扑更能满足高频大功率应用环境的要求。  相似文献   

18.
Batch Normalization (BN) can effectively speed up deep neural network training, while its complex data dependence leads to the serious "memory wall" bottleneck. Aiming at the "memory wall" bottleneck for the training of the convolutional neural network(CNN) with BN layers, an effective memory access optimization method is proposed through BN reconstruction and fused-layers computation. First, through detailed analysis of BN’s data dependence and memory access features during training, some key factors for large amounts of memory access are identified. Second, the “Convolution + BN + ReLU (Rectified Linear Unit)” block is fused as a computational block to reduce memory access with re-computing strategy in training. Besides, the BN layer is split into two sub-layers which are respectively fused with its adjacent layers, and this approach further reduces memory access during training and effectively improves the accelerator’s computational efficiency. Experimental results show that the amount of memory access is decreased by 33%, 22% and 31% respectively, and the actual computing efficiency of the V100 is improved by 20.5%, 18.5% and 18.1% respectively when the ResNet-50, Inception V3 and DenseNet are trained on the NVIDIA TELSA V100 GPU with the optimization method. The proposed method exploits the characteristics of memory access during training, and can be used in conjunction with other optimization methods to further reduce the amount of memory access during training.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号