期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

利用基地址相关的低功耗数据cache设计 总被引：2，自引：0，他引：2

张宇弘王界兵严晓浪汪乐宇《浙江大学学报(工学版)》2005,39(10):1524-1528

为了减少以地址偏移为主要寻址方式的精简指令处理器中数据cache的功耗，提出了充分利用读写指令相对于基地址的关联性，减少对cache的数据存储器和标志存储器的访问次数.通过建立两个数据结构来保存组选择信息：一个与通用寄存器一一对应的有效位表用来保证基地址仍然维持在原cache行；一个组选择信息表用来记录最近的cache访问的组选择信息，减少比较代价.该方法适用于多个组的组关联cache和可锁定的cache设计，已被应用于200 MHz的精简指令集（RISC）处理器中.该处理器采用TSMC0.18μm工艺，对一些基准程序进行了测试，结果显示该方法可以节省大约30％的数据cache功耗，还具有硬件代价小的优点相似文献

2.

基于历史链接关系的指令高速缓存低功耗方法

龚帅帅吴晓波孟建熠丁永林《浙江大学学报(工学版)》2011,45(3):467-471

针对现代嵌入式处理器中指令高速缓存功耗显著的问题,提出一种基于Cache行间访问历史链接关系的指令高速缓存低功耗方法.通过创建独立可配置的顺序及跳转链接表项,利用链接表项中缓存的历史信息,消除Cache行间访问时对标志位存储器和冗余路数据存储器的访问功耗.进一步提出可复用的链接状态单元,克服了传统方法中由于缓存缺失引起的清空和重建链接表项的缺陷,显著降低了指令高速缓存访问功耗.实验表明,与传统指令高速缓存相比,本方法在取指单元面积仅增加1.35%的情况下,可平均减少标志位存储器访问次数96.38%. 相似文献

3.

两级Trace Cache的设计与研究

康海涛唐朔飞季振洲王凯峰吴代辉《哈尔滨工业大学学报》2006,38(9):1450-1454

通过引入二级trace cache做为一级trace cache补充,捕获那些由于一级trace cache容量冲突而被换出的trace,能够部分缓解trace cache容量失效问题.在进一步提高处理器的性能的同时,也大大降低了为构造trace而对指令cache带宽的要求,空闲的指令cache带宽可以进一步被trace的预构及其他一些技术所利用.实验表明,在64KB一级Trace Cache的基础上,引入一个容量为1MB的二级Trace Cache后,对于go和gcc这类工作集较大的程序,处理器的性能提高了13%,指令cache带宽要求下降27%. 相似文献

4.

基于异构多核的LLC缓冲管理策略

方娟张希蓓刘士建《北京工业大学学报》2019,30(5):421-427

针对异构多核架构下,大量共享末级缓存（last level cache,LLC）空间被GPU应用程序占据,导致系统性能降低的问题,提出了一种基于异构多核的LLC缓冲管理策略buffer-for-GPU（BFG）.该策略在共享末级缓存旁侧建立一个与其结构相同的缓冲buffer,缓存不敏感GPU消息直接访问buffer而不访问LLC.针对CPU应用程序和GPU应用程序不同的特性,采用合理的替换策略,增加cache命中率.结果表明：BFG使CPU和GPU每一时钟周期内所执行的指令数（instruction per cycle,IPC）分别平均提升2.48%和9.30%,CPU应用程序命中率平均提升70.45%.BFG可以有效地过滤GPU请求,为CPU应用程序腾出LLC空间,从而提高系统性能.

相似文献

5.

关于并行程序设计方法的分析与研究 总被引：1，自引：0，他引：1

王文义赵建建王若雨《郑州大学学报(工学版)》2009,30(2)

并行程序设计与并行计算机的体系结构密切相关,因此其复杂性要远远大于串行程序设计.介绍了数据分解和循环体依赖等概念,提出了一个cache利用率和并行计算机有效速度的近似关系模型.通过该模型和一个实例,阐述了在并行程序设计中降低和拆解计算目标中数据依赖的方法过程,从而达到尽可能多地发掘指令级并行性,提高cache利用率即提高并行系统有效速度的目的. 相似文献

6.

基于邻行链接访问的低功耗指令高速缓存

项晓燕陈志坚孟建熠严晓浪《浙江大学学报(工学版)》2013,47(7):1213-1217

通过分析高速缓存访问的局部性原理,提出当前高速缓存访问行与若干紧邻行链接访问的低功耗指令缓存访问方法.该方法能够在发生相对跳转时依托于相邻行之间的访问链接信息,精确获得跳转目标行的路访问信息,减少对高速缓存标志存储器的访问,达到降低动态功耗的目的.在高速缓存行发生替换时,仅需检测并清除被替换行相邻范围内的若干缓存行的链接信息,从而实现链接关系的正确性.与基于路记忆访问的高速缓存器相比,应用该方法的高速缓存器的动态功耗可以平均减少6%. 相似文献

7.

基于指令回收的低功耗循环分支折合技术

孟建熠严晓浪葛海通《浙江大学学报(工学版)》2010,44(4):632-638

在分析循环分支特性的基础上,提出一种基于过期指令回收的高性能低功耗循环分支折合方法.该方法通过复用指令缓冲区硬件资源实现指令回收区.在循环分支折合过程中,循环体指令直接从回收区送入流水线,降低了分支延时,消除了指令高速缓存访问.通过自适应调整回收窗口宽度,可使有限的指令缓冲区硬件资源同时满足指令缓冲与指令回收的双重需求.当投机折合进入预测盲区时关闭分支预测存储器,从而降低投机折合的动态功耗.实验数据表明,与传统循环分支折合技术相比,应用本方法的嵌入式处理器总体性能平均提升5.03%,取指单元动态功耗下降22.10%. 相似文献

8.

确定自动机上的XML数据过滤算法改进

印桂生沈洁谢晓芹《哈尔滨工程大学学报》2011,32(3):328-333

XML数据过滤过程中存在的缓存失效会导致过滤效率的降低,因此研究基于确定有限自动机的XML数据过滤过程中如何减少缓存失效对于改进过滤的性能具有重要意义.对已有的Lazy DFA执行算法进行改进,引入了频繁访问区的概念,对缓存中的状态增加一个状态转换计数器,然后通过设定该计数器的访问阈值对缓存中的数据进行筛选,超过该阈值的状态被确定为频繁访问区中的状态.并通过实验证明该访问机制可以减少自动机中状态转移过程在缓存大量状态中的搜索时间,从而有效地提高过滤和查询的时间性能. 相似文献

9.

一种面向二维三维卷积的GPGPU cache旁路系统

贾世伟张玉明秦翔孙成璐田泽《西安电子科技大学学报(自然科学版)》2023,(2):92-100

通用图形处理器作为卷积神经网络的核心加速平台，其处理二维、三维卷积的性能，决定着神经网络在实时目标识别检测领域的有效应用。然而，受其固有cache系统功能的限制，当前通用图形处理器架构无法实现二维、三维卷积的高效加速。针对此问题，首先提出一种L1Dcache动态旁路设计方案。该方案定义了一组能够动态反映指令访问cache特征的数据结构，并基于此数据结构定义访存特征记录表，以记录不同访存指令在请求cache时的执行状态。其次，采用优先线程块的warp调度策略来加速访存状态的采样。最后根据访存状态得出不同PC值下访存请求对L1Dcache的旁路的判定，并动态完成部分低局域性数据请求对L1Dcache的旁路。由此将L1Dcache空间保留给高局域性的数据并降低二维、三维卷积执行时的访存阻塞周期，进而提升了二维、三维卷积在通用图形处理器上执行时的访存效率。实验结果表明，相比原架构，在面向二维、三维卷积时分别带来了约2.16%与19.79%的性能提升，体现了设计方案的有效性与实用性。相似文献

10.

基于高速缓存资源共享的TLB设计方法

徐鸿明孟建熠严晓浪葛海通《浙江大学学报(工学版)》2011,45(3):462-466

针对嵌入式处理器中旁路转换缓冲（TLB）功耗和面积显著的问题,提出一种共享高速缓存硬件资源的低功耗TLB设计方法,消除了传统方法中TLB存储器的硬件资源及静态功耗.该方法通过设立两级TLB低功耗架构和缓存地址映射表,有效减少TLB的访问次数,降低了功耗;利用高速缓存的结构特性动态扩展TLB表项,扩大对物理内存的映射范围,提升TLB命中率.进一步提出了一种复用缓存替换策略的TLB表项的编码加锁方法,减少页面抖动,缓和TLB表项与指令、数据的资源冲突.实验结果表明:与传统的TLB设计相比,应用本方法的嵌入式处理器的功耗下降28.11%,面积减少21.58%. 相似文献

11.

基于内容轨迹的内容中心网络多径路由策略 总被引：1，自引：0，他引：1

张岩黄韬刘江陈建亚刘韵洁《北京邮电大学学报》2014,37(3):98-103

内容中心网络路由的研究主要关注利用转发信息库端口来获取到达服务器的最优路径,路由路径外的节点缓存中内容无法得到充分利用. 而利用多个转发信息库端口的多径路由虽可对缓存充分利用,但会带来冗余传输. 针对这些问题,提出了一种基于内容轨迹的多径路由策略,利用内容轨迹将兴趣报文引导至原有路由表路径外的缓存处,使兴趣报文在到达服务器前搜索更多缓存,增加网内缓存命中率,减小服务器负载和兴趣报文平均跳数,并将多径路由冗余控制在一定范围内. 仿真结果表明,基于内容轨迹的多径路由策略相对现有策略服务器负载降低约10%,且在服务器较远的场景下可有效降低请求平均跳数. 相对于单径路由,基于内容轨迹的多径路由策略将网内缓存命中率提升了约20%;相对于多径路由冗余降低10%以上,且具有相近的网内缓存命中率. 相似文献

12.

Using probabilistic cache scheme to construct the small world network

邹福泰易平马范援李建华《哈尔滨工业大学学报(英文版)》2007,14(3):354-361

Recently some P2P systems have constructed the small world network using the small world model so as to improve the routing performance.In this paper,we propose a novel probabilistic cache scheme to construct the small world network based on the small world model and use it to improve CAN,that is,PCCAN(Probabilistic Cache-based CAN).PCCAN caches the long contact.It uses the worm routing replacing mechanism and probabilistic replacing strategy on the cache.The probabilistic cache scheme proves to be an efficient approach to model the small world phenomenon.Experiments in both the static and the dynamic network show that PCCAN can converge to the steady state with the cache scheme,and the routing performance is significantly improved with additional low overheads in the network compared with CAN. 相似文献

13.

多核处理器共享Cache低功耗可重构方法

方娟雷鼎《北京工业大学学报》2013,39(9):1355-1359

为了降低整个处理器的功耗, 分析了当前多核Cache低功耗技术, 并提出一种面向多核共享Cache低功耗的重构方法.在共享Cache上进行静态重构, 分析了Cache重构的必要性, 然后在Cache访问的过程中加入重构策略.实验结果证明:在性能平均损失4%的情况下, 功耗平均降低了18%左右. 相似文献

14.

人工智能技术在城市灾害风险管理中的应用与探索

朱思峰胡家铭杨诚瑞柴争义《北京工业大学学报》2023,36(9):1007-1015

针对智慧城市预警系统存在的传感器设备(sensor device, SD)的计算与存储能力不足、预警数据处理实时性差等问题, 基于边缘计算技术, 提出了云边协同的城市预警系统任务卸载模型。该模型引入了云边协同缓存策略, 并依次设计了时延模型、能耗模型和负载失衡度模型; 将任务卸载问题转化为多目标优化问题, 给出了一种基于MOEA/D算法的卸载决策方案, 并通过对比实验进行了验证。实验结果表明: 该卸载方案能够在保证总时延与总能耗较小的情况下使负载达到均衡, 并且优于其他基准方案。

相似文献

15.

嵌入式Flash读取加速技术及实现

王钰博黄凯陈辰冯炯葛海通严晓浪《浙江大学学报(工学版)》2014,48(9):1570-1579

为了解决低成本和低功耗应用中的嵌入式Flash读取速度问题,提出多种基于缓存结构的嵌入式Flash读取加速技术及实现,包括低频快速访问技术、回填隐藏技术和改进型关键字优先预取策略,以及具有自适应预取功能的缓存锁定技术、预查找技术等,通过这些技术的整合应用,在提高Flash读取性能的同时,保持较低的功耗.仿真实验证明：在占用资源（缓存容量）较少,频率较低（用于部分低功耗应用）的环境下,这些技术的应用使加速控制器的加速性能与传统的2路组相联缓存相比得到了明显的提升（20%~40%）,同时加速控制器中读加速单元的动态功耗与传统2路组相联缓存相比降低了40%左右. 相似文献

16.

利用XY坐标实现GPU缓存索引分布在帧缓冲区上的漫射

张俊《吉林大学学报(工学版)》2013,(Z1):29-33

针对为CPU设计的缓存索引映射技术会导致严重的缓存冲突缺失问题,本文提出了一种全新的基于像素XY坐标进行索引计算的XY型缓存索引映射技术。该方法可以在帧缓冲区上获得缓存行索引分布的良好漫射,并且能完全避免不同帧解像度的不良影响。实验结果表明,XY型缓存索引映射技术可使缓存缺失率最大降低82%。采用该技术的直接映射缓存或2-way组相联缓存的缺失率接近全相联缓存,这有助于降低缓存设计复杂度与缓存功耗。相似文献

17.

广域网中分布自组织Cache系统的研究 总被引：1，自引：0，他引：1

陈君《北京邮电大学学报》1999,22(4):45-49

将Ｃａｃｈｅ技术与主动网络结合,提出了一种新颖的具有有限半径的分布自组织Ｃａｃｈｅ系统,首次提出了相邻Ｃａｃｈｅ树的概念及其生成算法,分析了相邻Ｃａｃｈｅ树增加的最大最小存储代价,对内存分配和响应时延之间的关系进行了理论计算,证明了内存分配的最佳平衡点的存在性,并给出了一般的求解方法。相似文献

18.

基于交互式级联布隆过滤器的一体化网络访问控制缓存系统

祁晖底晓强李锦青杨华民姜会林《长春理工大学学报(自然科学版)》2017,40(5)

通过深入研究基于级联布隆过滤器的缓存方案,重新构造了基于角色的访问控制(RBAC)系统的缓存结构,设计并实现了基于交互式级联布隆过滤器的访问控制缓存系统。在访问控制决策点(PDP)上设计了专门的数据结构来存储基于角色的访问控制规则及其散列函数值,并根据这些信息高效地生成、更新辅助决策点(SDP)的级联布隆过滤器,降低了SDP对缓存存储空间的需求,提高了级联布隆过滤器的更新效率。该系统可应用于大规模、分布式的应用系统和网络系统,以加快访问控制速度,提升系统整体服务质量。相似文献

19.

A hybrid storage technology for low power consumption and high I/O performance in an IPTV set-top box

Deok-hwan Kim Jun-sik Yang 《中南工业大学学报(英文版)》2012,19(5):1267-1275

A new method of prefetching data blocks from the NVCache to the page cache in main memory and cascading prefetching n-blocks from a hard disk to the NVCache together was proposed to reduce the spin-up frequency of a hybrid hard disk drive and thus enhance I/O performance. The proposed method consists of three steps: 1) Analyzing the pattern of read requests in block units; 2) Determining the number of blocks prefetched to the NVCache; 3) Replacing blocks in the NVCache according to the block replacement policy. The proposed method can reduce the latency time of a hybrid hard disk and optimize the power consumption of an IPTV set-top box. Experimental results show that the proposed method provides better average response time compared to an existing adaptive multistream prefetching (AMP) method by 25.17%. It also reduces by 20.83% the average power consumption over that of the existing external caching in energy saving storage system (EXCES) method. 相似文献