期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

龚帅帅吴晓波孟建熠丁永林《浙江大学学报(工学版)》2011,45(3):467-471

针对现代嵌入式处理器中指令高速缓存功耗显著的问题,提出一种基于Cache行间访问历史链接关系的指令高速缓存低功耗方法.通过创建独立可配置的顺序及跳转链接表项,利用链接表项中缓存的历史信息,消除Cache行间访问时对标志位存储器和冗余路数据存储器的访问功耗.进一步提出可复用的链接状态单元,克服了传统方法中由于缓存缺失引起的清空和重建链接表项的缺陷,显著降低了指令高速缓存访问功耗.实验表明,与传统指令高速缓存相比,本方法在取指单元面积仅增加1.35%的情况下,可平均减少标志位存储器访问次数96.38%. 相似文献

2.

基于指令回收的低功耗循环分支折合技术

孟建熠严晓浪葛海通《浙江大学学报(工学版)》2010,44(4):632-638

在分析循环分支特性的基础上,提出一种基于过期指令回收的高性能低功耗循环分支折合方法.该方法通过复用指令缓冲区硬件资源实现指令回收区.在循环分支折合过程中,循环体指令直接从回收区送入流水线,降低了分支延时,消除了指令高速缓存访问.通过自适应调整回收窗口宽度,可使有限的指令缓冲区硬件资源同时满足指令缓冲与指令回收的双重需求.当投机折合进入预测盲区时关闭分支预测存储器,从而降低投机折合的动态功耗.实验数据表明,与传统循环分支折合技术相比,应用本方法的嵌入式处理器总体性能平均提升5.03%,取指单元动态功耗下降22.10%. 相似文献

3.

基于内存页面动态合并的旁路转换缓冲器设计

陈志坚孟建熠葛海通严晓浪《浙江大学学报(工学版)》2012,46(1):118-122

针对内存管理中虚拟页面和物理页面连续分配的特性,提出可对相邻页面进行动态合并的旁路转换缓冲器（TLB）设计方法.该方法的核心思想是在处理器运行过程中,通过对相邻页面的递归合并,动态扩展单个TLB表项的地址映射范围,提高TLB表项的利用率并降低TLB缺失率.在两级TLB架构中,提出基于快速uTLB（fuTLB）和影子uTLB（suTLB）动态切换的新型uTLB结构,作为两级TLB架构的一级缓存,为页面动态合并提供现场和载体,页面合并过程对软件透明.基于Mibench测试基准的实验结果表明,与filter-TLB架构相比,该页面动态合并方法可以平均降低TLB缺失率达27%. 相似文献

4.

基于邻行链接访问的低功耗指令高速缓存

项晓燕陈志坚孟建熠严晓浪《浙江大学学报(工学版)》2013,47(7):1213-1217

通过分析高速缓存访问的局部性原理,提出当前高速缓存访问行与若干紧邻行链接访问的低功耗指令缓存访问方法.该方法能够在发生相对跳转时依托于相邻行之间的访问链接信息,精确获得跳转目标行的路访问信息,减少对高速缓存标志存储器的访问,达到降低动态功耗的目的.在高速缓存行发生替换时,仅需检测并清除被替换行相邻范围内的若干缓存行的链接信息,从而实现链接关系的正确性.与基于路记忆访问的高速缓存器相比,应用该方法的高速缓存器的动态功耗可以平均减少6%. 相似文献

5.

面向嵌入式应用的内存管理单元设计

刘坤杰游海亮严晓浪葛海通《浙江大学学报(工学版)》2007,41(7):1078-1082

提出了一种面向嵌入式应用的内存管理单元(MMU)的全综合设计结构，其地址转译缓存(TLB)采用多级结构，包括第一级分离的组相联微指令μITLB和微数据μDTLB及第二级统一的全相联JTLB.第一级μITLB和μDTLB表项少且组相联，查询速度快；第二级JTLB可采用多周期查询方式，易于高速综合实现.选取Mibench测试基准集中的部分典型应用，通过嵌入式片上系统(SoC)设计样例，验证了该MMU结构的应用适应性.SoC设计实验结果表明，多级TLB结构MMU的系统性能与单级全相联结构最大仅相差3.8%.将设计的MMU集成在自主开发的高端32-bit嵌入式芯核CK520中，在0.18 μm 6层金属工艺最差工作条件下，处理器的时钟频率达到230 MHz以上，面积仅增加了7.6%. 相似文献

6.

面向非写分配高速缓存的一致性协议及实现

修思文黄凯余慜谢天艺葛海通严晓浪《浙江大学学报(工学版)》2015,(2):351-359

针对现有的高速缓存一致性协议应用在基于写回、非写分配缓存的多核处理器的缺点,提出一种新颖的基于写干涉的一致性协议,并加以硬件实现.采用写干涉协议,在处理器产生写缺失操作时,可以把数据直接写到系统中其他处理器有效的该高速缓存行中;支持"脏数据"的延迟回写和缓存间的数据拷贝;且系统中只要存在有效的被请求的缓存行就可以提供数据,避免不必要的共享存储器访问.实验结果表明,该文提出的写干涉协议与MOESI协议相比,显著减少了对共享存储器的访问,提高了整个系统性能,同时大幅降了低动态功耗. 相似文献

7.

嵌入式Flash读取加速技术及实现

王钰博黄凯陈辰冯炯葛海通严晓浪《浙江大学学报(工学版)》2014,48(9):1570-1579

为了解决低成本和低功耗应用中的嵌入式Flash读取速度问题,提出多种基于缓存结构的嵌入式Flash读取加速技术及实现,包括低频快速访问技术、回填隐藏技术和改进型关键字优先预取策略,以及具有自适应预取功能的缓存锁定技术、预查找技术等,通过这些技术的整合应用,在提高Flash读取性能的同时,保持较低的功耗.仿真实验证明：在占用资源（缓存容量）较少,频率较低（用于部分低功耗应用）的环境下,这些技术的应用使加速控制器的加速性能与传统的2路组相联缓存相比得到了明显的提升（20%~40%）,同时加速控制器中读加速单元的动态功耗与传统2路组相联缓存相比降低了40%左右. 相似文献

8.

嵌入式Flash读取加速技术及实现

王钰博黄凯陈辰冯炯葛海通严晓浪《浙江大学学报(工学版)》2014,(8):1450

为了解决低成本和低功耗应用中的嵌入式Flash读取速度问题,提出多种基于缓存结构的嵌入式Flash读取加速技术及实现,包括低频快速访问技术、回填隐藏技术和改进型关键字优先预取策略,以及具有自适应预取功能的缓存锁定技术、预查找技术等,在提高Flash读取性能的同时,保持较低的功耗.仿真实验证明:在占用资源(缓存容量)较少,频率较低(用于部分低功耗应用)的环境下,这些技术的应用使加速控制器的加速性能与传统的2路组相联缓存相比得到了明显的提升,同时加速控制器中读加速单元的动态功耗与传统2路组相联缓存相比显著降低相似文献

9.

基于DBL结构的嵌入式64kb SRAM的低功耗设计

冯国臣刘兴旺沈绪榜《西安电子科技大学学报(自然科学版)》2005,32(4):643-647

针对嵌入式系统的低功耗要求,采用位线分割结构和存储阵列分块译码结构,完成了64kb低功耗SRAM模块的设计．与一般布局的存储器相比,采用这两种技术使存储器的功耗降低了43%,而面积仅增加了18%．相似文献

10.

低功耗、低复杂度TURBO码实现研究

姜小波陈杰仇玉林《电子科技大学学报(自然科学版)》2006,35(4):481-483

提出了一种改进的TURBO码算法,该算法改进了传统算法的路径度量的运算和可靠度的运算,可以显著地减少TURBO解码器使用的硬件资源,存储器的使用是传统算法的一半。根据改进的算法,该文还提出了一种新的加比选运算单元,综合结果和功耗分析显示,新的ACS单元面积和功耗分别是传统ACS单元的32.7%和26.8%。相似文献

11.

利用XY坐标实现GPU缓存索引分布在帧缓冲区上的漫射

张俊《吉林大学学报(工学版)》2013,(Z1):29-33

针对为CPU设计的缓存索引映射技术会导致严重的缓存冲突缺失问题,本文提出了一种全新的基于像素XY坐标进行索引计算的XY型缓存索引映射技术。该方法可以在帧缓冲区上获得缓存行索引分布的良好漫射,并且能完全避免不同帧解像度的不良影响。实验结果表明,XY型缓存索引映射技术可使缓存缺失率最大降低82%。采用该技术的直接映射缓存或2-way组相联缓存的缺失率接近全相联缓存,这有助于降低缓存设计复杂度与缓存功耗。相似文献

12.

基于媒体数字信号处理器的流预取机制

叶霞辛愿刘勇刘鹏《浙江大学学报(工学版)》2014,48(2):268-278

为了降低数据cache缺失而引起的延迟,提出一种针对媒体数字信号处理器MediaDSP64的一级数据cache优化策略,即基于流信息表的可变步长的最小差值预取,同时给出详细数据分析预取深度、流信息表项数和历史表长度对预取效果的影响,得出最优化的预取参数配置.仿真结果表明,该预取算法在最佳参数配置下针对评测程序H.264、DSP kernel和EEMBC消费类测试集性能分别提高了6%、32%和39%,处理器的平均访存时间分别减少了32%、56%和65%. 相似文献

13.

两级Trace Cache的设计与研究

康海涛唐朔飞季振洲王凯峰吴代辉《哈尔滨工业大学学报》2006,38(9):1450-1454

通过引入二级trace cache做为一级trace cache补充,捕获那些由于一级trace cache容量冲突而被换出的trace,能够部分缓解trace cache容量失效问题.在进一步提高处理器的性能的同时,也大大降低了为构造trace而对指令cache带宽的要求,空闲的指令cache带宽可以进一步被trace的预构及其他一些技术所利用.实验表明,在64KB一级Trace Cache的基础上,引入一个容量为1MB的二级Trace Cache后,对于go和gcc这类工作集较大的程序,处理器的性能提高了13%,指令cache带宽要求下降27%. 相似文献

14.

基于ARM处理器的嵌入式软件能耗统计模型

刘啸滨郭兵沈艳朱建王继禾伍元胜《电子科技大学学报(自然科学版)》2012,41(5):770-774

提出了一种嵌入式软件能耗的统计模型,包括处理器、存储器和I/O控制器等硬件单元产生的能耗,然后通过分析ARM指令周期数的规律,设计了指令周期数的相应计算方法,该方法能够快速地计算软件运行时处理器产生的能耗。在高精度指令级嵌入式软件能耗模拟器HMSim中进行了模型实现。实验结果表明,该模型的能耗计算结果与实际仪器测量结果的误差在10%以内,可较准确地反映软件实现方式对系统能耗的影响程度。相似文献

15.

一种高度并行的卷积神经网络加速器设计方法

徐欣刘强王少军《哈尔滨工业大学学报》2020,52(4):31-37

为实现卷积神经网络数据的高度并行传输与计算,生成高效的硬件加速器设计方案,提出了一种基于数据对齐并行处理、多卷积核并行计算的硬件架构设计和探索方法. 该方法首先根据输入图像尺寸对数据进行对齐预处理,实现数据层面的高度并行传输与计算,以提高加速器的数据传输和计算速度,并适应多种尺寸的输入图像;采用多卷积核并行计算方法,使不同的卷积核可同时对输入图片进行卷积,以实现卷积核层面的并行计算;基于该方法建立硬件资源与性能的数学模型,通过数值求解,获得性能与资源协同优化的高效卷积神经网络硬件架构方案. 实验结果表明: 所提出的方法,在Xilinx Zynq XC7Z045上实现的基于16位定点数的SSD网络(single shot multibox detector network)模型在175 MHz的时钟频率下,吞吐量可以达到44.59帧/s,整板功耗为9.72 W,能效为31.54 GOP/(s·W);与实现同一网络的中央处理器(CPU)和图形处理器(GPU)相比,功耗分别降低85.1%与93.9%;与现有的其他卷积神经网络硬件加速器设计相比,能效提升20%~60%,更适用于低功耗嵌入式应用场合. 相似文献

16.

支持程序无缝切换的高性能硬件堆栈

陈志坚孟建熠葛海通严晓浪《浙江大学学报(工学版)》2011,45(9):1587-1592

针对函数调用中上下文切换产生的性能损失,提出一种支持程序无缝切换的嵌入式处理器高性能硬件堆栈.高性能硬件堆栈包括数据栈和返回栈,采用动态可重构的两级缓存机制,消除程序切换的性能开销.数据栈实现单周期多数据压栈/出栈,隐藏程序切换中的堆栈操作;返回栈实现指令超前预取,消除程序返回时流水线气泡.数据栈与返回栈分别复用数据和指令高速暂存器,实现用户可重构的二级缓存.实验结果显示：本方法平均提升性能10%以上,功耗降低2%. 相似文献