首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
EMSIM是一款基于指令集的功耗模拟器,EMSIM模拟了嵌入式体系结构各个硬件单元以及指令的执行。本文重点分析了EMSIM对SA-110的MMU/Cache模拟所采用的数据结构和函数模型,并在借鉴Skyeye模拟MMU/Cache的基础上,提出了一种扩展EMSIM模拟MMU/Cache的方法,实现了EMSIM对ARM7100的MMU/Cache的模拟。扩展后的EMSIM能同时模拟SA-110和ARM7100的MMU/Cache。  相似文献   

2.
卢仕听  尤凯迪  韩军  曾晓洋 《计算机工程》2010,36(21):270-271,274
设计MIPS32 4kc处理器内存管理单元(MMU),该模块对处理器地址进行合法性检查,并按照不同的地址空间对虚拟地址进行静态或动态映射。在硬件上采用三级流水线方式实现JTLB,并为处理器指令端口和数据端口设计相应的快表以提高TLB的查询速度。MMU与总线接口模块的时序采用简化的AMBA协议,与处理器进行联合调试并运行Linux操作系统,同时在功能上通过FPGA验证。该模块经过DC综合后,面积约为32K等效逻辑门。  相似文献   

3.
嵌入式处理器在片调试功能的设计与实现   总被引:2,自引:1,他引:1  
以龙芯1号处理器为研究对象,探讨了嵌入式处理器中在片调试功能的设计实现方法.通过扩充IEEEP1149.1协议的JTAG测试访问端口(TAP),并在处理器内部增加控制模块,实现了软件调试断点、调试中断、硬件断点以及单步执行等多种在片调试功能.调试主机只需要通过一根JTAG调试电缆就可以访问目标处理器内部寄存器等各种资源,并控制目标处理器的运行过程,实现了处理器的在片调试功能,大大地方便了软件开发与系统调试.  相似文献   

4.
针对嵌入式处理器在FPGA中的应用现状,通过引入通用的调试模块,实现了对没有调试接口的嵌入式处理器进行在线调试的功能。所设计的调试模块通过引入专用的调试中断及与之对应的调试服务程序实现一种处理器响应断点(breakpoint)的机制,并基于双端口RAM中一种巧妙的地址映射机制实现同时对多行代码设置断点的功能。实际的工程应用情况表明,新的调试方法扩展了对小型嵌入式处理器进行调试的手段,明显提高了开发效率。  相似文献   

5.
方娟  王帅  于璐 《计算机科学》2014,41(7):36-39,73
如何提高多核处理器的性能和降低多核处理器中Cache的功耗已经成为下一代多核处理器的研究热点。为了降低片上多核处理器的功耗,基于路适应算法可以采用一种新的动态划分机制,该机制主要由路分配模块和动态功耗控制模块组成。路分配模块在程序运行过程中根据处理器核所运行线程的工作集的大小调整处理器核所分配的Cache路。动态功耗控制模块利用程序运行的局部性原理,将处理器核所运行线程的工作空间控制在少数Cache路中。关闭剩余的Cache路,从而达到降低Cache功耗的目的。该机制使用Simics全系统模拟平台模拟多核处理器,并用SpecOMP测试集测试了系统的性能和功耗。与传统的Cache(Conventional L2Cache,C-L2)相比,其IPC提高了9.27%,功耗降低了10.95%。  相似文献   

6.
近年来,众核处理器技术飞速发展,而面向该体系架构的软件调试技术相对滞后。针对众核平台上软件调试的特点,提出了一种一对多的软件调试模型,基于开源调试器gdb,设计了指令移位断点算法。该设计克服了硬件断点数量的限制,提升了异常定位的精确度,改善了软件调试器的易用性。最后通过实例对采用该设计的软件调试器进行了验证。结果表明,该设计能够有效解决众核程序的调试问题,提高软件调试器的执行效率,帮助程序员快速定位软件错误。  相似文献   

7.
片上多处理器中二级Cache的设计和管理是影响其性能的关键因素之一。在私有二级Cache的基础上,提出一种基于集中式一致性目录的协作Cache设计方案,通过有效地管理片上存储资源来优化处理器的性能,从而使该协作Cache具有平均访存延迟小、Cache缺失率低、可扩展性好等优点。实验结果显示,与共享二级Cache设计相比,协作Cache可以将4核处理器的吞吐量平均提高13.5%,而其硬件开销约为8.1%。  相似文献   

8.
一种嵌入式处理器的动态可重构Cache设计   总被引:1,自引:0,他引:1  
一般的处理器芯片都有片上高速缓存Cache,它一般是由固定大小的一级Cache(L1)和二级Cache(L2)构成,文章介绍了一种在嵌入式处理器设计中实现的动态可重构Cache。动态可重构Cache的思想最早是罗彻斯特大学(UniversityofRochester)的学者在他们的一篇关于存储层次的论文1中提出的,当时主要是针对高性能的超标量通用处理器。在此嵌入式处理器设计过程中,笔者创造性地继承了这一思想。通过增加少量硬件以及编译器的配合,在嵌入式处理器中L1Cache和L2Cache总体大小不变的情况下,L1Cache和L2Cache的大小可以根据具体的应用程序动态配置。通过对高速缓存的动态配置,不仅可以有效地提高Cache的命中率,还能够有效降低处理器的功耗。  相似文献   

9.
CISC中混合Cache的优化设计   总被引:1,自引:1,他引:0  
论文重点讨论CISC系统中混合Cache的Cache容量、块大小、相联度和替换策略等对Cache系统性能的影响,得到了一种混合Cache的优化方法。基于此方法,设计了“龙腾C1”CISC处理器中Cache单元,综合和流片结果表明该设计符合要求。  相似文献   

10.
根据ARM926EJ-S处理器中MMU协处理器的硬件结构和工作原理,利用CCD建模方法来描述MMU的体系结构,并用FSM建模方法来描述MMU的取指过程和数据读写过程,建立MMU的软件模拟模型。利用建立的模拟模型,给出了模型在实际工程中的应用并进行了测试实验。实验结果表明,建立的MMU模拟模型能够正确模拟MMU的功能,在工程实践中具有较好的应用价值。  相似文献   

11.
为提高可扩展处理器体系结构(SPARC)的设计抽象层次和仿真速度,设计一种符合第8版SPARC(SPARC V8)的事务级模型。该模型基于TLM2.0标准,采用解释型指令集仿真方法实现程序执行。通过构建验证环境,证明该事务级模型能够正确运行并跟踪SPARC V8程序,仿真速度比寄存器传输级提高2个数量级。  相似文献   

12.
基于功能级处理器模拟器,采用时序制导的方法,提出了一种时钟级处理器模拟器的快速开发方法。该方法对指令的模拟引入流水线,依靠流水线的时序推动功能模块的运行,如ALU、Co-processor、MMU、TLB等。给出了RISC/MIPS流水线的设计方法,并进一步阐述了如何将流水线和处理器功能级模拟单元的耦合起来,构成时钟级模拟的整体框架。基于此框架,开发了ClkSim模拟器。经过SPEC CPU 2000的对比测试,ClkSim拥有较高的模拟性能和精度。  相似文献   

13.
介绍了一款北斗/GPS双模导航芯片中SoC子系统的设计方案.该子系统包括晶心公司设计的N10处理器、FPU协处理器,还包括 UART、I2C、SPI、GPIO 等基本外设.该 SoC子系统承载着软件的运行,并实现了处理器与外界的通信能力.根据上层软件的需求,该SoC子系统没有例化内存管理单元、缓存、外部中断管理单元等模块.该 SoC子系统分别例化了程序和数据SRAM,可以使处理器更快速地进行取指与访存.这些设计决策简化了该 SoC 子系统的设计,同时提高了处理器的运行速度,降低了芯片的功耗和面积.  相似文献   

14.
15.
Real-time systems are characterised by the fact that they have to meet a set of both functional and temporal requirements. Processor architectures have a significant impact on the predictability of software execution times and can add different sources of indeterminism depending on the features provided. The LEON processor family is the reference platform for space missions of the European Space Agency, with open-source implementations that are written in VHDL language. All versions of the LEON processors conform to the SPARC architecture Version 8. This architecture groups the general-purpose registers into windows to reduce memory transfer overhead in function calls. Unfortunately, this mechanism introduces indeterminism in software execution times at various levels. In this paper, we propose an extension to the original architecture that provides determinism for a configurable subset of tasks and interrupt service routines and eliminates the concurrency-related jitter, all this with a minimum cost in terms of FPGA resource utilisation. For the validation of the proposed solution, we have implemented the extension into the VHDL code of the LEON3 processor and modified the source code of the RTEMS operating system to make use of the new functionality.  相似文献   

16.
为了提高密码嵌入式处理器的运行效率,给出了一种哈佛结构的高速缓存(Cache)设计,包括指令Cache(iCache)和数据Cache(dCache)。采用双端口RAM和较低的硬件开销设计了标签存储器和指令/数据存储器,并描述了iCache和dCache控制流程。实现时配置iCache容量为4KB、dCache容量为8KB,并完成了向密码嵌入式处理器的集成。FPGA验证结果表明其满足处理器的应用要求;性能分析结果表明,采用Cache比处理器直接访问主存在速度上至少提高5.26倍。  相似文献   

17.
基于软硬件的协同支持在众核上对1-DFFT算法的优化研究   总被引:2,自引:0,他引:2  
随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性.  相似文献   

18.
This work presents a hardware implementation of an image processing algorithm for blood type determination. The image processing technique proposed in this paper uses the appearance of agglutination to determine blood type by detecting edges and contrast within the agglutinated sample. An FPGA implementation and parallel processing algorithms are used in conjugation with image processing techniques to make this system reliable for the characterization of large numbers of blood samples. The program was developed using Matlab software then transferred and implemented on a Vertex 6 FPGA from Xilinx employing ISE software. Hardware implementation of the proposed algorithm on FPGA demonstrates a power consumption of 770 mW from a 2.5 V power supply. Blood type characterization using our FPGA implementation requires only 6.6 s, while a desktop computer-based algorithm with Matlab implementation on a Pentium 4 processor with a 3 GHz clock takes 90 s. The presented device is faster, more portable, less expensive, and consumes less power than conventional instruments. The proposed hardware solution achieved accuracy of 99.5% when tested with over 500 different blood samples.  相似文献   

19.
基于ARM和NAND Flash的FPGA加载配置在TD-LTE中的实现   总被引:2,自引:0,他引:2  
提出一种基于ARM和NAND Flash的FPGA加载配置的设计。选取Virtex-5系列的XC5VSX95T和ARM11系列的S3C6410处理器作为硬件平台,研究了利用NAND Flash自启动、以8 bit的SelectMAP模式配置FPGA的流程及实现。介绍了其配置原理、软硬件实现过程以及实现结果分析,重点分析了ARM+NAND的控制方法。该方案已在TD-LTE无线综合测试仪表中成功应用,是一套灵活和高效的FPGA配制方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号