首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
zw100处理器是西北工业大学和某研究所共同研制的采用MCU-DSP相融合架构的32位数字信号处理器。提出一种多发射多流水线结构来进行数字信号处理器的微体系结构设计,使该处理器同时具备了RISC load/store体系结构、DSP的计算能力和MCU的实时控制能力等特点。从zw100处理器指令集设计出发,首先介绍了该处理器架构和主要单元,然后重点讨论了基于多发射多流水线结构的指令调度策略、相邻指令耦合关系与发射机制、多发射条件下流水线相关的处理等。最后,对设计进行了仿真验证,并给出综合结果。目前,该处理器已采用TSMC 65nm CMOS工艺流片成功,频率达到500 MHz,达到2G MAC/s的运算能力,性能指标满足设计要求。  相似文献   

2.
针对通用处理器中比特级操作效率低下的问题,提出了一种面向序列密码算法的比特级抽取指令,并构造了与之相应的硬件单元。将该单元在CMOS 0.13μm工艺下完成综合,同时通过NIOSⅡ扩展指令的方式把设计的专用指令加入到处理器中进行了性能评估。结果表明:该指令的加入并不影响处理器的处理器频率,与未经扩展指令的嵌入式RSIC处理器相比,完成相同的抽取操作指令条数从250条减少为1条,有效地提升了序列密码算法的处理性能。  相似文献   

3.
利用FPGA的可重构特性,设计了一个基于精简指令系统的微处理器。该处理器采用微程序控制器思想,可完成指令的译码、执行以及数据的加工处理,通过Altera公司的QuartusⅡ9.0软件并结合EDA技术完成了核心电路的设计,硬件平台是型号为EP2C8Q240C8的FPGA芯片。该实验方案优势在于开发成本低、功耗低、可重构性,对设计成果进一步改进可适用于大多数嵌入式系统,其硬件可重构的特点对于提高信息安全性也有一定的作用。  相似文献   

4.
"龙腾"R2微处理器存储管理单元的设计与实现   总被引:1,自引:0,他引:1  
虚拟内存是一种管理物理内存资源的技术,将虚拟地址空间映像到物理地址空间。提出了一种设计32位超标量微处理器存储管理单元体系结构的方法,实现了访存和访I/O的逻辑地址到物理地址的转换,讨论了TLB(Translation Lookaside Buffer)设计中的关键技术以及在段、块或页的基础上提供的访问保护,满足了“龙腾”R2微处理器芯片的设计要求。整个芯片采用0.18μmCMOS工艺实现,芯片面积在4.8 mm×5.2 mm之内,核心频率超过233 MHz,功耗小于1.5 W。  相似文献   

5.
利用嵌入式ARM微处理器LPC2292和可编程逻辑器件EPF10K10为主要控制器件来完成LED显示屏设计.该屏采用模块化结构,可实现320×240点阵单色显示.在GPRS模块支持下,通过无线网实现显示内容刷新.  相似文献   

6.
针对嵌入式处理器中旁路转换缓冲(TLB)功耗和面积显著的问题,提出一种共享高速缓存硬件资源的低功耗TLB设计方法,消除了传统方法中TLB存储器的硬件资源及静态功耗.该方法通过设立两级TLB低功耗架构和缓存地址映射表,有效减少TLB的访问次数,降低了功耗;利用高速缓存的结构特性动态扩展TLB表项,扩大对物理内存的映射范围,提升TLB命中率.进一步提出了一种复用缓存替换策略的TLB表项的编码加锁方法,减少页面抖动,缓和TLB表项与指令、数据的资源冲突.实验结果表明:与传统的TLB设计相比,应用本方法的嵌入式处理器的功耗下降28.11%,面积减少21.58%.  相似文献   

7.
在多通道广域电磁接收机中,高性能嵌入式系统的应用,将有利于提高其智能化控制水平,更好地满足勘探中在功耗、信号处理能力和实时响应能力等方面的要求。本文在分析嵌入式系统及微处理器的基础上,选取了美国德州仪器公司生产的嵌入式ARM Cortex-A8微处理器AM3517作为硬件核心,阐述了AM3517处理器的基本工作原理和ARM嵌入式系统硬件平台的设计方法,结合广域电磁法的应用需求,设计了基于AM3517的核心主控电路。应用Cadence专业电子设计软件,详细解析了硬件平台设计过程,所设计平台配置了存储系统及外围硬件等模块,完成了核心系统的硬件电路原理图和PCB板设计。同时基于硬件平台,完成了Linux软件系统的移植以及主要模块的调试,经测试表明该ARM系统应用在广域电磁接收机中以实现主控功能是可行的。  相似文献   

8.
基于指令边界微操作跟踪的精确中断机制设计   总被引:1,自引:0,他引:1  
精确中断机制是嵌入式微处理器正确运行和状态恢复的保证。由于中断发生在指令边界,等到需要提交的指令成功改变处理器状态后才能执行流水线的冲刷和中断处理程序,不必要的指令预取和译码浪费了时钟周期,降低了中断响应实时性,增加了处理器功耗。文章描述了Longtium C2处理器的结构特点和微操作,提出一种基于指令边界微操作跟踪的精确中断机制IBMT,并对其结构和流程进行了设计和分析。IBMT对指令边界和中断窗口的位置进行实时检测,提前进行流水线冲刷及中断处理程序取指。使每次响应中断时平均节省39.34%的响应时间,提高了中断处理的实时性,避免了不必要的功耗浪费。  相似文献   

9.
随着航空硬件设计复杂度的提高,芯片验证技术已经成为了芯片设计的难点。为了有效缩短设计流程的总体工作时间,有必要在占据设计大量时间的验证中,研究出快速寻找设计错误的方法。被测设计是兼容ARM V4指令集架构(instruction set architecture, ISA)的处理器模型ARMChisel,该处理器模型采用新型的硬件语言Chisel构建,是一个具有高复杂性的硬件设计。基于这一嵌入式处理器模型:(1)设计了支持ARM V4 ISA架构全部指令的随机指令生成器,提高了生成测试激励的速度;(2)根据新型构建语言Chisel的特点,针对被测处理器模型设计了Chisel层面初级验证、覆盖率快速验证、直接测试验证和复杂应用程序验证策略,确保达到预期的覆盖率;(3)在Chisel环境和Verilog环境中搭建了基于嵌入式处理器模型的测试平台,测试平台收集覆盖率同时能快速准确地发现错误并定位错误,提高了验证速度。采用FPGA(field programmable gute array)方法加速大型应用程序的验证,缩短了验证周期。  相似文献   

10.
为了解决无线通信系统结构复杂、硬件占用大的问题,设计了一种优化的流水线型FFT/IFFT处理器。该FFT处理器专为IEEE802.11n协议中SISO-OFDM系统设计,根据SISO-OFDM需完成64点、128点快速傅里叶变换(FFT)的特点,FFT处理器选择基2、基4混合算法,单路延迟反馈结构。硬件实现中,采用优化的蝶形运算单元,精简了旋转因子的存储,并设计了动态存取的输出寄存器等,输入输出位宽为10 bit时,在UMC 0.11μm CMOS工艺下将硬件描述优化成逻辑门阵列,面积约为0.3 mm2。与传统的存储器结构FFT相比,大大减少了硬件开销和芯片面积及电路功耗。  相似文献   

11.
Intel的64位体系结构   总被引:1,自引:0,他引:1       下载免费PDF全文
Intel的64位体系结构突破了传统体系结构的局限,是真正的64位计算环境。本文对IA-64体系结构的设计原则、设计基础、指令格式、指令系统、所采用的主要技术及其它特征进行了介绍。  相似文献   

12.
针对深度流水线和复杂指令集结构,给出一种基于操作数访问时序的数据转发模型,使用5个参数描述指令执行过程,并以一种RISC/DSP结构MediaDSP64原型机为例进行分析.在分布式转发电路的基础上,提出一种基于提前写回策略的转发优化方法.该策略在不影响指令执行效率的前提下,通过将DSP指令中辅助寄存器的结果提前写回寄存器文件减少了转发源的数量.针对该方法造成的指令乱序执行情况,设计一种影子寄存器结构,保证了精确异常处理的实现.实验结果表明,转发电路的硬件资源占用减少了43.8%,关键路径延时下降了19.8%.  相似文献   

13.
嵌入式系统中高性能MCU控制器的设计与实现   总被引:3,自引:0,他引:3       下载免费PDF全文
提出了一种高性能MCU的控制器实现结构,利用一级流水线的预取址技术实现2时钟/机器周期,利用硬布线逻辑结构和多时钟体系结构以实现指令节拍发生器的功能.与传统8051相比,其速度大大提高,并扩展了标准8051的中断系统,具有实时、高速、多中断源的特点.利用Cadence EDA工具对电路进行了仿真,仿真结果验证了设计的准确性,并成功地在A ltera的APEX20K上通过了FPGA仿真.  相似文献   

14.
排序法是一种基于VelociTI结构的DSP指令分配方法。为了完善排序法,对该方法的不足进行了改进。改进的排序法在实现原有指令分配功能的基础上,完成了多周期NOPs指令的检测和当前执行包地址的生成,并结合指令执行条件测试原理,将排序后的执行包中没有被占用功能单元对应的字段设置为无条件不执行。用改进的排序法成功设计了一个DSP指令分配单元的RTL模型,仿真结果验证了方法的正确性。  相似文献   

15.
基于数据流模型和硬件可重构技术,提出了一种面向图像处理应用的可重构的多模式众核处理器结构.处理器采用了可扩展的层次化阵列结构,分布式共享存储和带硬件握手的近邻互连,可以分区并发实现多种并行模式,并克服了传统处理器实现数据流计算的低效性;基于VC++开发了集成仿真平台,用于对结构性能和指令性能的仿真验证,并在现场可编程门阵列上实现了包含64个处理单元的所提结构.仿真结果表明,所提结构实现了超过图形处理单元的性能以及接近专用集成电路的数据吞吐量.  相似文献   

16.
With the ever-increasing performance and flexibil-ity requirements in networks,the development of pro-grammable network processors is fast.Network proces-sors are used both in the middle of the network,as wellas at the edges of the network in enterprise c…  相似文献   

17.
专用指令集处理器具有数字信号处理器的可编程性和专用处理电路的高速性,以专用指令集处理器为核心构成的阵列式并行处理系统在高速实时处理方面有着非常重要的应用.为此,提出了一种基于专用指令集处理器的快速傅里叶变换并行处理机实现方法.设计了基于精简指令集处理器体系结构的可编程处理单元,以其为核心构成并行处理系统,采用通信矩阵解决了并行系统内各个处理单元间的数据交换问题,实现了1024点快速傅里叶变换的并行处理.实验结果表明,在快速傅里叶变换处理方面,其处理速度比典型数字信号处理器提高30%,且具有系统并行规模大、功能灵活可变、设计复杂程度适当、设计重复利用性好的优点,非常适合在现场可编程逻辑门阵列中以SoC的形式实现.  相似文献   

18.
一种SOC微处理器IP核的优化设计   总被引:1,自引:0,他引:1  
该文提出了多种改善微处理器设计的优化方法.在系统结构上,采用四级流水结构,改善了微处理器的执行效率;为了解决数据相关问题,采用了bypass技术,并进一步提高了流水线的效率.在CPU结构上,采用纯组合逻辑电路和改进的ALU算法,来提高处理器的速度.最后,对该CPU核完成了仿真和综合,并在FPGA上成功地实现.实验结果表明设计的SOC处理器在指令上与通用的PIC16C57的处理器兼容,而执行效率为其4倍,系统时钟可达到40MHz以上.  相似文献   

19.
详细介绍了用VHDL语言设计可逻辑综合的32位嵌入武微处理器及其实现过程。微处理器指令系统构架采用MIPS结构,设计上使用结构化编程方法,将微处理器内核按照功能划分为不同的模块,采用VHDL语言设计每一个模块的内部功能和外围接口。所有的功能模块组合起来后,通过EDA工具进行微处理器内核的逻辑综合和功能仿真。最后,在可编程逻辑器件上实现完整的微处理器内核。  相似文献   

20.
为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器(RISC/DSP)混合体系结构的媒体处理器:浙大数芯(MD32),给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准的处理过程,进行了视频处理指令扩展设计,提高了数据的并行处理能力,利用了指令内并行执行特性.为有效实现扩展指令,处理器执行级采用了可扩展流水级技术.实验结果表明,指令扩展硬件成本仅占MD32的2.7%,逆离散余弦变换实现性能比MMX/SSE指令集实现的性能分别提高31%和23%,运动补偿性能比MMX指令集实现的性能提高了40%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号