共查询到19条相似文献,搜索用时 156 毫秒
1.
基于层次化总线的多处理器系统芯片设计与测试 总被引:1,自引:0,他引:1
在单个芯片上集成多个处理器以提高SoC的整体性能已成为下一代集成电路设计趋势.如何提高其中多个处理器之间的通讯效率则成为MPSoC的设计关键.传统SoC平台中多以单总线结构为主,随着SoC中IP数目的增加,通讯效率随之降低.基于MPSoC环境下,提出一种层次化总线结构:本地总线负责处理器与本地内存通讯;全局总线实现对全局设备的访问.两级总线通过总线桥连接.在RTL级设计了上述平台,以流水矩阵乘法为例研究其在不同工作负载下的加速比变化.实验结果表明,在四个处理器的情形下,循环次数为4次时加速比仅为2.2;随着循环次数增多,加速比可达3.2. 相似文献
2.
8核NoC原型芯片设计与应用性能评估 总被引:1,自引:0,他引:1
片上网络(Network On Chip,NoC)是最具潜力的下一代片上互连技术。但NoC架构的引入也带来了芯片设计复杂度的大幅提高,从而使得传统仿真方式会消耗过多的时间。提出了一种有效的基于FPGA器件的多核系统原型设计与性能评估方法。实现了一款集成了8个处理核的NoC架构下的多处理核系统原型,并通过两种实际应用对系统性能进行评估和探索。实验结果表明,该原型在矩阵乘法应用和JPEG图片解码应用中加速比最高分别可达到7.53和2.75。而相对于层次化总线架构,NoC架构的通信性能可提高5%~40%。 相似文献
3.
基于AMBA-AHB总线多核平台的JPEG解码 总被引:1,自引:1,他引:1
随着半导体工艺技术的发展,在单一芯片上集成多个处理器核已成为可能,在高端应用需求的驱动下,片上多处理器系统(Multi—Processor System-On-a-Chip,MPSoC)为高度并行的计算和通信提供了一种可行的解决方案。本文首先描述了一种基于AMBAAHB层次总线结构的片上多处理器系统硬件架构,然后以此为基础实现了2种并行化的JPEG解码算法。实验采用Altera Stratix Ⅱ FPGA器件,整个系统运行在60MHz的时钟频率下,与采用单个处理器实现的串行JPEG解码算法相比较,在集成了4个处理器核的MPSoC系统架构上实现的并行JPEG解码算法得到的最大加速比为2.23。 相似文献
4.
5.
设计了一种面向计算密集型应用的多核混合架构可重构计算系统MRCS。其可重构处理器中的可重构阵列计算单元负责密集规则的运算,浮点处理器负责离散运算,配合灵活的本地缓冲,有效地提高了多核可重构计算系统对算法的适应性。实现了一个能够稳定地运行在100 MHz的基于FPGA的MRCS原型,并通过分别映射大维度浮点矩阵乘法、IDCT算法和运动估计算法进行性能验证。实验结果表明MRCS具有更高的计算效率和灵活性。 相似文献
6.
物联网、汽车制造、智慧医疗等行业的飞速发展,加快了端设备芯片的推广和应用,随之而来的芯片安全问题也暴露出来,传统的单片机或ARM-A系列的CPU芯片已经不能满足越来越复杂的应用需求。为解决目前端设备存在芯片安全防护不足、传输速度慢、功耗高、计算资源不足等问题,结合SoC设计理念,提出了一种基于高速总线的密码SoC设计方案,实现对端设备的传感器、芯片、硬件的动态状态获取,接收多种高速协议接口数据,加密存储及备份至云端等功能。该方案基于SoC设计,采用开源处理器,完成了一套由处理器、高速总线、硬件外设、加密单元相结合的低功耗加密监控芯片。综合及功耗分析和实验结果表明,实现了数据的高速可靠传输与加密,满足大容量数据快速加解密的需求;采用低功耗设计,性能无影响,功耗降低约20%。 相似文献
7.
8.
调度算法是多核处理器操作系统设计的核心所在,如何合理地将众多任务分配给不同的资源以使整个多核处理器系统达到最佳性能,是调度要解决的首要问题.在经典多处理器任务调度算法——ONERT算法的基础上,提出一种基于任务紧迫度的改进算法,较好地弥补了ONERT算法在处理器轻载时负载不均衡的不足.通过python程序实现了该算法,并通过实验验证了该方法在处理器轻载时实现比ONERT算法更好的负载均衡. 相似文献
9.
在片上系统(system on chip, SoC)设计的过程中,为了减少芯片面积和知识产权核授权成本且不降低芯片性能,一般仅在芯片内部放置静态随机存取存储器(static random-access memory, SRAM)对用户程序进行存储和修改,这样SoC就需要一种或多种合适的程序加载和更新方式。为解决现有方案存在的程序加载方式复杂、可选的存储器件单一、通用性低等问题,研究并设计了SoC程序加载与更新的硬件控制器模块。该模块最多支持3种非易失性存储器共6种存储器选择方案在上电时自举加载程序至SRAM并启动SoC、程序在线或者离线(带EXFAT文件系统)更新。最后设计基于ARM CM3内核的SoC对该模块在现场可编程门阵列(field programmable gate array, FPGA)平台进行验证,结果表明,该模块在50 MHz时钟下处理16 Kbyte程序,最快11.5 ms完成SoC自举加载启动、20.5 ms完成程序在线更新和启动、300 ms完成离线更新并启动。该模块仅与SoC内核复位相连且不与下载器通信,可嵌入其他SoC内核并根据成本自由选择存储器和下载器,在... 相似文献
10.
在智能间隔装置中提高系统的主频,装置的发热与成本会急剧地增加,但性能并不会成倍地提高.阐述了在智能间隔装置中使用多核处理器其硬件及软件上的优越性.通过一个应用实例,分析了多核装置的内核引导顺序及引导方式,解析了内核间内存分配模式,剖析了多核的中断处理方式、多核操作的软件可靠性和数据安全性,并详细说明了智能间隔装置中内核间任务分解的方式.相对于单核处理器而言,在智能间隔设备中使用多核处理器,通过合理的任务分解和中断向量的分配,会极大地提高系统的运算速度,但系统的发热及功耗相对增加很少,可以大大提高设备的性能,降低设备的成本. 相似文献
11.
针对车辆分类检测在精度和实时性方面存在的挑战,提出了一项改进方案,以优化YOLOv5s 模型,旨在实现轻量化 的汽车检测。通过在MPSoC硬件架构的现场可编程门阵列(FPGA) 上设计系统,成功打造了一个具备高精度、快速检测和低 能耗的解决方案。为了使得模型更适合嵌入式设备部署,采用了MobileNetv3 Small 替代YOLOv5s 的主干网络,并引入卷积 块注意力模块(CBAM) 注意力机制和Inner-IoU Loss 优化方法,使模型在轻量化的同时提升了检测精度和速度。改进后的模 型相较于原始Yolov5s模型,平均精度均值(mAP) 提升了14.8%,参数量减少了49.7%,模型体积减小了40.7%,计算量减 少了48.9%,在NVIDIA 3060上,改进后的检测速度提升了48.8%,达到了82 fps。此外,还利用FPGA 对YOLOv5s 进行了 硬件加速。经过优化的系统达到了45fps 的检测帧率,并保持了较高的精度和速度,这一系统易于部署,适用于智能交通系 统,满足其高效实时监测的需求。 相似文献
12.
针对现有信道模拟器通道规模受限、扩展性差等缺陷,设计实现了一种可扩展的多输入多输出(multiply-input multiply-output, MIMO)信道高效模拟器。 该模拟器采用改进的坐标旋转数字计算(coordinate rotation digital computer, CORDIC)算法,只
需较少硬件资源便可实现大规模多支路的随机信道衰落精确模拟。 基于 MIMO 信道离散化模型提出了一种可扩展的硬件模拟
架构,并结合现场可编程门阵列(field-programmable gate array, FPGA)的并行处理优势,进行硬件实现及实测验证。 针对 3GPP
标准扩展车载 A 信道模型(extended vehicular A model, EVA)静态场景和时变场景的实测结果表明,所研制的 MIMO 信道模拟
器输出时延功率谱和多普勒功率谱等统计特性均与理论值吻合,可用于无线通信设备的方案验证、算法优化和性能分析。 相似文献
13.
本文设计了基于FPGA DSP的全数字相位载波(PGC)解调系统,用于消除双臂干涉型光纤传感器中固有的相位漂移,采用FPGA实现混频相乘和低通滤波环节,采用DSP实现其余的PGC解调环节。在FPGA软件设计过程中,通过使用知识产权(IP)核提高了程序的质量和稳定性。在DSP软件设计过程中,将其余PGC解调环节设计为中断服务程序,接受FPGA产生的中断以完成后续PGC解调过程。浮点数据格式的使用提高了数据的动态范围同时提高了解调精度。实验结果验证了全数字PGC解调系统的设计。 相似文献
14.
15.
16.
为了提高全数字交流伺服系统中各个功能模块的可复用性,缩短开发周期,分析了可复用IP核的设计方法与准则,依据电压空间矢量脉宽调制原理,采用自顶向下的设计方法,给出了系数整定、扇区判断、时间计算与分配、数据锁存以及PWM生成等模块的设计方法,实现了一种采用FPGA和可复用知识产权核(IPCore)相结合的全数字化速度伺服系统。仿真结果表明,该系统能够在8μs内完成矢量控制算法,其电流环、速度环的采样频率可达到20kHz以上,具有响应快速,调速范围帘等优点.此IP核功能正确.可以作为一个独立的模块嵌入到今教宰交流伺服系统中。 相似文献
17.
18.
随着SRAM型FPGA在航天领域中的不断应用,空间环境下单粒子翻转(single event upsets,SEU)问题不断涌现。为了加强航天电子产品在轨的可靠性与安全性,介绍了一种基于Xilinx公司Vertix-II系列FPGA的容错性设计,该设计深入研究了动态刷新(Scrubbing)原理,利用反熔丝型FPGA作为控制器实现了对SRAM型FPGA的配置数据进行ms级的周期刷新,并对2种FPGA加入了三模冗余(triple modular redundancy,TMR)及回读比较重加载方法,设计兼顾了系统重构、冗余处理和故障恢复,效果良好。实验结果表明刷新周期仅为131.2ms,远大于空间单粒子翻转率,能有效地抑制单粒子翻转效应的影响。 相似文献