首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
8核NoC原型芯片设计与应用性能评估   总被引:1,自引:0,他引:1  
片上网络(Network On Chip,NoC)是最具潜力的下一代片上互连技术。但NoC架构的引入也带来了芯片设计复杂度的大幅提高,从而使得传统仿真方式会消耗过多的时间。提出了一种有效的基于FPGA器件的多核系统原型设计与性能评估方法。实现了一款集成了8个处理核的NoC架构下的多处理核系统原型,并通过两种实际应用对系统性能进行评估和探索。实验结果表明,该原型在矩阵乘法应用和JPEG图片解码应用中加速比最高分别可达到7.53和2.75。而相对于层次化总线架构,NoC架构的通信性能可提高5%~40%。  相似文献   

2.
MPCore Cache带宽测试及其对并行编程的影响   总被引:1,自引:0,他引:1  
片上多处理器(CMP)在不提高处理器频率的情况下能提高CPU的性能,但多核处理器在对共享数据进行并行运算时存在cache一致性问题,导致每个CPU的数据传输带宽和程序运行效率降低。针对这个问题,在Linux操作系统环境下对MPCore各级cache性能及cache-to-cache传输性能进行了测试,结果表明采用cache-to-cache的数据传输方式能有效降低主存的负载。根据测试结果,提出在MPCore处理器上采用SPPM(synchronized pipelined parallelism model)模型进行并行编程的方法,通过实验证明在进行并行运算时,SPPM模型的运行效率高于SDM (the spatial decomposition model)模型。  相似文献   

3.
概述了本项目组自主研发设计的H3MP-16多核处理器演示系统软硬件架构,并基于这一特定的系统平台,完成了两幅图像渐入渐出的Fade in Fade out算法。为了满足系统的实时性要求,讨论了针对该算法的一些优化方法,实现了基于NoC的层次化多核处理器系统片上软件效率的提高,使得演示系统取得了满意的演示效果。  相似文献   

4.
基于层次化总线的多处理器系统芯片设计与测试   总被引:1,自引:0,他引:1  
在单个芯片上集成多个处理器以提高SoC的整体性能已成为下一代集成电路设计趋势.如何提高其中多个处理器之间的通讯效率则成为MPSoC的设计关键.传统SoC平台中多以单总线结构为主,随着SoC中IP数目的增加,通讯效率随之降低.基于MPSoC环境下,提出一种层次化总线结构:本地总线负责处理器与本地内存通讯;全局总线实现对全局设备的访问.两级总线通过总线桥连接.在RTL级设计了上述平台,以流水矩阵乘法为例研究其在不同工作负载下的加速比变化.实验结果表明,在四个处理器的情形下,循环次数为4次时加速比仅为2.2;随着循环次数增多,加速比可达3.2.  相似文献   

5.
调度算法是多核处理器操作系统设计的核心所在,如何合理地将众多任务分配给不同的资源以使整个多核处理器系统达到最佳性能,是调度要解决的首要问题.在经典多处理器任务调度算法——ONERT算法的基础上,提出一种基于任务紧迫度的改进算法,较好地弥补了ONERT算法在处理器轻载时负载不均衡的不足.通过python程序实现了该算法,并通过实验验证了该方法在处理器轻载时实现比ONERT算法更好的负载均衡.  相似文献   

6.
随着数字信号处理平台发展趋向大计算量、大带宽、高集成度的特点,单核DSP器件渐渐不能满足日益增加的复杂度及实时性要求,多片处理器并行处理的模式将逐渐被广泛应用。基于TI推出的高性能8核处理器TMS320C6678,以大点数FFT算法分解及并行实现为例,介绍了多核DSP的KeyStone架构特点,多核处理器的任务管理和分配方式,快速内存访问EDMA的实现以及核间通信(IPC)机制。最后对算法结果及算法的实时性能进行分析,该算例说明TMS320C6678多核DSP具有卓越的运算性能。  相似文献   

7.
提出了一种基于因子路径树网络划分的暂态稳定空间并行仿真的改进算法。采用新的网络划分性能评价指标、任务划分后续调整策略进行任务划分,使各处理器间计算负荷的分配更为合理;同时,还提出了该算法在理想状况下加速比的计算公式,分析了影响并行仿真计算效率的各个因素,并以某3872节点系统为例介绍了一种估计实现最大加速比所需处理器数目的方法。在Cluster1350集群系统上的算例表明,所提改进算法提高了仿真效率。  相似文献   

8.
基于SoPC的人工神经网络的硬件实现方法   总被引:1,自引:1,他引:0  
提出了一种基于SoPC的神经网络的硬件实现方法,该方法以FPGA器件为硬件载体,NIOSⅡ软核处理器为CPU,Avalon片内总线为数据交换架构。研究了多层前馈神经网络在FPGA上的实现方法,描述了神经网络模块与Avalon片内总线的接口技术。整个系统在Altera的EP2C8Q208C8器件上实现,结果表明,该方法的应用不仅提高了人工神经网络的运算速度,还提高了整个系统的灵活性。  相似文献   

9.
DSP作为一种具有强大数据处理能力和高运算速度的微处理器,以其为核心的嵌入式实时图像采集处理系统越来越受到广泛的关注和应用.基于TMS320DM642处理器设计构建硬件平台,采用JPEG图像压缩编码技术,实现了实时视频采集和处理.重点研究了在TMS320DM642处理器平台上实现对ITU-R BT.656 YUV4∶ 2∶2视频格式进行JPEG压缩编码的具体方法.并在此基础上,对实验数据进行了分析.  相似文献   

10.
我国交直流电力系统的日益扩大与复杂化对暂态稳定仿真的速度与精度提出了更高的要求。为此,提出了一种基于图形处理器(Graphics Processing Unit,GPU)计算平台的暂态稳定双层并行算法。第一层为"交-直并行",考虑直流系统动态的独立性,将交流系统与直流系统解耦,分别部署在CPU和GPU上计算。第二层为"直流系统时间并行",直流系统在小步长下采用详细模型仿真,进一步在时间并行算法的框架下,使用GPU模拟实现了流水线计算,可灵活设置流水线条数,对多个直流系统多积分时步并行求解。最后,使用2个算例验证了该算法的有效性与实用性。计算结果表明:该算法可有效提高计算速度,为交直流系统稳定分析提供了新的解决思路。  相似文献   

11.
近年来,使用多核SoC代替传统的单处理器系统,在提高系统并行性方面显示出了巨大的优势.本文在已有层次化总线结构MPSoC的基础上,研究多核SoC原型芯片可扩展性设计问题.在RTL级设计了上述平台,并用FPGA进行原型验证,以流水矩阵乘法为例研究其在不同工作负载下的加速比变化.实验结果表明,在6个处理器的情形下,循环次数为6次时加速比仅为4.10;随着循环次数增多,加速比可达5.48.研究表明多核层次化总线原型芯片的性能提升百分比以及面积增加百分比与处理器数目成正比.可以通过增加处理器的数目来提升MPSoC原型芯片的性能.  相似文献   

12.
This paper describes two parallel methodologies for composite reliability evaluation using sequential Monte Carlo simulation. The methodologies are based on coarse grain asynchronous implementations. In the first methodology, a complete simulation year is analyzed on a single processor and the many simulated years necessary for convergence are analyzed in parallel. In the second methodology, the adequacy analysis of the system operating states within the simulated years is performed in parallel and the convergence is checked on one processor at the end of each simulated year. The methodologies are implemented on a 10 nodes IBM RS/6000 SP scalable distributed memory parallel computer and on a network of 8 IBM RS/6000 43P workstations. The results obtained in tests with actual power system models showed high speedup and efficiency on both parallel platforms  相似文献   

13.
A flexible, modular multichannel continuous real-time harmonic analyzer with the capability of precision time stamping via Global Positioning System (GPS) satellite signals of the acquired data is described. The key design features which provide this performance are discussed. These include remote distributed data conversion modules coupled via digital fiber-optic links to parallel individual digital signal processor Multibus II based modules which were all controlled by a highly integrated 486 based module. The resultant Multibus II parallel processor system was run under the iRMXIII real-time operating system and was interfaced via Ethernet to control and display workstations using a custom-designed Windows 3 environment. The ready extension of the harmonic monitoring system to transient measurement is also described  相似文献   

14.
超宽带高速卷积译码器设计与实现   总被引:1,自引:0,他引:1  
超宽带系统卷积译码器在芯片实现中面临高速率、低功耗的挑战,本文在分析比较了多种Viterbi译码算法和结构的基础上,提出了一种适合芯片实现的并行回溯的译码器结构。该结构通过牺牲30%的存储资源以增加并行回溯分支,从而译码器工作时钟降至传统结构的一半。仿真和测试表明,该译码器在没有损失性能的情况下,单个译码模块速率可达到220Mbps,延时只有2.4μS,可支持低延时的突发模式。  相似文献   

15.
在某些通讯平台中,由于便捷性和价格方面的考虑,我们需要采用无线远栈的方法进行监控。本文介绍了一种监控系统,采用32位ARM处理器与DSP视频压缩模块相结合,并考虑实际的GPRS与视频传输的速度匹配问题,采用JPEG编码方式。该系统在无线远程监控方面具有很高的参考和使用价值。  相似文献   

16.
介绍基于8051单片机和电信网络实现对家用电器的远程控制及家庭远程报警的家庭智能控制系统。系统主要由单片机、报警系统、语音录放电路、振铃检测电路、模拟摘机电路、DTMF信号解码电路等组成。  相似文献   

17.
18.
基于高速Modem的电力线载波数字接入技术   总被引:1,自引:0,他引:1  
介绍了在开发数字式电力线载波通信系统过程中涉及的一项关键技术-电力线载波数字接入技术,数字式电力线载波通信系统采用话音压缩,数字编码,数字复接等技术,完成话音与远动数据的汇合,以TCM(格栅编码调制(方式在电力线上传输高频信号,在接收端采用TCM解调,Viterbi译码,自适应均衡等技术再生恢复出原始信息,其中高速Modem采用AD公司Modem专用开发芯片ADSP-21mod870,以一整套软,硬件解决方案高效实现了专用Modem的性能要求。  相似文献   

19.
高效的硬件图像压缩系统可以有效的减少图像数据的冗余度,在分析专用编解码芯片ADV212的基础上,设计了一种现场可编程门阵列(FPGA)组合ADV212的图像压缩系统,实现对720×288的静态图像进行JPEG2000压缩.FPGA用来实现时序控制和数据转换,ADV212则进行图像的压缩.本次实验主要是改变图像压缩倍数及小波变换级数,并采用峰值信噪比(peak signal to noise ratio,PSNR)和均方误差(mean squared error,MSE)两个参数来衡量压缩图像的质量.实验结果表明,该系统可实现图像的有效压缩,并且压缩倍数越大图像失真越严重,小波变换级数在3级以上时图像质量较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号