期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《电子技术应用》2017,(3)

系统级芯片是高端电子系统的核心,而片上多核系统是近年来系统级芯片的主要实现形式。近十年来,片上多核系统一直是数字集成电路领域的热点,经过众多研究者的不断努力诞生了大量很有意义的研究成果。但由于片上多核系统的研究者背景和应用领域不同导致发展演进过程较为复杂而难以理解。为减少这一问题的影响,总结了片上多核系统的演进历史与现状,并对片上多核系统未来的发展提出了一些看法。相似文献

2.

基于片上网络多处理器QoS研究与设计

衡霞支亚军韩俊刚《计算机科学》2013,40(Z6):220-222

在研究片上网络服务质量的基础上,提出面向多处理器的64核片上网络结构。IP单元产生不同类型的数据包,网络提供优先级别服务,以保证高优先级数据包的低延时需要。性能统计结果表明,该模型对多处理器之间不同类型的数据包通信均满足服务质量要求。相似文献

3.

片上网络互连拓扑综述 总被引：1，自引：0，他引：1

王炜乔林汤志忠《计算机科学》2011,38(10):1-5

随着器件、工艺和应用技术的不断发展,片上多处理器已经成为主流技术,而且片上多处理器的规模越来越大、片内集成的处理器核数目越来越多,用于片内处理器核及其它部件之间互连的片上网络逐渐成为影响片上多处理器性能的瓶颈之一。片上网络的拓扑结构定义网络内部结点的物理布局和互连方法,决定和影响片上网络的成本、延迟、吞吐率、面积、容错能力和功耗等,同时影响网络路由策略和网络芯片的布局布线方法,是片上网络研究中的关键之一。对比了不同片上网络的拓扑结构,分析了各种结构的性能,并对未来片上网络拓扑研究提出建议。相似文献

4.

片上网络互连拓扑综述

下载免费PDF全文

王炜乔林汤志忠《计算机科学与探索》2011,38(10):1-5,12

随着器件、工艺和应用技术的不断发展,片上多处理器已经成为主流技术,而且片上多处理器的规模越来越大、片内集成的处理器核数目越来越多,用于片内处理器核及其它部件之间互连的片上网络逐渐成为影响片上多处理器性能的瓶颈之一.片上网络的拓扑结构定义网络内部结点的物理布局和互连方法,决定和影响片上网络的成本、延迟、吞吐率、面积、容错... 相似文献

5.

多核结构片上网络性能-能耗分析及优化方法

张帅宋风龙王栋刘志勇范东睿《计算机学报》2013,36(5)

文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性能-能耗模型中建立并行开销、片外访存开销与片上网络规模(节点数)、频率之间的关系,同时引入了并行度、通信模型等与应用相关的因素,使该模型能够同时表达软硬件特性;第三,文中提出了一种基于该性能-能耗模型的性能-能耗优化方法,通过采集程序的通信模型、访存消息数量等数据选择适当的频率和网络节点数来获得片上网络能耗最低值或处理器性能最大值.最后,文中采用8个PARSEC并行程序验证前述模型的准确性并评价性能-能耗优化方法,结果显示文中性能-能耗模型相比传统模型更加精确吻合实验测量结果,性能-能耗优化方法也有效适用于不同种类的并行程序. 相似文献

6.

分级环片上网络互连 总被引：1，自引：0，他引：1

王炜乔林杨广文汤志忠《计算机学报》2010,33(2)

在大规模、超大规模片上互连网络中,因为二维互连方式的性能较差而使多维互连方式成为可选方案之一.文中首先基于区域划分设计了一种分级环互连结构,分析了其静态互连特性,然后基于卡诺图编码设计了一种分级环互连的路由结构以及寻径方法,在均匀通信模式测试了不同的分级环级联链路缓冲区设置方法下网络的性能,详细分析了按照等比序列设置分级环级联链路缓冲区时分级环互连方式的动态网络特性,最后根据互连性能与Mesh等二维片上互连方式比较的结果,给出了分级环互连方式的使用场合.实验结果表明,虽然在较小规模网络中性能较差,但是分级环互连方式能以较低的成本、较高的性能实现大规模、超大规模片上网络的互连,其中单环分级互连方式在较低网络负载下综合性能更好,而双环分级互连方式则具有更大的网络负载能力,在较高网络负载下性能更好. 相似文献

7.

多核片上系统时钟网络结构模型与仿真分析

余乐王瑶陈岩吴超李洋洋李阳光《测控技术》2017,36(8):94-98

对多核片上系统(MPSoC)而言,随着集成度和性能的提升,时钟网络的结构愈发重要.研究了基于结构建模的多路全局/局域时钟网络的结构建模与分析.通过建立多级级联,分别从主干、支干和接入三层对时钟网络的结构进行建模.针对运算单元接入数、单行中肋排数目、运算单元中输入时钟数目以及时钟区域数等几方面,评估了时钟网络性能.以Stratix V E FPGA为例对时钟网络综合分析,分析结果表明,四象限的对称结构权衡了多项性能指标,是最优的时钟网络结构,可以作为一种通用结构应用在目前主流MPSoC上. 相似文献

8.

片上多处理器互连技术综述 总被引：3，自引：0，他引：3

王炜汤志忠乔林《计算机科学》2008,35(9):7-8

随着器件、工艺和应用技术的不断发展,片上处理器中处理器核的数目必将进一步增加,处理器芯片内部的互连及其通信成为影响处理器性能的重要因素.介绍了目前在片上多处理器中的几种典型互连方法,并简要分析了各种方法的优缺点. 相似文献

9.

多核微处理器核间高速互连技术

郭广浩沈绪榜《计算机技术与发展》2012,22(6)

随着VLSI技术和半导体制造工艺的不断发展,多核处理器已经取代了单核处理器.当技术和工艺的发展使片上多处理器中核的数目增加时,各个处理器核之间的互连及其通信就成为制约处理器性能提高的瓶颈.为了能够充分发挥多核处理器的高性能,文中根据当今主流多核处理器的互连方法,通过分析各种互连方法的优势与不足,提出了针对不同的核的数目和结构采用不同的互连方法,指出将新材料、新技术、新器件与已有的成熟的多核互连方式相结合是提高多核互连效率的有效方法,并阐述了未来多核互连的研究方向和发展趋势. 相似文献

10.

基于片上多核的频繁项集并行挖掘算法

张步忠程玉胜王则林《计算机科学》2014,41(3):55-58

关联规则挖掘中最主要的工作是如何高效地挖掘频繁项集。目前在单机平台上,由于计算量大等原因,大数据集上的关联规则挖掘很难得到理想结果。在分析现有频繁项集挖掘算法的基础上,结合Eclat和dEclat挖掘算法优点,针对大数据集和片上多核共享内存计算环境,提出一种高效的并行频繁项集挖掘算法PEclat,算法实现了任务级并行挖掘频繁项集,并在大数据集上进行了多项测试。实验结果表明,无论数据稠密程度如何,该算法均能取得较好的性能。相似文献

11.

基于多核DSP的超声成像的高速数据传输

骆国丽张学健肖亮《计算机工程与设计》2014,35(9)

为实现高速的数据传输从而提高B模式超声成像的实时性,研究多核DSP (TI公司的TMS320C6678)的核间数据传递与网络通信技术.数据处理和传输任务分配在DSP的4个核上以流水方式进行,采用Notify Model实现核间通信,配置公用存储区以实现多核之间的数据共享,在SYS/BIOS系统上调用网络开发套件(network development kit,NDK)编写基于TCP/IP协议的网络通信程序.实验结果表明,核间数据传递的时间小于1 ms(图像大小为512×1024),网络通信的传输速率稳定在60MBps左右,结合优化的数据处理算法,DSP总的处理速率能够达到40帧/秒. 相似文献

12.

基于多FPGA的NoC多核处理器验证平台设计 总被引：1，自引：0，他引：1

黄晓林潘红兵易伟杨虎凌梦黄辰何书专李丽《计算机工程与设计》2012,33(1):180-185

为了能够灵活地验证和实现自主设计的基于NoC的多核处理器,缩短NoC多核处理器的设计周期,提出了设计集成4片Virtex-6-550T FPGA的NoC多核处理器原型芯片设计/验证平台.分析和评估了NoC多核处理器的规模以及对FPGA硬件资源的需求,在此基础上给出了集成4片FPGA的开发板详细设计方案,并对各主要模块如互联架构、电源、板级时钟分布、接口技术、存储资源等关键设计要点进行阐述.描述了开发板各个主要模块的测试过程和结果,表明了该设计的可行性. 相似文献

13.

一种面向通信特征的3D NoC体系结构设计

王谛赵天磊唐遇星窦强《计算机研究与发展》2014,51(9):1971-1979

三维集成电路(three dimensional integrated circuit, 3D IC)和片上网络(network on chip, NoC)是集成电路设计发展的两个趋势.将两者结合的三维片上网络(three dimensional networks on chip, 3D NoC)是当前研究的热点之一.针对现有3D NoC的研究没有充分关注硅片内与硅片间的异构通信特征.提出了面向通信特征的硅片间单跳步(single hop inter dies, SHID)体系结构,该结构采用异构拓扑结构和硅片间扩展路由器(express inter dies router, EIDR).通过实验数据的分析表明,与3D-Mesh和NoC-Bus这两种已有的3D NoC结构相比,SHID结构有以下特点：1)延迟较低,4层堆叠时比3D-Mesh低15.1%,比NoC-Bus低11.5%;2)功耗与NoC-Bus相当,比3D-Mesh低10%左右;3)吞吐率随堆叠层数增加下降缓慢,16层堆叠时吞吐率比3D-Mesh高66.98%,比NoC-Bus高314.49%.SHID体系结构同时具备性能和可扩展性的优势,是未来3D NoC体系结构良好设计选择. 相似文献

14.

基于拥塞预测的NoC自适应仲裁方法*

杨盛光李丽徐懿张宇昂娄孝祥高明伦《计算机应用研究》2009,26(2):652-654

传统用于总线系统或互联网的仲裁方法已不能很好地适应NoC应用环境。围绕NoC系统性能的关键影响因素——拥塞状态,提出了一种基于全局和本地拥塞预测的仲裁策略(GLCA),以改善NoC网络延迟。实验结果表明,相对于RR方法,新仲裁算法使得网络平均包延迟和平均吞吐量最大分别可改善20.5%和8%,并且在不同负载条件下都保持了其优势。综合结果显示, GLCA与RR方法相比,路由器仅在组合逻辑上有少许增加(25.7%)。相似文献

15.

面向高性能计算的芯片组参数优化研究

方志斌胡鹏苗艳超安学军《计算机工程与设计》2008,29(7):1591-1595

介绍了一种面向高性能计算的芯片组,在设计和实现的基础上抽象出信道和交叉开关的环境参数,围绕高性能计算的通信特征分析了测试模型参数,并给出与性能评价相关的各个参数;建立了硬件FPGA测试平台和软件仿真环境,测试并分析了芯片组各环境参数对通信延迟和带宽的影响,总结出面向高性能计算的芯片组应尽量提高每次交易的传输粒度,确定了其信道参数. 相似文献

16.

CCNoC: Cache-Coherent Network on Chip for Chip Multiprocessors

下载免费PDF全文

王惊雷薛一波王海霞李崇民汪东升《计算机科学技术学报》2010,25(2):257-266

As the number of cores in chip multiprocessors(CMPs) increases,cache coherence protocol has become a key issue in integration of chip multiprocessors.Supporting cache coherence protocol in large chip multiprocessors still faces three hurdles:design complexity,performance and scalability.This paper proposes Cache Coherent Network on Chip(CCNoC),a scheme that decouples cache coherency maintenance from processors and shared L2 caches and implements it completely in network on chip to free up processors and ... 相似文献

17.

基于温度感知任务调度的3D NoC混合拓扑结构_*

冯申杰程良伦《计算机应用研究》2017,34(8)

3D NoC较高的功率密度容易造成温度过高,对系统性能和芯片可靠性造成负面影响。利用温度感知任务调度来控制节点温度的思路是在运行时把“热”节点上的任务迁移到“冷”节点上,这不可避免会出现迁移之后任务间通信距离变大进而影响整体性能。因此,在任务调度的过程中保持通信开销已经成为迫切需求。提出了分层次的ring/mesh 混合拓扑结构RMH,可以在任务迁移的同时保持原来较小的通信延迟。仿真结果表明,相比于3D NoC拓扑结构,RMH拓扑可以有效缓解散热问题,并且平均减少31.1%的网络延迟。相似文献

18.

龙芯2E多处理器芯片组的设计与实现

方志斌胡鹏安学军孙凝晖《计算机应用研究》2008,25(5):1465-1469

提出了一种面向高性能计算机的多处理器芯片组的设计,其主要特点是支持多处理器通过芯片组和交换芯片两级互连,全局地址空间和多处理器同步支持。给出了芯片组的组成结构、设计原则和关键技术,设计并实现了基于龙芯2E处理器的多处理器芯片组。目前,已采用FPGA平台对该芯片组进行验证和测试,以该芯片组为核心的四处理器原型系统完成B IOS引导和操作系统运行,经过实测处理器的访问请求通过芯片组延迟小于0.5μs,芯片组内处理器通信带宽达到500 Mbps。相似文献

19.

基于多核架构的大图像实时浏览技术 总被引：1，自引：0，他引：1

下载免费PDF全文

杨鑫许端清赵磊《中国图象图形学报》2011,16(2):152-160

近年来,随着数据获取设备的不断提高,越来越多的高精度大图像出现在医学、遥感、气象、考古等领域中。这些大图像给使用者带来更多细节信息的同时,也给计算机交互式的显示带来巨大的挑战。设计了一个可扩展的并行工作管道,根据所提出的基于预测的数据管理方法,可以使图像显示和数据导入同步并行的进行;然后,我们基于CUDA（compute unified device architecture）架构,设计针对大图像的放大缩小算法,利用GPU快速的对所显示的图片进行放大缩小处理。我们的算法不需要任何预处理操作,对大图像的浏览操作获得很好的实时性和稳定性,大大提高了浏览的效率。相似文献

20.

一种基于遗传算法的片上网络电压岛划分方法

刘斌常振超张兴明闫佳佳易洪波《计算机应用研究》2012,29(10):3740-3743

针对片上网络电压岛划分的低能耗问题,提出一种基于遗传模拟退火算法的低能耗电压岛划分方法。该方法通过改进遗传算法的编码方法将电压岛划分融入到IP核映射中,综合考虑电压岛划分和IP核映射对片上总能耗的影响,通过遗传算法罚函数的设计保证了算法准确运行。仿真分析表明,在满足时间约束的条件下,相比于经典的方法,该方法的总能耗更低。相似文献