期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王朋宇陈云霁沈海华陈天石张珩《软件学报》2010,21(4):863-874

存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执行时间不重叠的操作之间存在确定的时间序.通过引入时间序的概念,设计并实现了一种线性时间复杂度的存储一致性验证工具LCHECK.LCHECK利用时间序将验证局部化,使得在表示程序执行结果的有向图中,序关系边的推导和正确性检测都被限定在有限范围内.与现有其他方法相比,LCHECK时间复杂度低,对程序长度和访存地址数没有限制,因此验证效率更高.作为国产片上多核处理器龙芯3号的重要验证工具, LCHECK发现了一些存储系统的设计错误. 相似文献

2.

多核处理器——技术、趋势和挑战

彭晓明郭浩然庞建民《计算机科学》2012,39(Z3)

多核处理器已经成为当前微处理器技术发展的重要方向.介绍了多核处理器的起源和发展现状,分析了多核处理器技术的发展趋势.重点讨论了多核处理器技术涉及的片上网络、存储结构设计、编程接口以及资源管理等关键技术;在此基础上,进一步探讨了多核处理器的发展所面临的主要挑战. 相似文献

3.

片上多核处理器Cache访问均衡性研究

王子聪陈小文郭阳《计算机学报》2019,42(11)

相似文献

4.

核分组的多核处理器优化方法

李国红汪东升刘振宇李崇民刘根贤郭三川《计算机科学与探索》2014,(4):385-396

随着多核处理器规模的扩大,请求数据的处理器核到数据的宿主节点之间的平均距离相应增大,并且数据访问在分布式共享高速缓存块中的分布并不均衡引起了网络热点。这些情况导致一级高速缓存缺失延迟的增大。为了解决该问题,将每四个处理器核分为一组,在组内设计邻近数据探测器。邻近数据探测器通过确定一次缺失能否在邻近核的一级高速缓存中得到数据,从而利用了并行程序在多核处理器上执行时数据访问的核间局部性。另外,根据新的结构相应优化了高速缓存一致性协议。实验表明,该片上存储优化方法提高了系统性能,减少了片上网络流量,节省了能耗。相似文献

5.

片上多核处理器Cache一致性协议优化研究综述

胡森森计卫星王一拙陈旭付文飞石峰《软件学报》2017,28(4):1027-1047

现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.本文介绍了片上多核处理器一致性问题的由来.总结了多核时代高速缓存一致性协议设计的关键问题,综述了近年来学术界对一致性的研究.从程序访存行为模式、目录组织结构、一致性粒度、一致性协议流量、目录协议的可扩展性等方面,阐述了近年来缓存一致性协议性能优化的方向.对目前片上多核处理器缓存一致性协议设计中存在的问题进行了讨论,并指出了未来进一步研究的方向. 相似文献

6.

Amdahl定律在层次化片上多核处理器中的扩展

陈书明陈胜刚尹亚明《计算机研究与发展》2012,49(1):83-92

层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务计算开销的新元素,构建了层次化片上多核处理器的Amdahl加速比扩展模型.基于该扩展模型,就层次化片上多核处理器的加速比与超节点配置的关系问题展开研究.模拟分析发现,要获得良好的加速比性能,层次化片上多核处理器需要在超节点数目与超节点的大小(超节点内核的个数)之间作仔细的权衡;对于给定核数目的层次化片上多核处理器,使系统性能最优的超节点大小往往出现在中间某个值而不是最大或者最小,并且该值随着系统规模的变化会发生相应的变化. 相似文献

7.

片上多核处理器共享资源分配与调度策略研究综述 总被引：1，自引：0，他引：1

王磊刘道福陈云霁陈天石李玲《计算机研究与发展》2013,50(10):2212-2227

对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问题,除了增加可用共享资源外,一个能够公平有效地在多线程间分配共享资源的调度算法也至关重要.在各类共享资源中,对于系统性能有着最大影响的是共享缓存和动态随机存储器(dynamic random-access memory, DRAM)系统.对于共享缓存,可以通过缓存分区来降低由于线程间的争夺所带来的影响;对于DRAM系统,可以采取适当的调度算法来调节各个线程发出的访存请求的服务优先级,从而改善系统性能.首先分别以系统吞吐量和公平性为优化目标介绍了一系列对共享缓存的分区调度算法,并针对缓存分区粒度过大的问题给出了相关解决方案.然后从利用线程的访存行为特征和借鉴网络路由算法等多个角度介绍了DRAM的调度算法.研究了从全局出发的联合调度算法,以解决针对不同共享资源的调度算法间相互矛盾的问题.最后从不同角度对于今后的研究进行了展望. 相似文献

8.

片上多核处理器共享Cache划分的公平性研究

方娟蒲江张欣《计算机工程与设计》2010,31(15)

公平性是一个关键的优化问题,当系统缺乏公平时,会出现线程饿死和优先级反转等问题.以公平性优化作为研究目标,分析当前共享Cache划分公平性的评价标准,找出了其评价参数和划分策略的不足,提出了一种新的共享Cache划分方案.通过提出一个新的多线程公平性评价指标并改进了已有的公平划分策略,从而提高多线程运行的公平性.实验结果表明,该共享Cache划分方案显著提高了系统公平性,并且系统吞吐量也有提高. 相似文献

9.

片上多核处理器容软错误执行模型

龚锐戴葵王志英《计算机学报》2008,31(11)

随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了结果比较以后才能提交.每个内核增加了硬件实现的现场保存与恢复机制,以实现对软错误的恢复.文中选择的现场保存点有利于隐藏现场保存带来的时间开销,并且采用了特殊的机制保证恢复执行和原始执行过程中load数据的一致性.TCR执行模型通过在3个不同的内核上运行相同的线程实现对软错误的屏蔽.在检测到软错误以后,TCR可以进行动态重构,屏蔽被软错误破坏的内核.实验结果表明,与传统的软错误恢复执行模型CRTR相比,DCR和TCR对核间通信带宽的需求分别降低了57.5%和54.2%.在检测到软错误的情况下,DCR的恢复执行带来5.2%的性能开销,而TCR的重构带来的性能开销为1.3%.错误注入实验表明,DCR能够恢复99.69%的软错误,而TCR实现了对SEU(Single Event Upset)型故障的全面屏蔽. 相似文献

10.

众核片上资源动态划分与管理研究

《电子技术应用》2018,(1):24-27

为了提高芯片的可扩展性多采用基于No C的分簇管理方案,现有的基于应用的动态实时分簇管理方案已有较深入的研究,然而关于固定分簇方案的研究较为缺乏,包括在该方案下的核级容错策略。在此背景下设计了一种基于固定分簇方案的核级容错策略,提出了片上区域重划分算法,并完成了芯片的MATLAB建模及实现。进行了故障注入实验,将区域重划分算法与随机分簇算法就分簇后的片上平均曼哈顿距离进行比较,得到了比较好的结果,加入侧边冗余核之后,将区域重划分算法与工程常用的行列替换策略进行比较,结果也表明该算法优于行列替换策略。相似文献

11.

一款多核处理器FPGA验证平台的设计与实现

朱英陈诚许晓红李彦哲《计算机研究与发展》2014,51(6):1295-1303

高性能处理器设计日趋复杂,为了缩短验证周期,降低研制风险通常需要在流片之前进行基于现场可编程门阵列(field programmable gate-array, FPGA)原型验证平台的软硬件协同验证.随着处理器多核化的发展,FPGA原型验证平台的实现变得越来越具有挑战性.介绍了一款高性能多核微处理器FPGA验证平台的设计与实现方法,详细阐述了该FPGA验证平台采用的母板/子板总体架构、分片策略、时分复用实现技术及I/O接口实现方法.该平台具有良好的可扩展性,能够方便灵活地实现目标芯片在各种规模和配置下的FPGA验证,用于在流片前对目标芯片进行功能正确性验证和性能评估.经过该FPGA平台验证的目标芯片,首次流片返回的芯片能成功运行操作系统和各种应用程序,实现了一次流片成功的目标.最后对该FPGA验证平台的应用前景进行了分析总结. 相似文献

12.

面向新一代众核处理器的高性能SNC的设计与验证

徐海文张洋《计算机与数字工程》2021,49(8):1707-1713

先进可扩展接口(AXI)是ARM公司推出的应用于高频系统的通道型总线,广泛应用于各种高性能SoC设计中.当前,通用处理器的主流是多核处理器,而多核处理器的主流是通用DSP内核+应用专用核心的异构融合结构.应用专用核心分为两种结构:同构多核和异构多核.在同构多核结构中,随着核数的增加,逐渐采用超节点结构,即在处理器中... 相似文献

13.

适用于多核处理器的簇状片上网络设计 总被引：1，自引：1，他引：0

下载免费PDF全文

尤凯迪肖瑞瑾权衡虞志益《计算机工程》2011,37(21):211-213

提出一种新型簇状片上网络架构。该架构以二维网状拓扑结构连接各个簇单元,每个簇单元由3个处理器、1个直接访存单元和1个簇共享存储单元组成。基于该架构的多核处理器可以获得更高的通信效率及存储器利用率。在实验系统上实现3 780点的快速傅里叶变换,结果表明,在快速傅里叶变换应用中存储器的利用率能提升至79.5%。相似文献

14.

多核处理器的结构设计研究 总被引：2，自引：1，他引：2

下载免费PDF全文

何军王飙《计算机工程》2007,33(16):208-210

围绕如何进行多核处理器的结构设计，提高处理器性能这一问题，结合传统多处理机设计原理对多核处理器结构设计进行了研究，并对当前主要商业多核处理器进行了研究，揭示了其发展趋势，探索了未来多核处理器设计的发展方向。相似文献

15.

适用于多核处理器的扩展寄存器文件设计

下载免费PDF全文

肖瑞瑾权衡张家杰尤凯迪英彦虞志益《计算机工程》2012,38(15):283-285,289

针对处理器中可用寄存器数量有限的问题,提出一种适用于多核处理器的扩展寄存器文件设计方案。采用多组结构进行硬件设计,将通信端口映射在扩展寄存器地址空间上,以实现寄存器寻址核间通信机制,引入兼具底层指令与高层封装的混合软件配置方案,改进软件编译流程。评估结果表明,该方案将可用寄存器文件的数量增加一倍,核间通信指令数目减少50%,系统吞吐率得到优化。相似文献

16.

多核处理器片上存储系统研究 总被引：1，自引：1，他引：0

下载免费PDF全文

黄安文高军张民选《计算机工程》2010,36(4):4-6

针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能的束缚以及片上cache设计的复杂化等。相似文献

17.

多核处理器并行计算模型研究

李静梅张岐王军锋《电脑学习》2011,1(5)

针对并行计算机体系结构中没有通用的计算模型这一问题,分析了一些现有的典型计算模型,在同步性、通信方式、参数方面进行比较,以LogGP模型为基础提出一种改进的mzLogGP模型。利用MPI并行算法对满足节点计算资源非独占、网络存在拥塞条件下的并行程序进行分析与测试,通过增加memory层次化层数和网络拥塞指数这两个参数,计算其计算开销和通信开销,将实测时间与预测时间进行比较,可知随节点数的增加系统误差不断减小,说明该新模型能改善并行应用在多核处理器集群平台上运行的性能,具有较好的可扩展性。相似文献

18.

可配置多核处理器的调试器模块化分层设计

黄光红刘冠男《单片机与嵌入式系统应用》2014,(7):13-15

针对可配置处理器特点提出一个基于模块化分层设计的调试器架构。该调试器架构具有较好的可复用性和可扩展性,易于移植到其他处理器。本文提出与具体目标机解耦的调试器设计方法,采用具有统一服务接口的目标调试层与具体目标机交互,使用XML格式文件存储目标机信息,通过目标机信息查询模块获取目标机信息。经工程实践表明,本调试器对可配置处理器支持良好。相似文献

19.

基于多核处理器的全方位图像展开优化

下载免费PDF全文

陈曈杨东勇石洗凡《计算机工程》2011,37(1):285-286,289

全方位图像展开算法运算量大,在当前的主流处理器中难以满足实时要求,对其仅做简单并行处理效果仍不理想。针对此问题,基于多核处理器改进双线性内插值法的全方位图像展开算法,对其实现并行处理。通过全方位图像展开实验,对展开时间、并行效率、渲染速度等进行分析和比较。实验结果表明,并行优化后,在E7200(双核2.53 GHz)下实时处理的分辨率能从640×480提高到1 024×768。相似文献

20.

多核网络处理器的高速数据交换控制结构

下载免费PDF全文

刘宇李康马佩军史江义《计算机工程》2010,36(14):215-217

提出一种用于多核网络处理器数据通道处理的高速MAC接口数据交换控制结构。利用主动请求机制控制数据包的接收,通过多线程分配策略实现对接收数据的并行处理,维护数据包的到达顺序,实现高速数据传输。仿真与验证结果表明,接收控制器模块能在85 MHz工作时钟下达到2.56 Gb/s的数据吞吐率,满足网络处理器OC-48的线速处理要求。相似文献