期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

方燕飞刘齐董恩铭李雁冰过锋王谛何王全漆锋滨《计算机工程》2023,(12):10-24

当前众核已成为构建高性能计算（HPC）超级计算机的主流微处理器架构，为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加，众多核心对存储资源竞争愈加激烈，“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响，是众核结构设计中的重要环节，也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同，以及所面向的应用领域需求不同等原因，目前的HPC主流众核片上存储层次结构并不单一，但从横向比较和各处理器自身纵向发展趋势，以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看，SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面，开展针对众核存储层次特点的设计与优化，可以帮助HPC应用更好地发挥众核处理器的计算优势，从而有效提升实际应用性能，因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。... 相似文献

2.

基于SESC仿真器的存储预取器设计

赵磊张萌刘芳《计算机与现代化》2013,(6):183-188

仿真器是在宿主机上运行并能模拟目标体系结构机器行为的一种软件系统,它可以解释并执行目标体系结构机器上可执行的程序,同时可提供运行时的指令和事件相关记录,以及目标体系结构机器的性能统计参数。系统级体系结构仿真器是可以作为一个虚拟目标机器运行的软件系统,它可以实现对单(多)处理器、内存系统、Cache和外部设备等子系统的功能模拟。本文根据多核处理器结构特点,研究体系结构仿真器与测试程序的设计方法。利用体系结构仿真器,分析不同结构的多核处理器片外存储访问需求,讨论片外存储访问带宽对计算性能的影响问题。总结出多核系统片外存储器访问的机制与需求,以及片外访存与程序特征的关系。相似文献

3.

类脑处理器异步片上网络架构

杨智杰王蕾石伟彭凌辉王耀徐炜遐《计算机研究与发展》2023,(1):17-29

类脑处理器较深度学习处理器具有能效优势.类脑处理器的片上互连一般采用具有可扩展性高、吞吐量高和通用性高等特点的片上网络.为了解决采用同步片上网络面临的全局时钟树时序难以收敛的问题以及采用异步片上网络面临的链路延迟匹配、缺乏电子设计自动化工具实现和验证的问题，提出了一种异步片上网络架构——NosralC，用于构建全局异步局部同步（global asynchronous local synchronous,GALS）的多核类脑处理器. NosralC采用异步链路和同步路由器实现.实验表明，NosralC较同步基线，在4个类脑应用数据集下展现出37.5%～38.9%的功耗降低、5.5%～8.0%的平均延迟降低和36.7%～47.6%的能效提升，同时增加不多于6%的额外资源以及带来较小的性能开销（吞吐量降低0.8%～2.4%）. NosralC在现场可编程门阵列（FPGA）上得到了验证，证明了该架构的可实现性. 相似文献

4.

面向WCET分析的实时多核体系结构研究

陈芳园丁亚军张冬松吴　飞　任秀江《计算机工程与科学》2014,36(3):393-398

随着工艺技术的发展以及嵌入式实时应用范围的不断扩大和需求的不断提升,多核处理器必将凭其高性能和低功耗特性应用到嵌入式实时领域中。但是,多核处理器体系结构很难甚至无法满足实时系统的实时限制和对WCET的可预测性要求。从多核中的共享资源入手,分析多核中的片上共享资源（共享Cache、片上互连）和片外共享资源（片外存储）对WCET分析的影响,探讨了各种干扰下的WCET分析方法。介绍了两种多核WCET分析模型：多核静态WCET分析模型和多核混合WCET分析模型;同时,针对嵌入式实时应用提出了多核设计原则。相似文献

5.

一种挖掘多核处理器存储级并行的算法

彭林张小强刘德峰谢伦国田祖伟《计算机研究与发展》2009,46(Z2)

多核处理器中,各个处理器核之间可以并发地进行外部存储访问,提供不同于单处理器的存储级并行(memory level parallelism)能力.不规则应用中的循环,传统的并行方法难以识别其并行性,不能充分利用多核处理器存储级并行能力和并行计算能力.对基于软件开发多核处理器存储级并行进行了讨论,提出一种前瞻并行多线程算法LLSM(loop level speculative mssultithreading).LLSM对不规则应用中的循环进行并行化,在多核处理器上的测试数据表明:该算法能够有效地挖掘多核处理器的存储级并行能力和计算能力,同时指出多核环境下存储级并行计算公式需要考虑线程同步开销. 相似文献

6.

图形处理器低功耗设计技术研究

田泽张骏许宏杰郭亮黎小玉《计算机科学》2013,40(Z6):210-216

图形处理器(GPU)以其强大的图形加速性能以及在通用计算领域的出色表现正在被越来越广泛地应用。但随着芯片规模和集成度的不断提升,单个GPU芯片的功耗已经高达376W,是高端通用处理器的2～3倍。高功耗带来的可靠性、稳定性以及芯片成本问题使“功耗墙”已经成为未来GPU设计过程中需要突破的关键问题之一。立足于体系结构层次,结合图形处理器的渲染流水线的结构特点,从深度测试和消隐、染色器数据通路、纹理映射和压缩、渲染策略、寄存器文件和片上Cache等角度描述了图形处理器的低功耗设计技术,并指出了GPU低功耗设计技术的进一步研究方向。相似文献

7.

大数据时代——从冯·诺依曼到计算存储融合

邱赐云李礼张欢吴佳《计算机科学》2018,45(Z11):71-75

海量数据的出现和硬件计算能力的提升,催生了第三次人工智能的发展热潮,大数据时代来临。首先,分析了拥有冯·诺依曼体系结构的计算机在大数据时代遭遇的存储墙、带宽墙和功耗高问题,引出为适应和满足大数据处理需求的计算机体系结构的发展趋势;接着,分析计算机体系结构层面的计算存储融合技术、软硬件结构、offloading算法的设计思路与技术特点,以及在商业系统中的应用,为高性能计算、数据中心建设和智能SSD产品设计等提供启发意义;分析微观层面基于硅穿孔的3D堆叠封装技术和最新的产业动态;最后,阐述代表计算存储一体化发展目标的类脑计算和最新的研究进展。相似文献

8.

支持推测并行化的事务存储硬件模拟系统

李颀安虹李功明邓博斌《小型微型计算机系统》2013,34(5)

多核处理器通过增加处理器核数提高计算能力,虽然可以通过同时运行多道程序的方式利用处理器资源,但是多核处理器真正的成功取决于解决并行应用开发中的难题.为此,处理器体系结构和编程模型的协同开发是必须的.而随着核数的增多,传统上使用的软件模拟器因为软件的串行性而性能越来越差,无法支持这种软硬件协同开发.FPGA天生的并行性使它在模拟多核处理器时具有较高的模拟性能和高度的可扩放性,成为处理器体系结构研究的理想工具.本文介绍了基于FPGA的多核模拟系统,RAMP-Pink.该系统基于HASim实现,同时支持事务存储和线程级推测,用于对事务存储和线程级推测的软硬件协同开发.该模拟系统可配置不同的FPGA开发平台,也可以以软件模拟方式运行. 相似文献

9.

配置流驱动计算体系结构指导下的ASIP设计 总被引：1，自引：0，他引：1

李勇王志英赵学秘岳虹《计算机研究与发展》2007,44(4):714-721

为了兼顾嵌入式处理器设计中的灵活性与高效性,提出配置流驱动计算体系结构.在体系结构设计中将软/硬件界面下移,使功能单元之间的互连网络对编译器可见,并由编译器来完成传输路由,从而支持复杂但更为高效的互连网络.在该体系结构指导下,提出一种支持段式可重构互连网络的专用指令集处理器(ASIP)设计方法.该方法应用到密码领域的3类ASIP设计中表明,与简单总线互连相比,在不影响性能的前提下,可平均节约53%的互连功耗和38.7%的总线数量,从而达到减少总线数量、降低互连功耗的目的. 相似文献

10.

LT-SP2汇编器的设计与实现

佘增辉樊晓桠张萌《微处理机》2012,33(3):69-72

流处理器体系结构的研究是当今的一个热点,而核级汇编器在流处理器的验证和应用中举足轻重。LT-SP2是一款支持短向量操作的多核流处理器,一条指令能对多个计算单元进行操作。针对LT-SP2的体系结构及系统容错问题,采用了编译程序自动构造方法,提出了冗余备份和校验机制,在此基础上给出了汇编器框图,并实现了支持LT-SP2的汇编器。实验结果证明,所设计的汇编器功能正确,提升了流计算系统的容错性能。相似文献

11.

New trends in parallel and distributed simulation: From many-cores to Cloud Computing

《Simulation Modelling Practice and Theory》2014

Recent advances in computing architectures and networking are bringing parallel computing systems to the masses so increasing the number of potential users of these kinds of systems. In particular, two important technological evolutions are happening at the ends of the computing spectrum: at the “small” scale, processors now include an increasing number of independent execution units (cores), at the point that a mere CPU can be considered a parallel shared-memory computer; at the “large” scale, the Cloud Computing paradigm allows applications to scale by offering resources from a large pool on a pay-as-you-go model. Multi-core processors and Clouds both require applications to be suitably modified to take advantage of the features they provide. Despite laying at the extreme of the computing architecture spectrum – multi-core processors being at the small scale, and Clouds being at the large scale – they share an important common trait: both are specific forms of parallel/distributed architectures. As such, they present to the developers well known problems of synchronization, communication, workload distribution, and so on. Is parallel and distributed simulation ready for these challenges? In this paper, we analyze the state of the art of parallel and distributed simulation techniques, and assess their applicability to multi-core architectures or Clouds. It turns out that most of the current approaches exhibit limitations in terms of usability and adaptivity which may hinder their application to these new computing architectures. We propose an adaptive simulation mechanism, based on the multi-agent system paradigm, to partially address some of those limitations. While it is unlikely that a single approach will work well on both settings above, we argue that the proposed adaptive mechanism has useful features which make it attractive both in a multi-core processor and in a Cloud system. These features include the ability to reduce communication costs by migrating simulation components, and the support for adding (or removing) nodes to the execution architecture at runtime. We will also show that, with the help of an additional support layer, parallel and distributed simulations can be executed on top of unreliable resources. 相似文献

12.

适用于多核处理器的簇状片上网络设计 总被引：1，自引：1，他引：0

下载免费PDF全文

尤凯迪肖瑞瑾权衡虞志益《计算机工程》2011,37(21):211-213

提出一种新型簇状片上网络架构。该架构以二维网状拓扑结构连接各个簇单元,每个簇单元由3个处理器、1个直接访存单元和1个簇共享存储单元组成。基于该架构的多核处理器可以获得更高的通信效率及存储器利用率。在实验系统上实现3 780点的快速傅里叶变换,结果表明,在快速傅里叶变换应用中存储器的利用率能提升至79.5%。相似文献

13.

基于片上网络的多核芯片组通讯方案

侯宁卢亚鹏张多利《计算机时代》2014,(10):17-18

多芯片协同工作是一种廉价、低风险的高密度计算应用解决方案。由于片上网络(Network On Chip,NoC)的数据通讯具有并发、分离的特性,因此可以方便地在板级集成多块NoC多核芯片协同工作,构成NoC多核芯片组,快速提供更强大的处理能力。基于某高性能图像处理项目,其硬件系统主要由4块NoC多核芯片构成,4块芯片采用全互连方式,研究了报文数据在不同多核芯片间的传输问题,提出了一种通过硬件实现的多核芯片组通讯方案,该方案已应用在某高性能图像处理项目。相似文献

14.

一种用于片上网络的拥塞感知哈密尔顿最短路径路由算法

康子扬彭凌辉周干林博王蕾《计算机工程与科学》2022,44(6):986-993

类脑处理器能够支持多种脉冲神经网络SNN的部署来完成多种任务。片上网络NoC能够用较少的资源和功耗解决片上复杂的互连通信问题。现有的类脑处理器多采用片上网络来连接多个神经元核,以支持神经元之间的通信。SNN在时间步内瞬时突发的通信会在短时间内产生大量的脉冲报文。在这种通信行为下,片上网络会在短时间内达到饱和,造成网络拥塞。片上网络中非拥塞感知路由算法会进一步加剧网络拥塞状态,如何在每一个时间步内有效处理这些数据包,从而降低网络延迟,提高吞吐率,成为了目前需要解决的问题。首先对SNN的瞬时猝发通信特性进行了分析;然后提出一种拥塞感知的哈密尔顿路径路由算法,以降低NoC平均延迟和提高吞吐率;最后,使用Verilog HDL实现该路由算法,并通过模拟仿真进行性能评估。在网络规模为16×16的2D Mesh结构的片上网络中,相对于没有拥塞感知的路由算法,在数量猝发模式和概率猝发模式下,所提出的拥塞感知路由算法的NoC平均延迟分别降低了13.9%和15.9%;吞吐率分别提高了21.6%和16.8%。相似文献

15.

RISC指令集众核处理器功能验证与实现

朱博元刘高辉李政运安述倩《计算机工程与应用》2014,50(21):54-58

众核技术已成为当前处理器体系结构发展的必然趋势,如何对众核处理器设计进行有效而充分的验证,成为当今IC设计验证领域的研究热点之一,也是众核处理器芯片能否成功流片的关键因素之一。目前工业界采用基于仿真的验证作为主要的验证方式,重点介绍了以覆盖率为导向的RISC众核处理器的功能验证环境的整体设计,提出了“被动式”的验证思想,并采用“软硬件协同验证”的策略,最终达到每条指令都比对通过的验证目标,辅以后期阶段所引入的时序验证策略和功耗评估策略,完整地提出了一套芯片验证平台搭建和验证功能实现的方法流程。相似文献

16.

基于多FPGA的NoC多核处理器验证平台设计 总被引：1，自引：0，他引：1

黄晓林潘红兵易伟杨虎凌梦黄辰何书专李丽《计算机工程与设计》2012,33(1):180-185

为了能够灵活地验证和实现自主设计的基于NoC的多核处理器,缩短NoC多核处理器的设计周期,提出了设计集成4片Virtex-6-550T FPGA的NoC多核处理器原型芯片设计/验证平台.分析和评估了NoC多核处理器的规模以及对FPGA硬件资源的需求,在此基础上给出了集成4片FPGA的开发板详细设计方案,并对各主要模块如互联架构、电源、板级时钟分布、接口技术、存储资源等关键设计要点进行阐述.描述了开发板各个主要模块的测试过程和结果,表明了该设计的可行性. 相似文献

17.

多核架构下的数据处理算法优化策略综述

下载免费PDF全文

陈伟杜凌霞陈红《计算机科学与探索》2011,5(12):1057-1075

多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。相似文献

18.

Spike pattern recognition using artificial neuron and spike-timing-dependent plasticity implemented on a multi-core embedded platform

F. Grassia T. Levi E. Doukkali T. Kohno 《Artificial Life and Robotics》2018,23(2):200-204

The objective of this work is to use a multi-core embedded platform as computing architectures for neural applications relevant to neuromorphic engineering: e.g., robotics, and artificial and spiking neural networks. Recently, it has been shown how spike-timing-dependent plasticity (STDP) can play a key role in pattern recognition. In particular, multiple repeating arbitrary spatio-temporal spike patterns hidden in spike trains can be robustly detected and learned by multiple neurons equipped with spike-timing-dependent plasticity listening to the incoming spike trains. This paper presents an implementation on a biological time scale of STDP algorithm to localize a repeating spatio-temporal spike patterns on a multi-core embedded platform. 相似文献

19.

Performance issues in emerging homogeneous multi-core architectures

Abdullah Kayi Tarek El-Ghazawi Gregory B. Newby 《Simulation Modelling Practice and Theory》2009,17(9):1485-1499

Multi-core architectures have emerged as the dominant architecture for both desktop and high-performance systems. Multi-core systems introduce many challenges that need to be addressed to achieve the best performance. Therefore, benchmarking of these processors is necessary to identify the possible performance issues. In this paper, broad range of homogeneous multi-core architectures are investigated in terms of essential performance metrics. To measure performance, we used micro-benchmarks from High-Performance Computing Challenge (HPCC), NAS Parallel Benchmarks (NPB), LMbench, and an FFT benchmark. Performance analysis is conducted on multi-core systems from UltraSPARC and x86 architectures; including systems based on Conroe, Kentsfield, Clovertown, Santa Rosa, Barcelona, Niagara, and Victoria Falls processors. Also, the effect of multi-core architectures in cluster performance is examined using a Clovertown based cluster. Finally, cache coherence overhead is analyzed using a full-system simulator. Experimental analysis and observations in this study provide for a better understanding of the emerging homogeneous multi-core systems. 相似文献

20.

一种多核处理器直连接口QoS的设计与验证

罗莉周宏伟周理潘国腾周海亮刘彬《计算机工程与科学》2021,43(4):620-627

多核处理器直接互连构建多路并行系统,一直是提高高性能计算机并行性的主要方式.主要研究多核处理器直连接口的QoS设计,通过直连接口完成跨芯片的Cache一致性报文有效、可靠传输,实现共享主存的SMP系统.详细阐述了直连接口各个协议层的QoS设计的关键技术,基于UVM方法学构建了可重用验证平台,模拟验证了QoS设计的正确性... 相似文献