期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高性能VLSI设计中时钟分布网络的问题与解决方法 总被引：1，自引：0，他引：1

下载免费PDF全文

刘祥远陈书明《计算机工程与科学》2007,29(6):89-92

本文介绍了深亚微米工艺下高性能VLSI芯片中时钟分布网络设计所面临的问题,总结了时钟分布网络设计的一般方法,最后指出了时钟分布网络设计研究的发展方向。相似文献

2.

面向高性能计算的众核处理器结构级高能效技术 总被引：1，自引：0，他引：1

郑方张昆邬贵明高红光唐勇吕晖过锋李宏亮谢向辉《计算机学报》2014,37(10)

随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比. 相似文献

3.

高通量众核处理器设计

叶笑春李文明张洋张浩王达范东睿《数据与计算发展前沿》2020,2(1):70-84

【目的】随着云计算、物联网以及人工智能等新型高通量应用的迅速兴起,高性能计算的主要应用从传统的科学与工程计算为主逐步演变为以新兴数据处理为核心,这给传统处理器带来了巨大的挑战,而高通量众核处理器作为面向此类应用的新型处理器结构成为重要的研究方向。【方法】针对上述问题,本文分析了高通量典型应用特征,从数据处理端、传输端以及存储端三个核心环节开展了高通量众核处理器关键技术设计探讨,包括实时任务动态调度、高密度片上网络设计、片上存储层次优化等。【结果】实验结果显示上述机制可以有效确保任务的服务质量,提升网络的数据吞吐率,以及简化片上存储层次。【结论】随着万物互联时代对高并发强实时处理的迫切需求,高通量众核处理器有望成为未来数据中心的核心处理引擎。相似文献

4.

高性能众核处理器申威26010

肖谦赵美佳李名凡沈莉陈俊仕周文浩王飞安虹《计算机研究与发展》2023,32(10):2405-2417

如今,科学研究已从计算科学时代进入数据科学时代. 从海量数据中发现规律和突破科学发展瓶颈是数据科学范式的主要目标. 与此同时,高性能计算机（HPC）也越来越重视智能算力,在传统高性能计算方法的基础上融合人工智能算法（HPC+AI）,更有利于在数据科学时代解决实际问题,并能充分发挥高性能计算机的智能算力. 不过,在国产HPC系统——特别是面向由新一代国产异构众核处理器sw26010pro构建的HPC系统——上支撑HPC+AI领域应用,则面临着诸多挑战. 提出了一种面向国产异构众核处理器的数据流计算系统swFLOWpro,支持使用TensorFlow接口构建数据流程序,实现对用户透明的众核加速,并实现了面向全处理器视角的两级并行策略. 经测试,系统针对典型核心计算,单核组众核加速比最高可达545倍、典型模型众核加速比最高可达346倍,全片6核组并行执行ResNet50模型训练,对比单核组加速比达到4.96倍,并行效率82.6%. 实验表明,swFLOWpro能够支持以深度学习为代表的数据流程序在国产异构众核处理器上的高效运行.

相似文献

5.

面向高性能计算的众核处理器轻量级错误恢复技术研究

郑方沈莉李宏亮谢向辉《计算机研究与发展》2015,52(6):1316-1328

随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的可靠性挑战.需要设计高效的处理器容错机制,有效保证课题运行效率的同时不带来较大的芯片功耗和面积开销.在一款自主众核处理器DFMC(deeply fused and heterogeneous many-core)原型基础上,根据核心上运行的应用程序是否具有关联性特征,提出并实现了面向众核处理器的独立和协同2种轻量级错误恢复技术.其中,协同恢复技术由集中部件进行管理,通过协同恢复总线互连,出错时将与错误相关联的多个核心快速回卷到正确状态.2种错误恢复技术中,保留和恢复过程均通过定制的指令实现,恢复所需要的信息保留在运算核心内部,以保证对课题性能的影响最小化.实验表明,通过上述技术只增加了1.257%的芯片面积,可解决自主众核处理器约80%的瞬时错误,且对课题性能、芯片时序和功耗影响很小,可有效地提高众核处理器的容错能力. 相似文献

6.

众核网络处理器下高速包转发系统设计与实现

《计算机应用与软件》2016,(12)

互联网的快速发展要求网络设备能够支持每秒几百万以上分组的转发能力,实现这一功能的关键是路由表的组织结构、快速的路由查找算法和高性能的硬件平台支持。设计并实现基于众核网络处理器的高速IP包转发系统,使用Tile-Gx36众核网络处理器作为硬件平台,采用基于Hash的前缀长度和多分支Trie树的路由查找算法,借鉴基于Hash的前缀长度路由表查找算法在存储和检索上的优势,并结合基于多分支Trie树路由表查找算法的查询效率,将路由表存储于L2层缓存中,进一步提高了路由表的访问速度和查询命中率。实验结果表明,对于不同大小负载的数据包系统均能满足40 Gbps的转发速度。相似文献

7.

众核处理器和众核集群的并行模拟

吕慧伟程元白露陈明宇范东睿孙凝晖《计算机研究与发展》2013,50(5):1110-1117

模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境. 相似文献

8.

时钟芯片的低功耗设计 总被引：1，自引：0，他引：1

薛立勤应建华颜学超邹雪城《电子技术应用》2004,30(7):74-76

在时钟芯片设计的各个层次上深入探讨了影响时钟芯片功耗的主要因素,确定了电路功耗主要来源与振荡电路和分频电路。在电路实现过程中,通过采用不同工作电压和对主要功耗电路的结构和参数进行优化设计等多种手段来控制功耗。通过1.2滋m工艺流片验证,在工作电压为5V时,芯片工作电流为0.17mA,实现了低功耗时钟芯片的设计。相似文献

9.

RISC指令集众核处理器功能验证与实现

朱博元刘高辉李政运安述倩《计算机工程与应用》2014,50(21):54-58

众核技术已成为当前处理器体系结构发展的必然趋势,如何对众核处理器设计进行有效而充分的验证,成为当今IC设计验证领域的研究热点之一,也是众核处理器芯片能否成功流片的关键因素之一。目前工业界采用基于仿真的验证作为主要的验证方式,重点介绍了以覆盖率为导向的RISC众核处理器的功能验证环境的整体设计,提出了“被动式”的验证思想,并采用“软硬件协同验证”的策略,最终达到每条指令都比对通过的验证目标,辅以后期阶段所引入的时序验证策略和功耗评估策略,完整地提出了一套芯片验证平台搭建和验证功能实现的方法流程。相似文献

10.

以访存为中心的阵列众核处理器核心流水线设计

张昆郑方谢向辉《计算机工程与科学》2017,39(12):2167-2175

传统的流水线设计是以转移指令为中心的,大量逻辑资源被用于提高处理器转移预测的能力,以保证向流水线发射和执行部件提供充足的指令流。在阵列众核处理器中提出了一种以访存为中心的核心流水线设计。通过提高访存装载指令在流水线中的执行优先级,以及访存装载指令的预测执行机制,可以有效减少顺序流水线因访存延迟所带来的停顿,提高流水线性能和能效比。测试结果表明,以4KB容量的装载指令访存地址表为例,访存为中心的流水线设计可以带来8.6%的流水线性能提升和7%的流水线能效比提高。相似文献

11.

SoC设计中的时钟低功耗技术

下载免费PDF全文

王延升刘雷波《计算机工程》2009,35(24):257-258

针对时钟网络在SoC芯片中的作用和时钟网络自身的特点,研究并实现3种时钟低功耗技术,包括在系统级采用动态时钟管理技术动态地关断和配置芯片内各模块的时钟,在逻辑综合时基于功耗优化工具Power Compiler插入门控时钟单元,在时钟树综合时以时钟树规模为目标进行低功耗时钟树综合。在音视频解码芯片的设计中采用以上3种技术,结果表明其功耗优化效果明显。相似文献

12.

BFS算法与众核处理器的适应性研究

叶楠郝子宇郑方谢向辉《计算机研究与发展》2015,52(5):1187-1197

以图计算为代表的数据密集型应用获得越来越广泛的关注,而传统的高性能计算机处理这类应用的效率较低.面向未来高性能计算机体系结构要有效支持数据密集型计算,深入研究以广度优先搜索(breadth-first search, BFS)算法为代表的图计算的典型特征,设计实现轻量级启发式切换BFS算法,该算法通过基本搜索方式的自动切换,避免冗余内存访问,提高搜索效率;针对BFS算法的离散随机数据访问特征以及众核处理器执行机制,建立面向BFS算法的众核处理器体系结构分析模型;全面、深入研究了BFS算法在典型众核处理器上的运行特征和性能变化趋势.测试结果表明：Cache命中率、内存带宽、流水线利用效率等相关参数均处于较低水平,无法完全满足BFS算法的需求,因此需要能够支持大量离散随机访问和简单执行机制的新型众核处理器体系结构. 相似文献

13.

众核处理器片上网络的层次化全局自适应路由机制

张洋王达叶笑春朱亚涛范东睿李宏亮谢向辉《计算机研究与发展》2016,53(6):1211-1220

Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适应算法和区域自适应算法均存在不同程度的短视现象,不适合大规模的Mesh结构,而目前全局自适应算法又由于路由计算量大而速度缓慢.提出一种新的层次化全局自适应路由机制,包括一个全局拥塞信息传播网络Roof-Mesh和一个层次化全局自适应路由算法(global hierarchical adaptive routing algorithm, GHARA).通过全局拥塞信息传播网络得到拥塞信息,GHARA采用全网分区逐级计算路由的方式,减少了全局路由的计算步骤,从而减少了平均数据包延迟、提升了饱和带宽.实验结果表明GHARA表现优于其他区域和全局自适应路由算法.在人工注入通信模式下,8×8 Mesh平均饱和带宽比全局自适应算法GCA提高10.7%,16×16 Mesh平均饱和带宽比全局自适应算法GCA提高14.7%.在运行真实测试程序集SPLASH-2模式下,数据包延迟最高比GCA提高40%,平均提升14%. 相似文献

14.

Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture

下载免费PDF全文

郑方李宏亮吕晖过锋许晓红谢向辉《计算机科学技术学报》2015,(1)

Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out e?ciently due to the memory... 相似文献

15.

众核处理器系统核资源动态分组的自适应调度算法 总被引：1，自引：0，他引：1

曹仰杰钱德沛伍卫国董小社《软件学报》2012,23(2):240-252

针对众核处理器系统的核资源优化使用问题,提出了一种支持核资源动态分组的自适应调度算法CASM(core-partitioned adaptive scheduling for many-core systems).该算法通过对任务簇的拆分与合并,动态构建可弹性分区的核逻辑组,实现核资源的隔离优化访问.为了平衡核资源利用率及任务调度效率,CASM算法针对任务簇间和簇内的不同特点,分别采用公平性较好的均衡调度算法和资源利用率较高的自适应调度算法.在线竞争理论分析表明,CASM算法的任务执行时间在线竞争比为常数2,其性能可扩展性较好.实验结果表明,与WS(work-stealing),AGDEQ(adaptive greedy dynamicequi-partitioning)和EQUI°EQUI算法相比,CASM算法使任务集运行时间分别减少了近46％,32％和15％.在相同能耗情况下,CASM算法大幅度地提升了系统吞吐量. 相似文献

16.

众核处理器的流水线紧耦合指令循环缓存设计

张昆过锋郑方谢向辉《计算机研究与发展》2017,54(4):813-820

能效比是未来高性能计算机需要解决的重要问题.众核处理器作为高性能计算机的重要实现手段,其微结构的优化设计对能效比提升尤为关键.提出了1种面向众核处理器的流水线紧耦合的指令循环缓存设计,以较小的L0指令缓存提供更加高能效的指令取指.作为体系结构研究同硬件可实现性紧密结合的1次尝试,设计始终考虑了硬件实现代价这一关键约束.为了控制L0指令缓存对流水线性能的影响,指令缓存采用了循环出口预取技术,以此保证指令缓存提供的低功耗的指令取指能够最终转化为流水线能效比的提升.在gem5模拟器上实现了对指令循环缓存的模拟.对SPEC2006的测试结果表明,在不影响流水线性能的前提下,设计的典型配置可以减少27%的指令取指功耗以及31.5%的流水线前段部件动态功耗. 相似文献

17.

单片机系统RAM自检的改进方法 总被引：3，自引：3，他引：0

陈卫兵何娟《工业控制计算机》2004,17(12):54-55

在各种单片机应用系统中,RAM与该应用系统的正常工作紧密相关,RAM的自检可有效地避免RAM不正常工作给系统带来的损害。本文介绍了一般单片机应用系统中RAM自检的常用方法,并且针对地址线发生断路的故障检测提出了一种新的方法及优化措施。相似文献