期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

41.

郑亚松王达叶笑春崔慧敏徐远超范东睿《计算机研究与发展》2014,(12)

内存申请是引发共享存储系统上MapReduce性能下降的主要瓶颈之一,特别是对于需要处理大量键值的应用尤为严重.为了解决此问题,提出了一种内存开销低、能高效处理大规模键值的MapReduce并行计算框架——MALK(high-efficient MapReduce for applications having large amount of keys).MALK对于离散的大规模键值采用连续的存储管理方法,避免了大量小块内存的申请;通过更细粒度地处理Map阶段的任务和流水化Reduce阶段的任务,来减少系统运行过程中同时活跃的数据量,从而将应用程序对内存的需求控制在一个较小的范围内;并提出一种Hash表的复用机制,通过复用Hash表的存储空间来避免流水过程中Hash表内存的重复申请;MALK还综合考虑了任务的粒度和数量对任务管理开销和整体性能的影响,把Reduce阶段的任务数量设成对系统性能最优的值.实验结果表明:相对于Phoenix++,MALK的性能最高可提升3.8倍(平均2.8倍);在Map和Reduce阶段,MALK最多可节省95.2%和87.8%的存储空间;MALK在Reduce阶段还取得了更好的负载均衡,降低了L2和LLC Cache的缺失率. 相似文献

42.

图计算加速架构综述

严明玉李涵邓磊胡杏叶笑春张志敏范东睿谢源《计算机研究与发展》2021,58(4):862-887

在大数据时代,图被用于各种领域表示具有复杂联系的数据.图计算应用被广泛用于各种领域,以挖掘图数据中潜在的价值.图计算应用特有的不规则执行行为,引发了不规则负载、密集读改写更新操作、不规则访存和不规则通信等挑战.现有通用架构无法有效地应对上述挑战.为了克服加速图计算应用面临的挑战,大量的图计算硬件加速架构设计被提出.它们为图计算应用定制了专用的计算流水线、访存子系统、存储子系统和通信子系统.得益于这些定制的硬件设计,图计算加速架构相比于传统的通用处理器架构,在性能和能效上均取得了显著的提升.为了让相关的研究学者深入了解图计算硬件加速架构,首先基于计算机的金字塔组织结构,从上到下对现有工作进行分类和总结,并以多个完整架构实例分析应用于不同层次的优化技术之间的关系.接着以图神经网络加速架构的具体案例讨论新兴图计算应用的加速架构设计.最后对该领域的前沿研究方向进行了总结,并放眼于未来探讨图计算加速架构的发展趋势. 相似文献

43.

众核体系结构对Cilk语言的硬件支持及评测研究 总被引：4，自引：0，他引：4

龙国平张军超范东睿《计算机学报》2008,31(11)

如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和局部性等系统底层相关的问题.文中以域一致性存储模型为基础,主要工作包括两方面:首先针对域一致性模型编程性不好的缺点提出一种以数据为中心维护高速缓存一致性的方法;其次提出实现DAG Consistency的缓存一致性协议,并在此基础上支持Cilk编程模型.实验结果表明,当处理器核数目较少(<16)时所有测试程序都能获得比较好的性能加速,并且指出了众核情况下(>16)难以获得理想加速效果的两个根本原因:静态路由导致片上网络带宽利用不均衡以及有限的访存带宽. 相似文献

44.

SPARC平台模拟器源码级调试系统的研究与实现

范涛刘高辉叶笑春李文明宋爽范东睿《计算机工程与应用》2013,49(4):65-70

软件模拟器采用软件思想模拟真实硬件工作情况,作为嵌入式系统研究的基础研发工具,被广泛应用于体系结构设计调优、软硬件协同设计领域。研究提出一种在SPARC指令集模拟器平台上实现源码级调试系统的方法,一方面该方法使用SPARC交叉调试器对运行于SPARC指令集模拟器上的应用程序进行源码级调试,有效避免了单独实现源码级调试器所带来的调试信息解析困难、可靠性难以验证的弊端;另一方面提出了在集成开发环境下源码级调试系统的高效集成机制,有效解决了进程间切换延时开销大、界面僵死等问题,为SPARC平台嵌入式系统开发人员提供了一种支持图形化界面的高可靠性源码级调试系统。通过具体实现分析,对整个调试系统进行了性能评估。相似文献

45.

一种缓存数据流信息的处理器前端设计

刘炳涛王达叶笑春张浩范东睿张志敏《计算机研究与发展》2016,53(6):1221-1237

为了能够同时发掘程序的线程级并行性和指令级并行性,动态多核技术通过将数个小核重构为一个较强的虚拟核来适应程序多样的需求.通常这种虚拟核性能弱于占有等量芯片资源的原生核,一个重要的原因就是取指、译码和重命名等流水线的前端各阶段具有串行处理的特征较难经重构后协同工作.为解决此问题,提出了新的前端结构——数据流缓存,并给出与之配合的向量重命名机制.数据流缓存利用程序的数据流局部性,存储并重用指令基本块内的数据依赖等信息.处理器核利用数据流缓存能更好地发掘程序的指令级并行性并降低分支预测错误的惩罚,而动态多核技术中的虚拟核通过使用数据流缓存旁路传统的流水线前端各阶段,其前端难协同工作的问题得以解决.对SPEC CPU2006中程序的实验证明了数据流缓存能够以有限代价覆盖大部分程序超过90%的动态指令,然后分析了添加数据流缓存对流水线性能的影响.实验证明,在前端宽度为4条指令、指令窗口容量为512的配置下,采用数据流缓存的虚拟核性能平均提升9.4%,某些程序性能提升高达28%. 相似文献

46.

众核处理器片上网络的层次化全局自适应路由机制

张洋王达叶笑春朱亚涛范东睿李宏亮谢向辉《计算机研究与发展》2016,53(6):1211-1220

Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适应算法和区域自适应算法均存在不同程度的短视现象,不适合大规模的Mesh结构,而目前全局自适应算法又由于路由计算量大而速度缓慢.提出一种新的层次化全局自适应路由机制,包括一个全局拥塞信息传播网络Roof-Mesh和一个层次化全局自适应路由算法(global hierarchical adaptive routing algorithm, GHARA).通过全局拥塞信息传播网络得到拥塞信息,GHARA采用全网分区逐级计算路由的方式,减少了全局路由的计算步骤,从而减少了平均数据包延迟、提升了饱和带宽.实验结果表明GHARA表现优于其他区域和全局自适应路由算法.在人工注入通信模式下,8×8 Mesh平均饱和带宽比全局自适应算法GCA提高10.7%,16×16 Mesh平均饱和带宽比全局自适应算法GCA提高14.7%.在运行真实测试程序集SPLASH-2模式下,数据包延迟最高比GCA提高40%,平均提升14%. 相似文献

47.

内存与片上渗透缓存之间数据迁移的理论分析

胡九川范东睿程建聪严龙叶笑春李灵枝万良易钟海斌《通信学报》2021,(8):217-225

为提高处理器内核的访存效率和访存命中率,缩短访存时延,可以将具有局部关联关系的指令和数据以群组的方式从内存迁移到处理器片上渗透缓存.指令和数据之间存在的局部性关联关系以及在指令和数据被迁往片上缓存的过程中发生的变化必须从理论的高度予以分析研究.研究结果表明,将指令和数据渗透迁移到片上渗透缓存可以确保及时局部性得到有效保... 相似文献

48.

EOFDM:一种面向众核架构的最低能耗搜索方法

朱亚涛张帅王达叶笑春张洋胡九川张志敏范东睿李宏亮《计算机研究与发展》2015,52(6)

面向能耗优化的面积(核数)-功率(频率)分配问题是当前众核处理器研究热点之一.通过性能-功耗模型了解其在核数-频率空间的分布规律,然后在核数和频率级别这2个维度上通过实测执行逐步搜索,可以获取“核数-频率”配置的最优解,从而达到能耗优化的目的;然而本领域现有方法在核数-频率空间内实测搜索最低能耗时收敛速度慢、搜索开销大、可扩展性差.针对此问题,提出了一种基于求解最优化问题的经典数学方法——可行方向法的最低能耗搜索方法(energy-efficient optimization based on feasible direction method,EOFDM),每次执行都能从核数和频率2个维度上同时减小搜索空间,在迭代执行中快速收敛至最低能耗点.该方法与现有研究中最优的启发式爬山法(hill-climbing heuristic,HCH)进行了对比实验,平均执行次数、执行时间和能耗分别降低39.5％,46.8％,48.3％,提高了收敛速度,降低了搜索开销;当核数增加一倍时,平均执行次数、执行时间和能耗分别降低48.8％,51.6％,50.9％;当频率级数增加一倍时,平均执行次数、执行时间和能耗分别降低45.5％,49.8％,54.4％,在收敛速度、搜索开销和可扩展性方面均有提高. 相似文献

49.

多核结构片上网络性能-能耗分析及优化方法

张帅宋风龙王栋刘志勇范东睿《计算机学报》2013,36(5)

文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性能-能耗模型中建立并行开销、片外访存开销与片上网络规模(节点数)、频率之间的关系,同时引入了并行度、通信模型等与应用相关的因素,使该模型能够同时表达软硬件特性;第三,文中提出了一种基于该性能-能耗模型的性能-能耗优化方法,通过采集程序的通信模型、访存消息数量等数据选择适当的频率和网络节点数来获得片上网络能耗最低值或处理器性能最大值.最后,文中采用8个PARSEC并行程序验证前述模型的准确性并评价性能-能耗优化方法,结果显示文中性能-能耗模型相比传统模型更加精确吻合实验测量结果,性能-能耗优化方法也有效适用于不同种类的并行程序. 相似文献

50.

嵌入式处理器TLB设计方法研究 总被引：3，自引：1，他引：3

范东睿黄海林唐志敏《计算机学报》2006,29(1):73-80

以处理器的TLB（Translation Look-aside Buffer）部件为研究对象，探讨嵌入式处理器TLB部件的高能效设计方法．用龙芯1号这款有代表性的真实处理器为设计模型，通过对功耗、面积、关键路径和性能等多方面的试验分析，提出了新颖的TLB低功耗设计方法．在经过改进后的TLB设计中，TLB部件的RAM部分的面积减少了50％，功耗降低了92．7％，整个TLB部件的面积减少了23．7％，功耗降低了28．5％，而电路延迟几乎没有增加，处理器的性能也没有受到影响．这充分说明改进方案是非常实用而有效的．相似文献