期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

雷国庆马驰远王永文郑重《计算机工程与科学》2021,43(2):199-204

面向国产处理器核心性能提升的实际需求,针对处理器核RTL设计中可能出现的性能缺陷问题,提出了一种基于RT L仿真的轻量级处理器核性能分析框架.该性能分析框架基于定向和随机测试激励,通过对基准处理器核(Base Core)和新一代处理器核(New Core)的RT L设计进行快速模拟仿真,并对模拟结果进行对比分析,从而发现New Core在RTL设计过程中可能引入的性能缺陷.基于该性能分析框架,结合实际应用场景给出了测试方法和测试结果.实践表明,该性能分析框架能够快速对New Core的RT L设计的性能预期进行验证,从而发现New Core在RT L设计过程中可能引入的性能缺陷,有效加速新一代处理器核的研制进程. 相似文献

2.

下一代网络处理器及应用综述

赵玉宇程光刘旭辉袁帅唐路《软件学报》2021,32(2):445-474

网络处理器作为能够完成路由查找、高速分组处理以及QoS保障等主流业务的网络设备核心计算芯片,可以结合自身可编程性完成多样化分组处理需求,适配不同网络应用场景.面向超高带宽及智能化终端带来的网络环境转变,高性能可演进的下一代网络处理器设计是网络通信领域的热点问题,受到学者们广泛关注.融合不同芯片架构优势、高速服务特定业务使下一代网络处理器具备分组处理性能加速、动态配置硬件资源和服务应用智能化的特点.本文从利用新型可编程技术、面向新型网络体系结构以及针对新型高性能业务3个下一代网络处理器设计方案对现有研究进行分析比较,并对下一代网络处理器的工业化进程做了介绍;提出了高性能可演进的下一代网络处理器体系架构,通过软硬件协同分组处理流水线、多级缓存与分组调度、资源管理及编程接口等方面给出了架构设计细节,研制了原型系统并对其性能进行了测试.本文明确了自主可控的网络处理器体系架构发展方向和智能化应用场景,讨论了未来可能的研究方向. 相似文献

3.

一个调度Fork-Join任务图的最优算法 总被引：5，自引：0，他引：5

李庆华阮幼林刘干蒋盛益杨世达《软件学报》2005,16(5):684-690

Fork-Join任务图是一种并行处理的基本结构.虽然许多算法在任务满足某些条件时能产生最优调度,但往往没有考虑节省处理器个数和减少任务集的总完成时间,从而降低算法的加速比和效率.因此,提出一种基于任务复制的平衡调度算法,其时间复杂度为O(vq+vlogv),v和q分别表示任务集中任务的个数和使用的处理器个数.通过分析已用处理器的负载和空闲时间段,把任务尽量分配到已用的处理器上以均衡负载,从而提高其利用率.实验结果表明,该算法的加速比和总体效率优于其他算法.因此,该算法对于高性能应用程序的调度是一个较好的选择. 相似文献

4.

众核处理器的共享一级指令缓存研究

张昆刘骁郑方谢向辉《计算机工程与科学》2017,39(5):834-840

众核处理器设计在芯片面积上受到了巨大挑战,如何将有限的芯片面积投入到运算能力中,是众核处理器体系结构研究的热点。聚焦众核处理器的指令缓存结构设计,研究通过在多核核心之间共享一级指令缓存,以获取指令系统及处理器流水线性能的提升。给出了共享指令缓存的结构设计,对该结构进行了节拍级精确的性能模拟,并通过RTL级代码的综合得到了面积开销和时序指标。测试结果表明,共享指令缓存可以降低11%~27%的缓存脱靶率,提升4%~7%的流水线性能。相似文献

5.

基于多级队列缓存淘汰算法的处理器全数字仿真优化

下载免费PDF全文

范延芳韦涌泉王向晖《计算机测量与控制》2018,26(6):180-183

通过虚拟目标机实现星载软件的测试是节约卫星开发成本,提高卫星软件测试效率的重要手段。作为星载计算机的核心部件,虚拟处理器的指令集执行速度直接决定虚拟目标机的仿真效率。采用多级队列缓存淘汰策略对QEMU(Quick Emulator)原有的动态指令翻译实现进行优化,提高仿真处理器的执行效率,因此若采用仿真处理系统加载星载嵌入式软件进行测试,可以根据测试需要,在仿真处理器可实现范围内加速运行被测软件,从而实现缩短软件测试周期的目的。选取某星载中心计算机嵌入式应用软件为测试对象,实验表明,采用优化算法后的仿真处理器的运行速度可以达到平均260MIPS,是QEMU-2.6.1版未优化前实现的仿真处理器处理速度的9.3倍,即,采用仿真处理器能够使被测软件运行在9倍于硬件处理器的运行速度下,大大提升了软件测试效率,缩短了测试周期。相似文献

6.

一种面向同构集群系统的并行任务节能调度优化方法 总被引：1，自引：0，他引：1

李新贾智平鞠雷赵衍恒宗子良《计算机学报》2012,35(3):591-602

节能调度算法设计是高性能计算领域中的一个研究热点.复制调度算法能够减少后继任务等待延时,缩短任务总体调度时间,但是耗费了更多的能量.为此,作者提出一种启发式处理器合并优化方法 PRO.该方法按照任务最早开始时间和最早结束时间查找处理器时间空隙,将轻负载处理器上的任务重新分配到其它处理器上,从而减少使用的处理器数目,降低系统总体能耗.实验结果表明,和已有的复制任务调度算法TDS、EAD和PEBD相比,优化后的调度算法在不增加调度时间的条件下,能够明显减少使用的处理器数和系统总体能耗,从而更好地实现性能和能耗之间的平衡. 相似文献

7.

内存数据库在TPC-H负载下的处理器性能 总被引：2，自引：1，他引：1

刘大为栾华王珊覃飙《软件学报》2008,19(10):2573-2584

Ailamaki等人1999年研究了数据库管理系统(database management system,简称DBMS)在处理器上的时间开销分解.此后,相关研究集中在分析DBMS在处理器上的瓶颈.但这些研究工作均是在磁盘数据库DRDBs(disk resident databases)上开展的,而且都是分析DBMS上的TPC-C类负载.然而,随着硬件技术的进步,现代计算机的多级缓存结构(memory hierarchy)在逐渐地"上移".例如,容量越来越大的芯片内缓存(on-chip caches)和芯片外缓存(off-chip caches),容量越来越大的RAM,Flash Memory等等.为此,处理器负载分析的研究工作也应随之"上移".研究内存数据MMDBs(mainmemory resident databases)在计算密集型负载下的处理器行为特性.由于磁盘数据库的主要性能瓶颈是磁盘I/O,因而可以用索引、压缩等技术进行优化;然而,内存数据库的性能瓶颈却在于处理器和内存之间的数据交换.针对这一问题,首先分析了磁盘数据库和内存数据库在TPC-H负载下处理器性能瓶颈的差异,并给出了一些优化建议,提出了通过预取的优化方法.其次,通过实验比较了不同存储体系结构(行存储与列存储)对处理器利用率的差异,并探索了下一代内存数据库体系结构方面的解决方案.此外,还研究了索引结构对处理器多级缓存的影响,并给出了索引的优化建议.最后,提出一个微测试集用于评估内存数据库在DSS(decision support system)负载下处理器的性能及行为特性.研究结果会对运行于下一代处理器上的内存数据库体系结构设计和性能优化提供一定的实验依据. 相似文献

8.

流水线型并行控制器

苑明哲于海斌周悦《控制理论与应用》2004,21(4):646-650

通常高采样速率有助于提高控制系统性能,但采样速率受限于控制器的执行周期.并行计算是缩短控制器执行周期的有效方法之一,网络化控制系统为控制器的并行执行提供了必要的条件.利用流水线思想,通过在现场总线控制系统中集成控制与调度,实现了控制器以流水线的方式并行执行,使得控制系统的采样周期小于控制器的执行时间,从而获得控制系统性能的提高.仿真结果及理论分析证明了这一方法的有效性. 相似文献

9.

基于向量引用Platform-Oblivious内存连接优化技术

张延松张宇王珊《软件学报》2018,29(3):883-895

以MapD为代表的图分析数据库系统通过GPU、Phi等新型众核处理器来支持高性能分析处理,在面向复杂数据模式时连接操作仍然是重要的性能瓶颈.近年来,异构处理器逐渐成为高性能计算的主流平台,内存连接性能的研究从多核CPU平台扩展到新兴的众核处理器,但众多的研究成果并未系统地揭示连接算法性能、连接数据集大小、硬件架构之间的内在联系,难以为未来异构处理器平台的数据库提供连接平台优化选择策略.本文以面向多核CPU、Xeon Phi、GPU处理器平台的内存连接优化技术为目标,通过优化内存哈希表设计,实现以向量映射替代哈希映射操作,消除哈希代价对内存连接算法的影响,从而更加准确地测量内存连接算法在多核CPU的cache大小、Xeon Phi的cache大小、Xeon Phi的并发多线程、GPU的SIMT（单指令多线程）机制等硬件相关因素影响下的性能特征.实验结果表明,缓存与并发多线程机制是提高内存连接算法性能的重要影响因素.缓存机制对于满足cache大小的连接操作具有性能优势,而GPU的并发多线程机制则在较大表的连接操作中具有较高的性能,Xeon Phi则在满足其L2 cache大小的连接操作中具有最高性能.实验结果揭示了内存连接操作性能与异构处理器硬件特性的联系,为未来异构处理器平台内存数据库查询优化器提供了优化策略. 相似文献

10.

一种DSP周期精度高效建模方法

李笑天殷淑娟何虎《计算机应用研究》2015,32(1):121-124

为了便于数字信号处理器(DSP)的架构探索,提出了一种全新的基于Gem5模拟器Atomic模型,为顺序多发射、多级执行的DSP进行周期精度高效建模的通用方法。通过修改Atomic现有的三级流水线,添加一级新的流水线,达到了在Gem5中为DSP进行周期精度仿真的目的;通过硬件表格类的设计,改变Gem5指令集与处理器的耦合,达到了在Gem5中为DSP进行快速高效建模的目的。运行基准测试程序Dhrystone2的结果表明,该建模方法得到的周期信息与RTL硬件代码的仿真结果相同。而对代码的统计表明,该建模方法能提高代码的复用率和可维护性,使建模能快速响应设计,缩短DSP设计迭代周期。相似文献

11.

基于动态任务调度的STDS算法设计研究

刘正《智能系统学报》2015,(2):324-332

任务调度是计算机多核处理器系统获得高性能的关键,而现有的多核任务调度算法研究,大多侧重于静态调度下的算法优化和负载均衡,对动态调度及动态负载均衡研究较少。针对动态调度,并结合异构多核的特点,提出一种基于核负载均衡的动态任务调度算法STDS。算法通过合理设定调度粒度,降低调度频率,从而减少调度消耗时间;根据异构多核处理器各核处理性能的差异,设置内核负载上下限值,控制内核负载保持在同一水平,以达到负载均衡效果。算法依据等待时间长短、任务间通信大小和内核负载轻重因素对任务进行实时调度,并可通过实时因子、负载因子等参数设置3种因素的影响比重,以满足系统的不同需求。仿真实验显示,在内核数目较多的系统中,STDS算法更加高效,在保证任务处理速度的同时有较好负载均衡。相似文献

12.

(加急)基于GPU的并行加速渲染算法的研究

张晓芬薛国新陆柯彤张宸铭《计算机测量与控制》2016,24(10)

目前,GPU渲染技术仍然存在不足之处,在分配渲染任务时,没有充分发挥各个处理器的优势,浪费了性能较好的处理器,影响了渲染速度的提高。针对以上问题,根据武进区邹区现代农业产业园人口疏散地域接收安置动画的项目,在原有GPU渲染架构的基础上提出了一种基于sort-last架构的带反馈的动态负载均衡算法。在分配渲染任务之前,对所有处理器进行性能统计,将时长较长的场景分配给性能较好的处理器,时长短的分配给剩余的处理器,待有处理器完成渲染任务时,将剩余场景时间较长的,分配给第一轮任务先完成的处理器,以此类推。实验结果表明,该方法对解决上述问题具有较好的效果,解决了目前集群渲染存在的不足之处和负载不平衡的问题,最终实现了加速渲染。相似文献

13.

反馈控制实时调度中采样周期的研究 总被引：1，自引：0，他引：1

魏立峰马卫国于海斌《自动化仪表》2002,23(9):25-29

以CPU资源调度为典型应用背景，研究并分析了采样周期对反馈控制实时调度和一般数字控制系统性能影响的差异，通过仿真实验得出采样周期的选择对反馈控制实时调度性能影响规律，提出了采样周期的选择方法。对于平均执行时间难以预测的任务集，提出一种可变采样周期的有效解决方案。相似文献

14.

基于RISC-V参数化超标量处理器的优化设计

下载免费PDF全文

刘有耀潘宇晨《计算机工程与应用》2022,58(5):66-74

为解决嵌入式领域对处理器不同性能面积的需求,以及对重排序缓冲区阻塞,保留站派遣长短周期指令时导致的吞吐率不平衡及堵塞问题,设计并优化了一种简便配置的参数化流水线超标量处理器.通过定制化流水线中的分支预测,缓存与运算单元,将RISC-V指令划分5大类处理,对不同周期的执行单元采用级联与并行的混合分布方式,将充当排序缓存中... 相似文献

15.

基于数据预取的多核处理器末级缓存优化方法

单书畅胡瑜李晓维《计算机辅助设计与图形学学报》2012,24(9):1241-1248

末级缓存的性能已成为影响多核处理器整体性能的关键因素.基于多核处理器在处理并行程序时各处理器核访存行为的相似性,提出一种降低访存缺失率的数据预取方法.首先记录各处理器核的访存缺失历史;然后通过分析历史信息预测各处理器核之间末级缓存缺失的关联关系,采用数据预取的方式,在处理器核出现读缺失之前为其末级缓存提供数据块.实验结果表明,对于4核和16核处理器系统,该方法可以分别降低末级缓存缺失率9.8％和18.4％,提高性能4.0％与12.4％. 相似文献

16.

基于权值动量的RBM加速学习算法研究 总被引：1，自引：0，他引：1

李飞高晓光万开方《自动化学报》2017,43(7):1142-1159

动量算法理论上可以加速受限玻尔兹曼机（Restricted Boltzmann machine,RBM）网络的训练速度.本文通过对现有动量算法进行仿真研究,发现现有动量算法在受限玻尔兹曼机网络训练中加速效果较差,且在训练后期逐渐失去了加速性能.针对以上问题,本文首先基于Gibbs采样收敛性定理对现有动量算法进行了理论分析,证明了现有动量算法的加速效果是以牺牲网络权值为代价的;然后,本文进一步对网络权值进行研究,发现网络权值中包含大量真实梯度的方向信息,这些方向信息可以用来对网络进行训练;基于此,本文提出了基于网络权值的权值动量算法,最后给出了仿真实验.实验结果表明,本文提出的动量算法具有更好的加速效果,并且在训练后期仍然能够保持较好的加速性能,可以很好地弥补现有动量算法的不足. 相似文献

17.

基于标记的缓存协作分布式Web服务器系统 总被引：3，自引：0，他引：3

下载免费PDF全文

林曼筠钱华林《软件学报》2003,14(1):117-123

介绍了提高Web服务器性能的前沿技术--分布式Web服务器系统,讨论了现有各种方案的优缺点,在此基础上提出一种新的分布式Web服务器系统.该系统使用基于标记的缓存协作用户请求分发方法(tag based cache cooperative Web requests distribution,简称TB-CCRD),通过前端机把系统中各个Web服务器的缓存组织成一个大的虚拟缓存系统,提高系统的整体缓存命中率,缩短了请求的响应时间;通过分布式处理TCP连接转交来消除前端机的性能瓶颈;利用标记通告URL在缓存中的位置,避免了额外的系统内部通信.从而得到了一个可扩展的高性能分布式Web服务器系统. 相似文献

18.

重用感知的非一致缓存迁移策略研究

汪玲黄炎袁光辉《计算机工程》2014,(2):81-85

随着工艺的持续进步,多核处理器集成了越来越多的核以及片上缓存系统,因此利用非一致缓存架构(NUCA)应对片上多核处理器的缓存系统中逐渐增大的线延迟。高效的缓存块迁移策略对整个缓存系统至关重要。当前动态非一致缓存架构(D-NUCA)中的缓存块迁移策略未考虑缓存块的历史访问信息,导致缓存块在不同的bank之间抖动从而增加缓存块的访问延迟。为此,提出一种重用感知的缓存块迁移(RABM)策略,采用缓存块的历史迁移信息来预测将来的缓存块迁移,从而提升D-NUCA的性能以及降低整个缓存系统的功耗。基于PARSEC基准测试程序的全系统仿真结果显示,与D-NUCA相比,基于RABM的D-NUCA可以使每时钟周期指令数平均提高9.6%,片上缓存系统功耗降低14%。相似文献

19.

异构计算中的负载共享 总被引：18，自引：0，他引：18

曾国荪陆鑫达《软件学报》2000,11(4):551-556

在基于消息传递的异构并行计算系统中 ,各处理器或计算机具有自制和独立地调度、执行作业的能力 .当一个可划分的作业初始位于一个处理器上时 ,为了提高计算性能 ,该处理器可以请求其他异构处理器负载共享 ,参与协同计算 ,减少作业的完成时间 .该文提出了异构计算负载共享的一种方案 .首先 ,调用负载共享协议 ,收集当前各处理器参与负载共享的许可数据 ,包括共享时间段、计算能力等 .然后 ,构造一个作业量与作业完成时间之间的关系函数 .该函数是选择一组合适的处理器群、优化作业划分、作业完成时间最小的理论基础 .最相似文献

20.

一种结构化P2P网络中的动态协作缓存策略 总被引：1，自引：1，他引：0

熊殿华《计算机与数字工程》2010,38(1):58-60,150

基于结构化P2P网络,提出一种动态协作缓存策略。此算法以缓存引起的收益和损耗为标准,决定是否在该节点缓存该资源,解决了以往算法只考虑单个节点性能而忽略系统整体负载的问题。仿真结果表明,该算法能够很好的降低系统负载,减少节点寻找资源时的平均跳数,较已有的缓存策略,性能有很大提高。相似文献