排序方式: 共有45条查询结果,搜索用时 15 毫秒
1.
在高性能计算领域,数据流是一类重要的计算结构,也在很多实际场景表现出很好的性能和适用性。在数据流计算模式中,程序是以数据流图来表示的,数据流计算中一个关键的问题是如何将数据流图映射到多个执行单元上。通过分析现有数据流结构的指令映射方法及其不足,提出了基于数据流结构的新型指令映射优化方法。主要是根据多地址共享数据包的特性对指令映射方法进行优化,延迟多地址共享数据路由包的拆分,减少网络拥堵。 相似文献
2.
介绍了对处理器中JTAG调试通信接口的软件模拟方法。JTAG接口负责连接主机端与目标处理器,其由tdi、tms、tck和tdo构成,其中tck是tap控制器的时钟控制信号,比处理器的主频小几个数量级;Tms是tap状态机控制信号,tdi和tdo分别是串行数据输入和输出信号。主机端的这种时钟信号是脉冲性的,不具有周期性,给模拟主机端同目标处理器的通信带来困难。利用当前主流操作系统中的多任务环境,给主机和目标处理器分配不同的进程,结合共享内存机制和进程间通信机制有效地实现了对JTAG调试接口信号的软件模拟。这种方法目前已经用在了GodsonX处理器的JTAG调试系统中。 相似文献
3.
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。 相似文献
4.
模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境. 相似文献
5.
针对虚拟化环境下Guest OS某些特定指令行为不会产生陷入从而在虚拟机管理器(virtual machine monitor,VMM)中无法对其进行监控处理的问题,提出通过改变非陷入指令正常运行条件,使其执行非法产生系统异常陷入VMM的思想;据此就x86架构下Guest OS中3种非陷入系统调用指令在VMM中的截获与识别进行研究:其中基于int和sysenter指令的系统调用通过使其产生通用保护(general protection,GP)错系统异常而陷入,基于syscall指令的系统调用则通过使其产生UD(undefined)未定义指令系统异常而陷入,之后VMM依据虚拟处理器上下文现场信息对其进行识别;基于QemuKvm实现的原型系统表明:上述方法能成功截获并识别出Guest OS中所有3种系统调用行为,正常情况下其性能开销也在可接受的范围之内,如在unixbench的shell测试用例中,其性能开销比在1.900~2.608之间.与现有方法相比,它们都是以体系结构自身规范为基础,因此具有无需修改Guest OS、跨平台透明的优势. 相似文献
6.
运动估计是视频编码过程中最为复杂和耗时的阶段。为分析和优化其性能,从多个流行的开源视频编码器中提取出单独的运动估计算法模块,根据视频分辨率和视频内容的不同建立程序输入集,从而构成一套完整的测试程序集合。利用性能分析工具对算法性能和微体系结构性能进行量化分析,给出这些算法在当今主流处理器体系结构上的性能差异。实验结果表明,复杂视频和高分辨率视频下的运动估计算法耗时最长,且大部分算法的指令级并行性没有太大差异。算法最后一级高速缓存的缺失率和分支误预测率都较低,分别在0.01%和7%以下。 相似文献
7.
网络视频会议以及高清视频点播等应用的广泛流行,对视频编解码的编码质量以及编码速度提出了更高的要求。为帮助硬件设计人员设计更强大的专用处理器去适应视频编解码应用的发展趋势,并评估处理器设计的合理性和正确性,对视频编解码进行分析和测试,提出一套基准测试程序。采用自顶向下的分析方法,以流行性、编解码效率、压缩质量和开源性为标准,选取主流的视频编解码软件,进行热点函数分析。抽取变换、量化以及滤波过程中的热点函数,使之成为视频编解码测试程序,为其构造典型输入集。通过分析真实硬件平台上这些测试程序的计算和访存特性,给出处理器设计的建议。结果证明,该基准测试程序使用10%的代码量即可反映视频编解码过程的主要特征,对处理器设计具有指导意义。 相似文献
8.
系统芯片中低功耗测试的几种方法 总被引:3,自引:0,他引:3
在系统芯片可测试性设计中考虑功耗优化问题是当前国际上新出现的研究领域。在可测试性设计中考虑功耗的主要原因是数字电路在测试方式下的功耗比系统在正常工作方式下高很多。测试期间的功耗会引发系统成本上升,可靠性降低,成品率下降。本文介绍低功耗测试技术中的一些基本概念,对已有的几种主要的降低测试功耗方法进行分析,最后给出一种高性能微处理器的真速低功耗自测试方法。 相似文献
9.
10.
存储器是Linux系统的一个主要的资源,它必须被小心管理。很明显,每个程序员都喜欢有无限大的存储空间,但不幸的是,这是不可能的。所以很早计算机体系结构就实现了一个存储层次,用一个很小但非常快的昂贵的cache,几十或上百兆的中等速度中等价格的RAM, 相似文献