排序方式: 共有44条查询结果,搜索用时 15 毫秒
1.
在高性能计算领域,数据流是一类重要的计算结构,也在很多实际场景表现出很好的性能和适用性。在数据流计算模式中,程序是以数据流图来表示的,数据流计算中一个关键的问题是如何将数据流图映射到多个执行单元上。通过分析现有数据流结构的指令映射方法及其不足,提出了基于数据流结构的新型指令映射优化方法。主要是根据多地址共享数据包的特性对指令映射方法进行优化,延迟多地址共享数据路由包的拆分,减少网络拥堵。 相似文献
2.
针对虚拟化环境下Guest OS某些特定指令行为不会产生陷入从而在虚拟机管理器(virtual machine monitor,VMM)中无法对其进行监控处理的问题,提出通过改变非陷入指令正常运行条件,使其执行非法产生系统异常陷入VMM的思想;据此就x86架构下Guest OS中3种非陷入系统调用指令在VMM中的截获与识别进行研究:其中基于int和sysenter指令的系统调用通过使其产生通用保护(general protection,GP)错系统异常而陷入,基于syscall指令的系统调用则通过使其产生UD(undefined)未定义指令系统异常而陷入,之后VMM依据虚拟处理器上下文现场信息对其进行识别;基于QemuKvm实现的原型系统表明:上述方法能成功截获并识别出Guest OS中所有3种系统调用行为,正常情况下其性能开销也在可接受的范围之内,如在unixbench的shell测试用例中,其性能开销比在1.900~2.608之间.与现有方法相比,它们都是以体系结构自身规范为基础,因此具有无需修改Guest OS、跨平台透明的优势. 相似文献
3.
卷积神经网络(convolutional neural network,CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域专用加速器能够有效处理稀疏网络,它们通过算法和结构的紧耦合实现高能效,却丧失了结构的灵活性.粗粒度数据流架构通过灵活的指令调度可以实现不同的神经网络应用.基于该架构,密集卷积规则的计算特性使不同通道共享相同的一套指令执行,然而稀疏网络中存在权值稀疏,使得这些指令中存在0值相关的无效指令,而现有的指令执行方式无法自动跳过它们从而产生无效计算.同时在执行不规则的稀疏网络时,现有的指令映射方法造成了计算阵列的负载不均衡.这些问题阻碍了稀疏网络性能的提升.基于不同通道共享一套指令的前提下,根据稀疏网络的数据和指令特征增加指令控制单元实现权值数据中0值相关指令的检测和跳过,同时使用负载均衡的指令映射算法解决稀疏网络中指令执行不均衡问题.实验表明:与密集网络相比稀疏网络实现了平均1.55倍的性能提升和63.77%的能耗减少.同时比GPU(cuSparse)和Cambricon-X实现的稀疏网络分别快2.39倍(Alexnet)、2.28倍(VGG16)和 1.14倍(Alexnet)、1.23倍(VGG16). 相似文献
4.
网络视频会议以及高清视频点播等应用的广泛流行,对视频编解码的编码质量以及编码速度提出了更高的要求。为帮助硬件设计人员设计更强大的专用处理器去适应视频编解码应用的发展趋势,并评估处理器设计的合理性和正确性,对视频编解码进行分析和测试,提出一套基准测试程序。采用自顶向下的分析方法,以流行性、编解码效率、压缩质量和开源性为标准,选取主流的视频编解码软件,进行热点函数分析。抽取变换、量化以及滤波过程中的热点函数,使之成为视频编解码测试程序,为其构造典型输入集。通过分析真实硬件平台上这些测试程序的计算和访存特性,给出处理器设计的建议。结果证明,该基准测试程序使用10%的代码量即可反映视频编解码过程的主要特征,对处理器设计具有指导意义。 相似文献
5.
运动估计是视频编码过程中最为复杂和耗时的阶段。为分析和优化其性能,从多个流行的开源视频编码器中提取出单独的运动估计算法模块,根据视频分辨率和视频内容的不同建立程序输入集,从而构成一套完整的测试程序集合。利用性能分析工具对算法性能和微体系结构性能进行量化分析,给出这些算法在当今主流处理器体系结构上的性能差异。实验结果表明,复杂视频和高分辨率视频下的运动估计算法耗时最长,且大部分算法的指令级并行性没有太大差异。算法最后一级高速缓存的缺失率和分支误预测率都较低,分别在0.01%和7%以下。 相似文献
6.
介绍了对处理器中JTAG调试通信接口的软件模拟方法。JTAG接口负责连接主机端与目标处理器,其由tdi、tms、tck和tdo构成,其中tck是tap控制器的时钟控制信号,比处理器的主频小几个数量级;Tms是tap状态机控制信号,tdi和tdo分别是串行数据输入和输出信号。主机端的这种时钟信号是脉冲性的,不具有周期性,给模拟主机端同目标处理器的通信带来困难。利用当前主流操作系统中的多任务环境,给主机和目标处理器分配不同的进程,结合共享内存机制和进程间通信机制有效地实现了对JTAG调试接口信号的软件模拟。这种方法目前已经用在了GodsonX处理器的JTAG调试系统中。 相似文献
7.
系统芯片中低功耗测试的几种方法 总被引:3,自引:0,他引:3
在系统芯片可测试性设计中考虑功耗优化问题是当前国际上新出现的研究领域。在可测试性设计中考虑功耗的主要原因是数字电路在测试方式下的功耗比系统在正常工作方式下高很多。测试期间的功耗会引发系统成本上升,可靠性降低,成品率下降。本文介绍低功耗测试技术中的一些基本概念,对已有的几种主要的降低测试功耗方法进行分析,最后给出一种高性能微处理器的真速低功耗自测试方法。 相似文献
8.
以龙芯1号处理器为研究对象,探讨了基于JTAG的处理器在片调试功能的验证方法.根据在片调试的结构特征建立了功能覆盖率模型,并以访存模式为基准分步建立虚拟验证原型.整个验证将定向功能测试和指令集随机测试有机地结合起来,迅速定位了设计中多个难以发现的错误.最终验证的功能覆盖率达到100%,FPGA原型经长时间运行无误. 相似文献
9.
10.
存储器是Linux系统的一个主要的资源,它必须被小心管理。很明显,每个程序员都喜欢有无限大的存储空间,但不幸的是,这是不可能的。所以很早计算机体系结构就实现了一个存储层次,用一个很小但非常快的昂贵的cache,几十或上百兆的中等速度中等价格的RAM, 相似文献