期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

熊海泉刘志勇徐卫志唐士斌范东睿《计算机研究与发展》2014,51(10)

针对虚拟化环境下Guest OS某些特定指令行为不会产生陷入从而在虚拟机管理器(virtual machine monitor,VMM)中无法对其进行监控处理的问题,提出通过改变非陷入指令正常运行条件,使其执行非法产生系统异常陷入VMM的思想;据此就x86架构下Guest OS中3种非陷入系统调用指令在VMM中的截获与识别进行研究:其中基于int和sysenter指令的系统调用通过使其产生通用保护(general protection,GP)错系统异常而陷入,基于syscall指令的系统调用则通过使其产生UD(undefined)未定义指令系统异常而陷入,之后VMM依据虚拟处理器上下文现场信息对其进行识别;基于QemuKvm实现的原型系统表明:上述方法能成功截获并识别出Guest OS中所有3种系统调用行为,正常情况下其性能开销也在可接受的范围之内,如在unixbench的shell测试用例中,其性能开销比在1.900~2.608之间.与现有方法相比,它们都是以体系结构自身规范为基础,因此具有无需修改Guest OS、跨平台透明的优势. 相似文献

2.

基于蒙特卡洛方法的触发器聚类布局算法

王昊刘臻王剑章隆兵《高技术通讯》2017,27(1)

针对触发器聚类的布局问题,提出了一种基于蒙特卡洛方法的触发器聚类布局算法。该方法的核心思想为设计合理的评分函数,并通过蒙特卡洛方法模拟触发器聚类在版图上的随机游走过程,获取样本,再通过评分函数评价样本质量,逐步地在可行域中搜索最优解。实验结果表明,相较于现有的方法,该方法在总线长与时序性能两方面,分别得到平均约9%与17%的改善与提升。此外,该方法具有较强的健壮性,适用于复杂度较高或者版图利用率较高的设计,并能够快速收敛,以较小的时间代价完成优化。相似文献

3.

一种同步输出的稀疏树前导零检测电路

刘臻王剑王昊《高技术通讯》2017,27(1)

为了降低前导零检测电路的延时和提高端口输出的同步性,提出了一种稀疏树前导零检测结构及动态电路的实现方法。通过递归前导零算法表达式定义了两种新的布尔运算逻辑,以构成稀疏树中的结点。精确控制动态电路中预充时钟的偏移量,在抑制电路漏电的同时控制输出端口延时差。该结构能够以最少的逻辑级数和均衡的运算单元负载实现检测前导零功能,对于不同数量的待测信号,通过扩展"点操作"和"块操作"单元互连网络来生成新电路。采用伪随机激励向量验证了电路功能的正确性,大幅缩短了验证时间,在SMIC 40nm工艺下仿真显示,各端口输出延时差小于1ps,数据路径长度可降低20%。相似文献

4.

后量子加密算法的硬件实现综述

下载免费PDF全文

曹元陆旭吴彦泽谢浩东乔云凯姚恩义陈帅叶靖《信息安全学报》2021,6(6):1-16

现有的密码体制大多基于RSA、ECC等公钥密码体制,在信息安全系统中实现密钥交换、数字签名和身份认证等,有其独特的优势,其安全性分别依赖于解决整数分解问题和离散对数问题的难度。近年来,随着量子计算机的快速发展,破解上述数学问题的时间大幅减少,这将严重损害数字通信的安全性、保密性和完整性。与此同时,一个新的密码学领域,即后量子密码学应运而生,基于它的加密算法可以对抗量子计算机的攻击,因此成为近年来的热点研究方向。2016年以来,NIST向世界各地的研究者征集候选抗量子密码学方案,并对全部方案进行安全性、成本和性能的评估,最终通过评估的候选方案将被标准化。本文比较了NIST后量子密码学算法征集(第2轮、第3轮)的各个方案,概述目前后量子加密算法的主要实现方法:基于哈希、基于编码、基于格和基于多变量,分析了各自的安全性,签名参数及计算量的特点以及后期的优化方向。PQC算法在硬件实现上的挑战其一是算法规范的数学复杂性,这些规范通常是由密码学家编写的,关注的重点是其安全性而非实现的效率,其二需要存储大型公钥、私钥和内部状态,这可能会导致不能实现真正的轻量级,从而降低硬件实现的效率。本文重点介绍了目前后量子加密算法的硬件实现方式,包括PQC硬件应用程序编程接口的开发,基于HLS的抽象实现和基于FPGA/ASIC平台的硬件实现。PQC方案的硬件化过程中不仅需要算法的高效实现,同时需要抵抗针对硬件结构的侧信道攻击。侧信道攻击可以通过来自目标设备泄露的相关信息来提取密码设备的密钥。本文讨论了后量子加密算法在具体实现和应用中受到侧信道攻击类别和防御对策。相似文献

5.

编译器中激进蝴蝶优化方法的研究与实现

朱广林吕方赖庆宽陈华英何先波《计算机工程与科学》2021,43(6):962-968

编译优化技术的目的是挖掘程序中的优化空间,提高程序编译或运行效率,无效代码删除优化是被广泛使用的编译优化技术之一,它旨在删除程序中不可达的代码,以提升程序的执行效率。许多应用程序的执行路径往往与运行时的输入参数值相关,并且在一些分支路径上与运行时参数值相结合,可能存在无效代码,通过现有的无效代码删除优化,很难做出优化处理。为此,提出一种依赖数据流分析的激进蝴蝶优化方法,利用SSA中间表示,根据动态运行时的参数可能值,自动为程序生成代码形状类似蝴蝶（butterfly）的分支代码,使编译器在程序编译阶段为相关优化提供可行的优化依据。最后通过实验验证了该方法的有效性和可行性。相似文献

6.

面向理想性能空间的跨架构编译分析方法

赖庆宽吕方贺春林何先波冯晓兵《计算机研究与发展》2021,58(3):668-680

编译器性能是计算机系统架构充分发挥优势的体现,编译器优化受机器平台与编译器特征的影响.编译器分析是在目标编译器与多参照编译器、目标平台与多参照平台之间进行的,即编译器与平台的组合是分析的基础.只有在多组合情况下才能为目标编译器优化提供最大可能的性能提升空间和详细的优化方案,但增加编译器与平台的组合往往会增加无法计量的分析工作量.为此,提出了一种基于峰值架构的面向跨平台跨编译器分析方法.基于峰值架构集为目标编译器构建理想性能空间,结合细粒度优势优化定位技术为目标编译器提供优势优化选项和优化方向,并实现编译器优化.最后通过实验验证了该分析技术的实用性与普适性,并为Intel平台上的目标编译器gcc提供了优化方向. 相似文献

7.

基于粗粒度数据流架构的稀疏卷积神经网络加速

吴欣欣欧焱李文明王达张浩范东睿《计算机研究与发展》2021,58(7):1504-1517

卷积神经网络(convolutional neural network,CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域专用加速器能够有效处理稀疏网络,它们通过算法和结构的紧耦合实现高能效,却丧失了结构的灵活性.粗粒度数据流架构通过灵活的指令调度可以实现不同的神经网络应用.基于该架构,密集卷积规则的计算特性使不同通道共享相同的一套指令执行,然而稀疏网络中存在权值稀疏,使得这些指令中存在0值相关的无效指令,而现有的指令执行方式无法自动跳过它们从而产生无效计算.同时在执行不规则的稀疏网络时,现有的指令映射方法造成了计算阵列的负载不均衡.这些问题阻碍了稀疏网络性能的提升.基于不同通道共享一套指令的前提下,根据稀疏网络的数据和指令特征增加指令控制单元实现权值数据中0值相关指令的检测和跳过,同时使用负载均衡的指令映射算法解决稀疏网络中指令执行不均衡问题.实验表明:与密集网络相比稀疏网络实现了平均1.55倍的性能提升和63.77％的能耗减少.同时比GPU(cuSparse)和Cambricon-X实现的稀疏网络分别快2.39倍(Alexnet)、2.28倍(VGG16)和 1.14倍(Alexnet)、1.23倍(VGG16). 相似文献

8.

基于改进细胞链表算法的分子动力学模拟性能优化模型

金明灿胡长军李建江苗庆松《计算机科学》2013,40(2):12-15

在改进的细胞链表算法中,细胞大小的减少会降低该算法的通信量和粒子之间距离计算的次数,同时会增加部居细胞的数量。多细胞分子动力学算法是分子动力学模拟中普遍使用的并行算法。将改进细胞链表算法的基本思想应用到多细胞分子动力学算法中,推导出了一个分子动力学模拟性能评价模型,并据此提出一个优化模型来加速分子动力学模拟。实验结果表明,根据该优化模型确定的细胞大小可以提高分子动力学模拟程序的性能。相似文献

9.

一种监测函数语义信息访存地址序列的方法

陈荔城崔泽汉包云岗陈明宇沈林峰梁祺《计算机研究与发展》2013,50(5)

准确地获取应用程序在真实系统上运行的访存地址序列(traces)是进行内存系统调度及结构优化的基础.HMTT是自主研发的软硬件结合的内存监测分析系统,能够实时获取完整的全系统访存traces.但是得到的traces与应用程序上层事件之间存在语义鸿沟问题,比如上层函数执行流与访存traces的同步问题.针对该问题提出了一种软硬件结合获取包含函数级别语义信息访存traces的方法,软件方面通过二进制插桩的方式,直接修改内存中的进程映像,在目标函数的入口及出口各插入标记tag访存指令,进而能够被HMTT卡监测并识别.采用二进制插桩不需要程序的源代码,不需要对程序重新编译链接,而且引入的运行开销很小.实验表明采用软硬件结合的方式能够有效地获取包含函数级别语义信息的访存traces,对于SPECCPU2006中的访存密集型程序引入的性能开销只是原程序的62％,而使用Pin工具的纯软件方式获取访存traces将导致至少10.4倍的性能开销. 相似文献

10.

众核处理器和众核集群的并行模拟

吕慧伟程元白露陈明宇范东睿孙凝晖《计算机研究与发展》2013,50(5)

模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境. 相似文献