首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 218 毫秒
1.
ARM Compute Library是一类针对ARM Cortex-A系列CPU处理器和ARM Mali系列GPU特定优化的软件算法函数库,内部实现了卷积滤波器、卷积神经网络等算法,并且使用Cortex-A CPU NEON、Mali GPU的SIMD技术加速算法运行.RISC-V指令集作为一种开源的指令集,目前发布...  相似文献   

2.
张坤宁  赵烁  何虎  邓宁  杨旭 《计算机工程》2021,47(4):153-157
为提高卷积神经网络(CNN)的计算效率和能效,以8 bit定点数据作为输入,设计一个支持激活、批标准化以及池化等CNN网络中常见计算类型的卷积加速器,优化循环计算顺序并将其与数据复用技术相结合,以提高卷积计算的效率。基于软硬件协同设计思想,构建包含RISC-V处理器和卷积加速器的SoC系统,RISC-V处理器基于开源的指令集标准,可以根据具体的设计需求扩展指令功能。将该SoC系统部署在Xilinx ZCU102开发板上,RISC-V处理器和卷积加速器分别工作在100 MHz和300 MHz频率下,测试结果表明,该加速器的算力达到153.6 GOP/s,运行VGG16网络进行图片推理计算时加速效果较好。  相似文献   

3.
张桢  梁军  贾海鹏  张云泉  李青 《计算机工程》2023,(4):159-165+173
RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗时的算法进行指令加速和并行优化。在深入研究RISC-V开源架构的基础上,构建一个基于RISC-V开源架构的高性能FFmpeg算法库。针对不连续访存类算法、数据依赖类算法、数据快速转换类算法,从向量单元配置、向量化访存、汇编优化、指令流水优化4个方面出发,大幅提升FFmpeg算法库在RISC-V处理器上的性能。实验结果表明,采用以上优化策略后的FFmpeg算法库在基于RISC-V架构的XT-910芯片上的性能得到明显提升,其中的不连续访存类算法、数据依赖类算法、数据快速转换类算法的加速比分别为8.20、3.67、3.62。  相似文献   

4.
RISC-V作为精简指令集的代表,也会反映一些精简指令集的弊端,程序体积偏大就是其中之一.在精简指令集(RISC)中,实现一些复杂操作所需要的指令条数普遍会多于复杂指令集(CISC),进而导致最后生成的二进制程序体积相较CISC程序更大.并且嵌入式设备的RAM和ROM普遍较小,因此在嵌入式场景中,程序的体积变得尤为重要.为了在现有压缩指令集的基础上尽可能的优化RISC-V程序代码体积, RISC-V指令集子扩展Zce制定了一系列指令.其中以LWGP为代表的一系列指令被用来减少加载/存储字节数据时的指令条数.本文分析了以LWGP为代表的指令对于代码体积的优化原理并且将之实现在LLD链接器上,通过分析使用LWGP等指令前后程序体积的变化评估对于二进制程序体积优化的效率并且提出后续改进建议.  相似文献   

5.
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理SqueezeNet网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。  相似文献   

6.
RISC-V是基于精简指令集原理建立的免费开放指令集架构, 具有完全开源、架构简单、易于移植、模块化设计等特点. 随着网络高速发展, 安全风险无处不在, 利用RISC-V的可扩展特性是一种非常有效地提升RISC-V设备安全的方式. 因此, 本文针对RISC-V自定义指令的安全能力, 结合可信计算、流密码技术, 设计了简单高效的RISC-V自定义指令, 实现基于可信基的数据安全存储功能, 并依托GNU编译工具链实现对自定义指令的编译支持, 在模拟器上测试应用程序对自定义指令的调用执行. 该指令充分结合可信计算与流密码的安全特性, 可实现较强的安全性.  相似文献   

7.
嵌入式RISC-V处理器交叉开发生成高质量目标代码的关键是GCC的移植与优化.分析GCC的基本结构和RISC-V体系结构的数据与指令特点,建立GCC后端移植机制,采用机器描述方法,生成32位riscv-none-embed-gcc编译器,实现RISC-V处理器的GCC移植,设计强度削弱的窥孔优化方法解决中间代码生成过程中CPU计算代价高的问题.验证与测试结果表明编译器编译正确并具有通用功能,优化后编译生成的目标代码体积减少约11%,提高了目标代码质量,节省了嵌入式处微理器的存储空间.  相似文献   

8.
Rocket是基于RISC-V指令集架构的开源处理器,其实现了RISC-V的三条自定义指令custom0、custom1、custom2,在分析Rocket中自定义指令的处理过程后,编写测试程序,验证了自定义指令的实现.  相似文献   

9.
卷积神经网络(convolutional neural network,CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域专用加速器能够有效处理稀疏网络,它们通过算法和结构的紧耦合实现高能效,却丧失了结构的灵活性.粗粒度数据流架构通过灵活的指令调度可以实现不同的神经网络应用.基于该架构,密集卷积规则的计算特性使不同通道共享相同的一套指令执行,然而稀疏网络中存在权值稀疏,使得这些指令中存在0值相关的无效指令,而现有的指令执行方式无法自动跳过它们从而产生无效计算.同时在执行不规则的稀疏网络时,现有的指令映射方法造成了计算阵列的负载不均衡.这些问题阻碍了稀疏网络性能的提升.基于不同通道共享一套指令的前提下,根据稀疏网络的数据和指令特征增加指令控制单元实现权值数据中0值相关指令的检测和跳过,同时使用负载均衡的指令映射算法解决稀疏网络中指令执行不均衡问题.实验表明:与密集网络相比稀疏网络实现了平均1.55倍的性能提升和63.77%的能耗减少.同时比GPU(cuSparse)和Cambricon-X实现的稀疏网络分别快2.39倍(Alexnet)、2.28倍(VGG16)和 1.14倍(Alexnet)、1.23倍(VGG16).  相似文献   

10.
服务器管理控制器是云计算装备关键部件之一, 目前主要基于ARM架构开发, ARM较高的授权费推高了控制器设计成本, 不利于SoC相关产品的迭代和升级. RISC-V是近年提出的一种开源的处理器架构, 与ARM同属精简指令集, 具有模块化、可扩展等诸多特点. 本文采用RISC-V开源处理器BOOM核心, 设计实现了一种基于RISC-V处理器的服务器管理控制器FPGA原型系统. 该系统基于Xilinx的Virtex Ultra Scale 440 FPGA进行了原型构建, 完成了实际应用场景下的功能测试和CoreMark测试, 结果显示处理器性能提升了26%, 优于同级别的ARM核心, 系统功能符合设计预期. 此外, 该原型系统基于OpenBMC实现了IPMI等专用管理控制协议, 基本功能验证通过, 证明了通过RISC-V替换ARM优化SoC架构的可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号