首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
开发粗粒度可重构阵列之上的映射工具是把应用算法正确有效地映射到可重构硬件上,并使算法在可重构硬件上正确高效运行的关键之所在。因此,我们设计并实现了映射工具。本文介绍了映射工具的设计和实现过程,并给出了实现中的关键技术--布局。最后,本文还就几个测试程序给出了映射工具的映射结果。测试结果证明,布局算法的结
结果正确且优化,映射工具的设计合理,功能无误。  相似文献   

2.
面向多媒体的并行加速系统中可重构网络结构设计   总被引:1,自引:0,他引:1  
本文讨论了面向多媒体数据处理的并行加速系统硬件平台的设计,采用数字信号处理芯片作为基本的工作单元,提出了一种基于mesh阵列的可重构网络结构设计及其控制方法,并对其性能进行了定性分析。  相似文献   

3.
针对卷积神经网络(CNN)中卷积核的多样性导致加速器难以实现高效计算的问题,提出了一种可重构卷积神经网络加速器实现方法.加速器包括18个处理引擎(PE),每个PE包含9个乘累加单元,3个PE构建一个5×5卷积核实现卷积核重构,调度器通过控制每层所需的卷积核大小和通道数分配PE实现卷积处理.加速器支持常见的3×3,5×5...  相似文献   

4.
可重构计算中硬件任务布局产生的碎片是影响任务成功布局和系统资源利用率的关键因素之一.本文提出一种针对布局碎片的量化方法QFTD,核心是先将碎片进行三维抽象,再对其三维量化得到待布局任务的碎片量化值.仿真结果表明,将该方法运用于布局器可明显降低任务拒绝率和提高硬件资源利用率.  相似文献   

5.
为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。  相似文献   

6.
在可重构计算领域,布局硬件任务所产生的碎片是影响系统资源利用率和任务拒绝率的关键因素之一.本文提出了一种对布局碎片进行量化的方法QFOAC,该方法将每个已占用的可重构计算单元对总碎片量化值的贡献求和,得到可重构芯片布局碎片量化值.QFOAC方法对碎片的抽象准确直观,且运算时间复杂度为常数.实验表明,将QFOAC碎片量化方法应用于布局器,可显著提高芯片利用率,降低任务拒绝率,且基本不增加系统开销,适用于动态重构和实时系统.  相似文献   

7.
巩杰  赵烁  何虎  邓宁 《计算机工程》2022,48(3):170-174+196
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。  相似文献   

8.
基于FPGA的量化推理设计了CNN加速系统;通过对主流的深度神经网络结构的运算特性分析,使用(Density-Based Spatial Clustering of Applications with Noise) DBSCAN聚类算法截取阈值的INT8量化推理方法,融合深度神经网络全连接,减少数据运算位宽和压缩网络大小,在准确率损失很小的情况下有效压缩了网络结构;基于LeNet-5、VGG-16与ResNet-50的CNN网络结构,设计出量化CNN加速系统并进行校验;实验结果表明,网络参数和输入特征数据量化精度为8-bits时,网络压缩率在25%的情况下,网络准确率的损失低于1%;在Xilinx XC7K325平台上量化推理CNN加速系统的运行频率为450 MHz,与其他相似类型的加速器比较,其GOPS性能提升2倍。  相似文献   

9.
随着可穿戴设备的发展与普及,基于可穿戴传感数据进行人体行为检测展现了巨大的研究价值.目前大多人类行为识别工作都是基于视频图像展开的,然而,使用计算机视觉技术进行人类行为识别存在2个挑战:一是很难使参与数据采集的人员在自然状态下采集真实状态下的运动数据,在开展数据采集之前往往需要对参与数据采集的人员进行培训并严格规范其采...  相似文献   

10.
为满足卷积神经网络业务处理的灵活性和高性能需求,提出一种基于软件定义的可重构卷积神经网络架构.该架构采用归一化处理流程实现卷积层网络的动态重构与运算模式的加速.采用AHB和AXI的双总线架构,实现卷积神经网络的流水计算.通过软件定义在FPGA上实现了不同网络结构下的数据集实时处理.实验结果表明,所设计的FPGA电路能够...  相似文献   

11.
针对卷积神经网络(CNN)推理计算所需内存空间和资源过大,限制了其在嵌入式等"边缘"设备上部署的问题,提出结合网络权重裁剪及面向嵌入式硬件平台数据类型的数据量化的神经网络压缩方法。首先,根据卷积神经网络各层权重的分布,采用阈值法对网络精确率影响较小的权重进行裁剪,保留网络中重要连接的同时除去冗余信息;其次,针对嵌入式平台的计算特性分析网络中权重及激活函数所需的数据位宽,采用动态定点量化方法减小权重数据的位宽;最后,对网络进行微调,在保障网络模型识别精度的前提下进一步压缩模型大小并降低计算消耗。实验结果表明,该方法降低了VGG-19网络95.4%的存储空间而精确率仅降低0.3个百分点,几乎实现无损压缩;同时,通过多个网络模型的验证,该方法在平均1.46个百分点精确率变化范围内,最大降低网络模型96.12%的存储空间,能够有效地压缩卷积神经网络。  相似文献   

12.
随着大数据的发展及加密场景的增多,仅以软件运行的加密方式难以满足加密性能的需求;而使用Verilog/VHDL方式实现的FPGA/ASIC加密系统又存在灵活性较差、维护升级困难等问题。针对上述问题,设计并实现了一种基于异构可重构计算的AES算法加密系统,包含了AES算法ECB、CBC、CTR三种主流模式,每种模式实现了128 bit、192 bit、256 bit三种密钥大小的加密。基于FPGA对模块分别进行了硬件加速,同时基于硬件可重构机制实现了不同模式及不同位宽加密模块的动态切换。通过在Intel Stratix 10上实现并验证该系统,实验结果表明:系统中AES-ECB、AES-CTR、AES-CBC吞吐率分别达到116.43 Gbps、60.34 Gbps、4.32 Gbps,ECB模式相比于Intel Xeon E5-2650 V2 CPU和Nvidia GeForce GTX 1080 GPU分别获得了23.18倍与1.43倍的加速比,整体系统相比纯软件方式的计算加速比达到4.72。  相似文献   

13.
疲劳驾驶检测具有重要的警示作用,对检测方法的准确性和实时性均有较高要求。为此,提出了一种基于卷积神经网络的疲劳驾驶检测方法。首先,针对车内特定使用环境,对MTCNN算法进行了加速优化,在保证高准确率的同时检测速度提升高达27倍。其次,在实现人脸特征点精确定位基础上,提出了一种基于稀少特征点快速准确提取目标区域图像的ERFP(extracting images based on rare feature points)方法。再次,利用构建的眼、嘴数据集EMSD(eye and mouth state date sets)完成了眼、嘴部状态分类模型的训练。最终,利用训练得到的模型,结合相应的判定算法,实现了疲劳驾驶的检测判定。实验结果表明,该方法在实车环境下对瞌睡和哈欠行为的判定准确率均达到了96%以上,且每秒可完成约50帧图像的检测,具备良好的实时性。  相似文献   

14.
卷积神经网络具有参数大、运算量大的特点,当将其具体应用在移动端设备时,需要在满足帧率(速度)的前提下,尽量减少功耗与芯片面积.考虑满足现有移动端网络的兼容性、性能和面积等因素,设计一个基于3D可扩展PE阵列的CNN加速器.该加速器兼容3×3卷积、3×3深度可分离卷积、1×1卷积和全连接层,其PE阵列能根据具体应用的网络...  相似文献   

15.
为充分利用心音的全局信息,提出不依赖于分割的心音自动分类方法。对目前的心音分类方法进行总结,分析单阶段和两阶段方法的优势与不足,提出以深度学习提取更好的全局特征作为提升分类效果的新方向。使用精调的卷积神经网络和循环神经网络分别提取心音的频域和时域特征,辅以数据增强的方法进行训练。该方法在测试集的平均分类准确率达到了85.7%,达到了目前单阶段心音分类方法中的最好效果。  相似文献   

16.
受分形编码思想启发,提出了一种新的基于向量量化的图像超分辨率方法。该方法使用学习算法来获取单幅输入图像中的高频信息和低频信息之间的对应关系,并利用此关系对输入图像的一个倍频程的空间频率内添加图像细节以获得高分辨率图像。该方法克服了传统插值方法中因过度平滑导致图像模糊和纹理保持较差的缺点,能够重现出传统插值方法不能复原出的一些高频图像细节。实验结果显示该算法在客观和主观上都比传统插值方法有更好的评价。  相似文献   

17.
This article presents the design of a grid array antenna with pattern reconfigurable ability. Discussion of various factors that affect the radiation pattern is presented. Interdigital structure, which serves as short radiation line of grid array antenna is then introduced to reconfigure radiation pattern. Change of main beam direction is realized via state change of PIN diodes loaded in interdigital structure and variation of feed point. The scanning angle varies from ?33° to +38° and the average gain is about 10 dBi. The proposed antenna was fabricated and measured. Measured results show the proposed antenna possesses good beam‐scanning characteristics and has potential value in long‐distance power supply for various passive nodes.  相似文献   

18.
可重构数据流SPJ查询处理器的研究   总被引:1,自引:1,他引:0  
数据流的实时处理需要很高的处理速度,一种解决方法是使用协处理器。然而协处理器硬布线是不变的,查询不断变化使其一定时间内综合性能达不到最优。为提高数据流处理速度和资源利用率,采用了可重构的数据流SPJ查询处理器,在具备选择、投影和连接三种查询模块及相应指令集的基础上,根据输入查询的查询树调用相应的模块自适应对FPGA编程,改变自身的硬布线,实现数据流的处理。通过大量实验验证了处理器不仅正确,而且具备高速度和灵活性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号