期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴进张伟华席萌代巍《计算机工程与应用》2020,56(22):48-54

计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列（Field Programmable Gate Array,FPGA）平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络（Convolutional Neural Network,CNN）的实现效率不高,未能满足性能要求等问题。针对以上设计瓶颈,使用经典的LeNet-5神经网络模型,在Xilinx ZC706嵌入式开发平台上设计了一个高性能的人脸识别神经网络加速器,在高层次综合（High Level Synthesis,HLS）工具的基础上通过存储优化、定点量化、运算优化等方法对神经网络模型进行优化改进,实现了7层的CNN加速器。实验结果表明,CNN加速器的工作频率为200 MHz,相较于CPU,加速器实现了126倍加速,相较于GPU速度提升10倍以上,并且功耗仅为2.62 W。相似文献

2.

基于FPGA的卷积神经网络并行加速器设计

王婷陈斌岳张福海《电子技术应用》2021,47(2):81-84

近年来,卷积神经网络在许多领域中发挥着越来越重要的作用,然而功耗和速度是限制其应用的主要因素.为了克服其限制因素,设计一种基于FPGA平台的卷积神经网络并行加速器,以Ultra96-V2为实验开发平台,而且卷积神经网络计算IP核的设计实现采用了高级设计综合工具,使用Vivado开发工具完成了基于FPGA的卷积神经网络加... 相似文献

3.

卷积神经网络数字识别系统的FPGA实现

下载免费PDF全文

孙敬成王正彦李增刚《计算机工程与应用》2020,56(13):181-188

数字识别所依靠的经典网络模型主要为BP神经网络和卷积神经网络。相比较，卷积神经网络的识别效果更好，更适合处理图像识别问题。目前，卷积神经网络多为软件实现，而硬件有着并行性与速度快的优点。因此，意图以硬件描述语言（Verilog）实现卷积神经网络，在保证在高识别率的情况下，充分挖掘硬件实现的优点。通过研究网络的工作原理及结构，构造完整电路模型，给出了现场可编程门阵列（Field-Programmable Gate Array，FPGA）的实现方案。卷积神经网络通过反向传播训练MNIST数据库中60?000幅数字样本图片，提取准确率最高的权重与偏置，再进行网络的前向传播，完成数字识别。完整过程借助ModelSim和Quartus II仿真工具实现。仿真结果表明，全部样本在100?MHz时钟下训练耗时50?ms，相较软件实现而言，速度明显提高，满足硬件设计的实时性，且准确率较高，可达95.4%。该研究为应用于嵌入式设备的图像识别提供了方法和策略，具有实际应用价值。相似文献

4.

视盘与黄斑同时定位检测的FPGA方法研究

下载免费PDF全文

张卫周骅刘宇红张荣芬《计算机工程与应用》2022,58(11):193-199

在眼底图像自动分析中,视盘与黄斑的定位是实现利用计算机辅助诊断或筛查糖尿病视网膜病变的先决条件。提出一种实现眼底图像中视盘与黄斑同时定位检测的新方法,使用YOLOv4-tiny算法定位检测,将该算法移植到现场可编程逻辑门阵列（field programmable gate array,FPGA）。与传统方法相比,该方法不仅可以快速准确地同时定位眼底图像中视盘和黄斑的位置,而且也是利用高层综合（high level synthesis,HLS）语言和时分复用技术实现38层中型神经网络的首次尝试。实验采用公认的COCO数据集和Kaggle-Diabetic Retinopathy Detection竞赛中的381幅眼底图像对算法进行训练,将训练后的算法移植到FPGA平台后视盘和黄斑定位的平均正确率（mean average precision,mAP）为96.11%,检测一张图片只需要150.445?ms,在相关领域具有良好的临床应用前景。相似文献

5.

基于Vivado HLS的Down Scaler视频系统设计

安航《单片机与嵌入式系统应用》2016,(11):21-23

介绍一种基于FPGA的Down Scaler视频系统设计.系统的核心部件采用Xilinx Kintex-7的板载XC7K325T芯片,系统设计使用Vivado工具,包括使用Vivado HLS进行Down Scaler模块设计.首先按照Vivado HLS的代码规范进行Down Scaler模块的C/C++代码编写,然后利用编译工具生成RTL级代码和综合结果Down Scaler IP核,最后将Down Scaler IP核与TPG、VDMA等Xilinx视频IP核互连,构建实时视频系统.在满足实时性要求和FPGA资源消耗要求的条件下,该设计实现了对Down Scaler视频算法从PC端软件处理方式向FPGA平台硬件处理方式的移植. 相似文献

6.

卷积神经网络的FPGA并行加速方案设计

方睿刘加贺薛志辉杨广文《计算机工程与应用》2015,51(8):32-36

根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网络训练过程的前向传播阶段,在网络结构和数据集相同的情况下,对GPU,FPGA,CPU进行了在计算效率和能耗之间的比较。其中在计算效率方面,50 MHz频率的FPGA就可以相较于GPU实现近5倍的加速,相较于12核的CPU实现8倍的加速。而在功耗方面,该FPGA的实现方案只有GPU版本的26.7%。相似文献

7.

基于FPGA的手写数字BP神经网络研究与设计

下载免费PDF全文

李增刚王正彦孙敬成《计算机工程与应用》2020,56(17):251-257

手写数字逆向传播（Back Propagation,BP）神经网络由输入层、隐藏层、输出层构成。训练数据是MNIST开源手写数字集里60?000个样本,BP算法由随机梯度下降算法和反向传播算法构成,采用network小批量数据迭代30次的网络学习过程,训练出合适的权重和偏置。利用现场可编程门阵列（Field Programmable Gate Array,FPGA）硬件平台,Verilog代码实现BP算法、时序控制各层网络训练状态、Sigmoid（S型）函数及导数线性拟合是设计重点。初始化均值为0,方差为1的高斯分布网络权重和偏置,采用小批量数据个数[m]为10,学习系数[η]为3,在系统中输入样本及标签利用Quartus13.0和modelsim仿真与分析,工程运行迭代30次时间是4.5 s,样本识别正确率是91.6%,与软件python2.7相比满足了硬件设计的实时性和手写数字识别的高准确率。相似文献

8.

基于FPGA的UART IP核设计与实现 总被引：2，自引：1，他引：1

何慧珠秦丽张会新《微计算机信息》2008,24(2):223-224

本文设计了一种基于FPGA的UART核,该核符合串行通信协议,具有模块化、兼容性和可配置性,适合于SoC应用.设计中使用Verilog HDL硬件描述语言在Xilinx ISE环境下进行设计、仿真,最后在FPGA上嵌入UART IP核实现了电路的异步串行通信功能. 相似文献

9.

嵌入式图形处理器裁剪引擎的设计

田兵吴宁谭显强《计算机与数字工程》2011,39(10):161-165

以计算机图形学为基础,文章设计了一种具有较好通用性的嵌入式图形处理器裁剪引擎。重点剖析了裁剪算法和裁剪引擎RTL级模型的设计,该模型采用Verilog HDL实现引擎的IP软核,并在QuartusⅡ环境中完成IP核的功能仿真与时序验证。综合后,IP核占用FPGA资源为9489逻辑单元,实现了对图形进行裁剪的任务,达到了预期的设计要求。相似文献

10.

基于ZCU102 DSP的CNN卷积运算加速方法

苗鑫周欢欢陆栋洵《自动化技术与应用》2022,(12):64-67

本文提出设计了一种在ZCU102平台上加速卷积神经网络（CNN）卷积运算的方法,使用1个DSP IP实现卷积操作中1个int8类型或者unit8类型输入特征图像数据和2个int8类型卷积核参数的乘法运算。卷积运算是卷积神经网络的基本操作,提高卷积运算并行度可使卷积运算速率提升一倍。8-bit卷积神经网络量化技术是设计实现的基础,减少了处理器（PS）数据传输带宽需求。ZCU102 MPSoC的可编程逻辑（PL）资源较少,充分利用DSP IP资源可降低逻辑资源需求,提升逻辑资源利用率,增加SoC系统设计灵活性。相似文献

11.

卷积神经网络SIP微系统实现

下载免费PDF全文

吕浩张盛兵王佳刘硕景德胜《计算机工程与应用》2021,57(5):216-221

近年来,微电子技术进入到纳电子/集成微系统时代,SIP(System in Package)和SOC(System on Chip)是微系统实现的两种重要技术途径;基于神经网络的深度学习技术在图形图像、计算机视觉和目标识别等方面得以广泛应用.卷积神经网络的深度学习技术在嵌入式平台的小型化、微型化是一项重要研究领域.如何... 相似文献

12.

可进化芯片的FPGA接口设计与实现

下载免费PDF全文

段欣陈利光王健来金梅鲍丽春《计算机工程》2011,37(13):13-16

针对FPGA IP核在可进化可编程系统芯片(SoPC)中嵌入时存在FPGA IP核端口时序控制和位流下载的问题,实现一种适用于可进化SoPC芯片的FPGA接口。该FPGA接口使用异步FIFO、双口RAM的结构和可扩展的读/写命令传输方式来实现FPGA IP核与系统的异步通信。嵌入式CPU可以通过FPGA接口实现FPGA IP核的片内位流配置。FPGA接口中的硬件随机数发生器实现进化算法的硬件加速。使用自动验证平台与FPGA原型验证平台对FPGA接口进行验证来实现验证的收敛。测试结果表明,FPGA接口成功实现了嵌入式CPU与FPGA IP核的通信,完成芯片内的进化。相似文献

13.

基于FPGA的AFDX虚拟链路层实现方法

刘晓胜刘建平刘博《计算机工程》2012,38(19):233-237

航空电子全双工交换式以太网(AFDX)为航空电子设备之间的数据交换提供电气和协议标准.在研究AFDX虚拟链路层协议的基础上,提出一种基于现场可编程门阵列(FPGA)的AFDX虚拟链路层软件设计框架,给出基于FPGA的AFDX虚拟链路层发送模块和接收模块的设计与软件实现,应用结果表明,该设计框架可促进AFDX端系统的研发. 相似文献

14.

基于卷积-LSTM网络的广告点击率预测模型研究 总被引：1，自引：0，他引：1

下载免费PDF全文

厍向阳王邵鹏《计算机工程与应用》2019,55(2):193-197

点击率预测是计算广告学的核心算法之一。传统浅层模型没有充分考虑到数据之间存在的非线性关系，且使用人工特征提取方法费时费力。针对这些问题，提出了基于卷积（Convolutional Neural Networks）-LSTM（Long Short Term Memory）混合神经网络的广告点击率预测模型。该模型使用卷积神经网络提取高影响力特征，并通过LSTM神经网络的时序性进行预测分类。实验结果证明：与浅层模型或单一结构的神经网络模型相比，基于卷积-LSTM的混合神经网络模型能有效提高广告点击事件的预测准确率。相似文献

15.

一种基于比特流文件的鲁棒芯核水印算法

下载免费PDF全文

呼彦吉张大方梁伟龙静《计算机工程与应用》2015,51(17):88-91

数字芯核可复用技术是缩短芯片设计周期和降低芯片设计成本的关键,然而这种技术在芯核知识产权保护的实际应用中往往容易受到非法攻击者的攻击威胁,提出一种基于比特流文件的鲁棒芯核水印算法,该算法主要通过随机序列来确定水印信息嵌入空闲LUT的位置,利用比特流文件中LUT的信息表来分散的隐藏不同的水印信息;当水印信息需要进行提取时,可以利用FPGA中可重构的特点,将水印信息依次从FPGA的LUT位置中重构提取出来。从Virtex XCV600-6bg432平台上的验证结果表明,在保证整个芯核水印电路逻辑功能不受影响的前提下,该方法相比其他的方法具有鲁棒性较强以及（资源）开销较低等优点。相似文献

16.

基于注意力机制的CNN-LSTM模型及其应用

下载免费PDF全文

李梅宁德军郭佳程《计算机工程与应用》2019,55(13):20-27

时序数据存在时序性，并且其短序列的特征存在重要程度差异性。针对时序数据特征，提出一种基于注意力机制的卷积神经网络（CNN）联合长短期记忆网络（LSTM）的神经网络预测模型，融合粗细粒度特征实现准确的时间序列预测。该模型由两部分构成：基于注意力机制的CNN，在标准CNN网络上增加注意力分支，以抽取重要细粒度特征；后端为LSTM，由细粒度特征抽取潜藏时序规律的粗粒度特征。在真实的热电联产供热数据上的实验表明，该模型比差分整合移动平均自回归、支持向量回归、CNN以及LSTM模型的预测效果更好，对比目前企业将预定量作为预测量的方法，预测缩放误差平均值（MASE）与均方根误差（RMSE）指标分别提升了89.64%和61.73%。相似文献