期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

乔瑞秀陈刚龚国良鲁华祥《西安电子科技大学学报(自然科学版)》2019,46(3):130-139

由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应对不同通道规模。设计了3种卷积计算映射,可以应对不同卷积核大小;实现了局部存储区数据的高效复用,可大量减少数据搬移,提高了计算性能。分别以目标分类和目标检测网络进行测试,该加速器的计算性能分别达498.6×10 ⁹次/秒和571.3×10 ⁹次/秒;能效分别为582.0×10 ⁹次/(秒·瓦)和651.7×10 ⁹次/(秒·瓦)。相似文献

2.

应用卷积神经网络的遥感图像云层自主检测

吴云华张泽中华冰陈志明《哈尔滨工业大学学报》2020,52(12):27-34

为实现遥感卫星对遥感图像的自主云层判别能力,提升目标自主识别的效率,避免云层覆盖面积较大的遥感图像丢失关键的目标信息而给后续算法处理带来不必要的计算资源浪费,提出一种基于卷积神经网络的云层自主检测方法,实现遥感图像云层的自主检测,达到了较高的检测精度.首先,根据遥感图像的特性建立卷积神经网络.然后,使用大量人工标识的遥感图像完成云层检测网络训练,使其达到预期检测精度.最后,在卫星在轨运行阶段,将所拍摄的遥感图像根据尺寸划分为若干个子图,并通过训练完成的卷积神经网络对子图是否被云层覆盖进行分类预测.综合所有子图的预测结果给出整幅遥感图像的云层覆盖占比.结果表明:以Landsat卫星遥感图像为测试对象,该方法可以实现有云层覆盖检测正确率为95.3%,无云层覆盖检测精度为97.8%,误判率为2.58%,漏判率为0.90%,综合精度为97.9%;由于使用了卷积神经网络和并行计算技术,该方法基本满足实时性需求,提高了算法的自主性与鲁棒性,为基于遥感图像的在轨实时应用奠定了基础. 相似文献

3.

基于单一神经网络的实时人脸检测

熊寒颖鲁统伟闵峰蒋冲宇《武汉工程大学学报》2019,(5)

由于人脸尺度多样性使得人脸检测算法在CPU上运行速度受限,提出了一种新的基于单一神经网络的实时人脸检测算法。首先在网络初始卷积层和池化层中设置较大的卷积核尺寸和步长,缩小输入图像尺寸利于实时检测;然后网络将浅层特征图和深层特征图相融合,增强上下文联系和减少重复检测;最后在多个卷积层上预测人脸位置,利用预测框重叠策略,实现多尺度的人脸检测来提升图像中小尺寸人脸的检测精度。在人脸检测数据集基准和野外标注人脸数据集上测试实验结果表明,本文算法模型精度能够达到92.1%和95.4%。与此同时,本文算法在CPU上实现21帧/s的检测速度。相似文献

4.

基于深度卷积神经网络的羽绒图像识别

杨文柱刘晴王思乐崔振超张宁雨《郑州大学学报(工学版)》2018,(2)

由于图像中羽绒形态及其多样性,传统的图像识别方法难以正确识别羽绒分拣图像中的羽绒类型,其识别精度也难以达到实际生产的要求.为解决上述问题,构造了一种用于羽绒类型识别的深度卷积神经网络,并对其权值初始化方法进行了改进.首先利用视觉显著性模型提取羽绒图像的显著部分,然后将图像的显著部分输入到稀疏自动编码器中进行训练,得到一组符合数据集统计特性的卷积核集合.最后采用Inception及其变种模块实现深度卷积神经网络的构造,通过增加网络深度来提高网络的识别精度.试验结果表明,用所构造的深度卷积神经网络对羽绒图像识别的精度较传统卷积神经网络的提高了2.7%,且改进的权值初始化方法使网络的收敛速度提高了25.5%. 相似文献

5.

基于多视图并行的可配置卷积神经网络加速器设计

应三丛彭铃《四川大学学报(工程科学版)》2022,54(2):188-195

针对商用CPU的专用许可证授权费用高和卷积神经网络性能提升等问题,提出了一种基于多视图并行且具有可配置性的卷积神经网络加速器设计,同时结合RISC-V构建该加速器的片上系统。首先,扩展一组适用高速协加速器的控制访问接口和数据访问接口。其次,卷积神经网络各运算单元以多视图并行与结构复用实现。视图并行的不同组合将影响卷积单元硬件电路结构,因此多视图并行可通过复用基本运算结构来完成。池化单元由行池化和列池化子单元构成,且共享行池化的运算结构。对于全连接单元,采用调整全连接运算参数的方法来适应卷积单元的硬件结构,从而完成模型间的复用。然后,针对不同运算单元的硬件结构设计不同寄存器组,并结合开源RISC-V处理实现多种网络模型。最后,将卷积神经网络各运算单元分别部署在不同平台,计算运算时间、吞吐量和速度等。实验结果表明,提出方法的卷积加速比是CPU的189倍, VGG16的卷积运算吞吐量可达178GOP/s。因此,利用多视图并行能够达到加速效果,且以配置寄存器方式可实现不同网络模型。相似文献

6.

基于FPGA的人体行为识别系统的设计

吴宇航何军《南京信息工程大学学报》2022,14(3):331-340

为实现边缘端人体行为识别需满足低功耗、低延时的目标,本文设计了一种以卷积神经网络(CNN)为基础、基于可穿戴传感器的快速识别系统.首先通过传感器采集数据,制作人体行为识别数据集,在PC端预训练基于CNN的行为识别模型,在测试集达到93.61%的准确率.然后,通过数据定点化、卷积核复用、并行处理数据和流水线等方法实现硬件加速.最后在FPGA上部署识别模型,并将采集到的传感器数据输入到系统中,实现边缘端的人体行为识别.整个系统基于Ultra96-V2进行软硬件联合开发,实验结果表明,输入时钟为200 M的情况下,系统在FPGA上运行准确率达到91.80%的同时,识别速度高于CPU,功耗仅为CPU的1/10,能耗比相对于GPU提升了91%,达到了低功耗、低延时的设计要求. 相似文献

7.

基于公共空间视频的人脸情绪识别

王露唐韬卿粼波周文俊熊文诗滕奇志《安徽工业大学学报》2019,36(1)

针对公共空间中人脸情绪识别准确率不高的问题,提出一种结合不同感受野和双流卷积神经网络的人脸情绪识别方法。首先建立基于公共空间视频的人脸表情数据集;然后设计一个双流卷积网络,以尺寸为224×224的单帧人脸图像输入卷积神经网络(convolution neural network,CNN),分析图像纹理静态特征;以尺寸为336×336视频序列输入CNN网络,再将提取的特征送入长短期记忆网络(long short term memory network,LSTM)分析局部、全局运动特征;最后通过Softmax分类器将两通道网络的描述子进行加权融合,得到分类结果。结果表明,本文方法能有效利用不同感受野的信息特征清晰识别公共空间的4种典型人脸情绪,识别准确率达88.89%。相似文献

8.

基于卷积神经网络的高铁车轮损伤识别方法研究

《中国矿业大学学报》2020,(4)

对列车运行过程中的实测振动响应数据进行分析,设计卷积神经网络结构,基于不同标签数据开展网络训练,进行损伤特征提取,实现长期、快速的高铁车轮损伤识别.由于卷积神经网络的黑箱特性,较难理解其损伤识别机理,借助梯度上升方法对卷积神经网络的卷积核进行可视化,通过互功率谱密度对卷积核的响应进行分析寻求特征提取的物理解释.最终将识别结果与深度神经网络、循环神经网络结果对比,卷积神经网络识别精度较高,损伤识别平均正确率达99.40%,精度提高幅度约6%.且卷积神经网络训练参数量较少,在高铁车轮损伤识别方面具有轻型高效的特点. 相似文献

9.

基于卷积神经网络的纺织面料主成分分类

《浙江理工大学学报》2019,(1)

为自动检测纺织面料的主成分,以100～200倍放大后拍摄的纯纺面料或主成分含量在50%以上的混纺面料图像为研究对象,提出了一种基于深度卷积神经网络的纺织面料主成分分类方法。首先对纺织图像进行裁剪及颜色空间转换;然后将图像输入卷积神经网络进行织物面料主成分分类训练;最后将待分类的纺织面料图像输入训练后的卷积神经网络中,得出纺织面料主成分分类结果。对棉、涤纶、腈纶、羊毛、天丝5类共4497张图像进行实验,实验结果显示:该方法对5类织物面料主成分分类准确率为96.53%;与其他卷积神经网络模型相比大幅降低了训练时间,减小了网络规模,提高了分类准确率。相似文献

10.

基于Transformer的多模态级联文档布局分析网络

温绍杰吴瑞刚冯超文刘英莉《浙江大学学报(工学版)》2024,(2):317-324+369

针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力.直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量.实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%.相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优. 相似文献

11.

基于GRU神经网络的燃煤电站NO_x排放预测模型

王文广赵文杰《华北电力大学学报(自然科学版)》2020,47(1):96-103

针对工业过程动力学建模中,输入变量特征集确定困难的问题,提出了一种基于数据驱动的门控循环单元(GRU)神经网络模型。该模型可以通过学习自动提取输入数据与输出数据间的时空特征,简化人工智能模型的输入变量个数,减少了输入的冗余信息,降低了建模过程的难度,并具有较好的精确度和泛化能力。通过使用某燃煤机组实际运行数据中与氮氧化物(NO_x)排放相关的数据作为模型输入,建立了基于GRU神经网络的燃煤锅炉NO_x排放预测模型。并分别与传统循环神经网络(RNN)和长短期记忆(LSTM)神经网络模型比较,验证了GRU神经网络模型在工业过程动力学建模中的优良性能。相似文献

12.

ASIC Design and Implementation for Digital Pulse Compression Chip 总被引：1，自引：0，他引：1

高俊峰韩月秋王巍《北京理工大学学报(英文版)》2004,13(1):1-4

A novel ASIC design of changeable-point digital pulse compression (DPC) chip is presented. System hardware resource is reduced to one third of the traditional design method through operations sharing hardware, i.e. let FFT, complex multiplication and IFFT be fulfilled with the same hardware structure. Block-floating-point scaling is used to enhance the dynamic range and computation accuracy. This design applies parallel pipeline structure and the radix-4 butterfly operation to improve the processing speed. In addition, a triple-memory-space (TMS) configuration is used that allows input, computation and output operations to be overlapped, so that the dual-butterfly unit is never left in an idle state waiting for I/O operation. The whole design is implemented with only one chip of XC2V500-5 FPGA. It can implement 1 024-point DPC within 91.6μs. The output data is converted to floating-point formation to achieve seamless interface with TMS320C6701. The validity of the design is verified by simulation and measurement results. 相似文献

13.

Design and Optimization of Winograd Convolution on Array Accelerator

Ji Lai Lixin Yang Dejian Li Chongfei Shen Xi Feng Jizeng Wei Yu Liu 《北京理工大学学报(英文版)》2023,32(1):69-81

With the rapid development and popularization of artificial intelligence technology, convolutional neural network(CNN) is applied in many fields, and begins to replace most traditional algorithms and gradually deploys to terminal devices. However, the huge data movement and computational complexity of CNN bring huge power consumption and performance challenges to the hardware, which hinders the application of CNN in embedded devices such as smartphones and smart cars. This paper implements a convolutional neural network accelerator based on Winograd convolution algorithm on field-programmable gate array (FPGA). Firstly, a convolution kernel decomposition method for Winograd convolution is proposed. The convolution kernel larger than 3×3 is divided into multiple 3×3 convolution kernels for convolution operation, and the unsynchronized long convolution operation is processed. Then, we design Winograd convolution array and use configurable multiplier to flexibly realize multiplication for data with different accuracy. Experimental results on VGG16 and AlexNet network show that our accelerator has the most energy efficient and 101 times that of the CPU, 5.8 times that of the GPU. At the same time, it has higher energy efficiency than other convolutional neural network accelerators. 相似文献

14.

150W PT功率变换器的输入匹配网络设计

刘元超张卫平张晓强张瑞《北方工业大学学报》2014,26(3):23-27

根据压电变压器(PT)的电气特性以及工作原理,本文提出了通过设计合理的PT输入匹配网络实现PT功率变换器窄带控制的新颖设计方法.本文的主要贡献是:1)分析输入匹配网络的功能,提出设计方法,并给出了计算网络参数的方法;2)Pspice仿真结果表明系统性能满足设计要求;3)制作了带有输入匹配网络的变换器原理样机,实物样机测试结果表明变换器能够实现窄带控制以及零电压开启,输出功率为150W,PT的效率约为90%. 相似文献

15.

CUDA架构下的快速Wallis影像增强算法

肖汉吴庆双冯娜《沈阳工业大学学报》2011,33(3):293-298

针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器（GPU）上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间. 相似文献

16.

基于Gabor滤波器组与BP神经网络的帘子布疵点检测研究与实现

张五一杨扬林聪温盛军《郑州纺织工学院学报》2014,(3):1-6

采用Gabor滤波器组对帘子布疵点图像纹理进行滤波,对滤波后的模值图像使用最大熵阈值分割,提取疵点轮廓的长、宽、长宽比、面积等特征值。将上述特征值归一化后分为两类：一类作为训练样本输入BP神经网络,对网络进行训练学习,网络计算结果收敛后结束训练;另一类作为测试样本对训练好的网络进行疵点识别。实验证明,该方法可以快速地检测疵点,利用训练的BP神经网络实现疵点分类,识别率达94%。相似文献

17.

Heterogeneous parallel computing accelerated iterative subpixel digital image correlation

HUANG JianWen ZHANG LingQi JIANG ZhenYu DONG ShouBin CHEN Wei LIU YiPing LIU ZeJia ZHOU LiCheng TANG LiQun 《中国科学:技术科学(英文版)》2018,(1)

Parallel computing techniques have been introduced into digital image correlation(DIC) in recent years and leads to a surge in computation speed. The graphics processing unit(GPU)-based parallel computing demonstrated a surprising effect on accelerating the iterative subpixel DIC, compared with CPU-based parallel computing. In this paper, the performances of the two kinds of parallel computing techniques are compared for the previously proposed path-independent DIC method, in which the initial guess for the inverse compositional Gauss-Newton(IC-GN) algorithm at each point of interest(POI) is estimated through the fast Fourier transform-based cross-correlation(FFT-CC) algorithm. Based on the performance evaluation, a heterogeneous parallel computing(HPC) model is proposed with hybrid mode of parallelisms in order to combine the computing power of GPU and multicore CPU. A scheme of trial computation test is developed to optimize the configuration of the HPC model on a specific computer. The proposed HPC model shows excellent performance on a middle-end desktop computer for real-time subpixel DIC with high resolution of more than 10000 POIs per frame. 相似文献

18.

基于神经优化的最大熵图像重建算法 总被引：6，自引：0，他引：6

龙永新王洪玉《浙江大学学报(工学版)》1999,33(5):531-534

提出了一种基于Ｈｏｐｆｉｅｌｄ神经网络优化的图像重建算法。将图像重建问题转化为ＨＮＮ优化问题,取重建图像熵函数最大以及原始投影与再投影之间的误差平方和最小作为图像重建的优化目标,作为能量函数构造连续型ＨＮＮ模型,由ＨＮＮ能量函数极小化可得到重建问题的优化解。相似文献

19.

High performance multiply-accumulator for the convolutional neural networks accelerator

KONG Xin CHEN Gang GONG Guoliang LU Huaxiang Mao Wenyu 《西安电子科技大学学报(自然科学版)》1996,47(4):55-63

The multiply-accumulator (MAC) in existing convolutional neural network(CNN) accelerators generally have some problems, such as a large area, a high power consumption and a long critical path. Aiming at these problems, this paper presents a high-performance MAC based on transmission gates for CNN accelerators. This paper proposes a new data accumulation and compression structure suitable for the MAC, which reduces the hardware overhead. Moreover, we propose a new parallel adder architecture. Compared with the Brent Kung adder, the proposed adder reduces the number of gate delay stages and improves the calculation speed without causing an increase in hardware resources. In addition, we use the advantages of the transmission gate to optimize each unit circuit of the MAC. The 16-by-8 fixed-point high performance MAC based on the methods presented in this paper has a critical path delay of 1.173ns, a layout area of 9049.41μm2, and an average power consumption of 4.153mW at 800MHz under the SMIC 130nm tt corner. Compared with the traditional MAC, the speed is increased by 37.42%, the area is reduced by 47.84%, and the power consumption is reduced by56.77% under the same conditions. 相似文献