期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘卫明罗全成毛伊敏彭喆《计算机应用研究》2023,40(10):2957-2966

针对并行DCNN算法在大数据环境下存在冗余参数过多、收敛速度慢、容易陷入局部最优和并行效率低的问题,提出了基于Spark和AMPSO的并行深度卷积神经网络优化算法PDCNN-SAMPSO。首先,该算法设计了基于卷积核重要性和相似度的卷积核剪枝策略(KP-IS),通过剪枝模型中冗余的卷积核,解决了冗余参数过多的问题;接着,提出了基于自适应变异粒子群优化算法的模型并行训练策略(MPT-AMPSO),通过使用自适应变异的粒子群优化算法(AMPSO)初始化模型参数,解决了并行DCNN算法收敛速度慢和容易陷入局部最优的问题;最后,提出了基于节点性能的动态负载均衡策略(DLBNP),通过均衡集群中各节点负载,解决了集群并行效率低的问题。实验表明,当选取8个计算节点处理CompCars数据集时,PDCNN-SAMPSO较Dis-CNN、DS-DCNN、CLR-Distributed-CNN、RS-DCNN的运行时间分别降低了22%、30%、37%和27%,加速比分别高出了1.707、1.424、1.859、0.922,top-1准确率分别高出了4.01%、4.89%、2.42%、5.94%,表明PD... 相似文献

2.

基于Im2col的并行深度卷积神经网络优化算法

胡健龚克毛伊敏陈志刚陈亮《计算机应用研究》2022,39(10)

针对大数据环境下并行深度卷积神经网络（DCNN）算法中存在数据冗余特征多、卷积层运算速度慢、损失函数收敛性差等问题,提出了一种基于Im2col方法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先,提出基于Marr-Hildreth算子的并行特征提取策略MHO-PFES,提取数据中的目标特征作为卷积神经网络的输入,有效避免了数据冗余特征多的问题;其次,设计基于Im2col方法的并行模型训练策略IM-PMTS,通过设计马氏距离中心值去除冗余卷积核,并结合MapReduce和Im2col方法并行训练模型,提高了卷积层运算速度;最后提出改进的小批量梯度下降策略IM-BGDS,排除异常节点的训练数据对批梯度的影响,解决了损失函数收敛性差的问题。实验结果表明,IA-PDCNNOA算法在大数据环境下进行深度卷积神经网络计算具有较好的性能表现,适用于大规模数据集的并行化深度卷积神经网络模型训练。相似文献

3.

一种基于分布式编码的卷积优化算法

苑晨宇谢在鹏朱晓瑞屈志昊徐媛媛《计算机科学》2021,48(2):47-54

卷积在统计学、信号处理、图像处理、深度学习等领域有着广泛的应用,且起到了至关重要的作用。在深度神经网络中,使用卷积运算对输入信息进行特征提取的方法是实现神经网络的基础计算单元之一。如何优化卷积的运算速度,提高卷积计算效率一直是亟需探讨的问题。近年来,很多研究指出分布式计算架构可以提高卷积神经网络的计算速度,进而优化深度学习的训练效率,然而由于分布式系统中普遍存在落跑者问题(straggler),该问题可能会拖慢整个系统执行任务的时间,因此该问题也成为了分布式深度学习中一个待解决的问题。文中针对二维卷积计算,结合Winograd算法和分布式编码,提出了一种优化的分布式二维卷积算法。Winograd算法能够有效地加速单次二维卷积计算的速度,分布式编码通过使用一种基于分布式冗余的编码方式能够缓解straggler节点对整个分布式系统计算延迟的影响。因此,提出的分布式二维卷积算法可以在加速二维卷积计算的同时有效缓解分布式系统中的straggler问题,有效提高了分布式卷积的计算效率。相似文献

4.

基于大数据的并行化深度卷积神经网络优化算法

毛伊敏张瑞朋曹文梁《计算机应用研究》2021,38(5):1416-1421

针对并行DCNN算法在大数据环境下网络冗余参数过多、收敛速度慢和并行效率低的问题,提出了一种并行化深度卷积神经网络优化算法——PDCNNO(parallel deep convolutional neural networks optimization algorithm)。首先,该算法设计了基于特征图的剪枝策略(PFM),预训练网络,获得压缩后的网络,有效减少了冗余参数,降低了DCNN训练时间和空间复杂度;其次,设计了修正正割线的共轭梯度法(CGMSE),获取局部分类结果,实现了共轭梯度法的快速收敛,提高了网络的收敛速度;最后,在reduce阶段提出了控制负载率的负载均衡策略(LBRLA),获取全局分类结果,实现了数据的快速均匀分组,从而提高了并行系统的加速比。实验表明,该算法不仅降低了DCNN在大数据环境下训练的时间和空间复杂度,而且提高了并行系统的并行化性能。相似文献

5.

大数据下基于特征图的深度卷积神经网络

下载免费PDF全文

毛伊敏张瑞朋高波《计算机工程与应用》2022,58(15):110-116

针对大数据环境下DCNN(deep convolutional neural network)算法中存在网络冗余参数过多、参数寻优能力不佳和并行效率低的问题,提出了大数据环境下基于特征图和并行计算熵的深度卷积神经网络算法MR-FPDCNN(deep convolutional neural network algorithm based on feature graph and parallel computing entropy using MapReduce)。该算法设计了基于泰勒损失的特征图剪枝策略FMPTL(feature map pruning based on Taylor loss),预训练网络,获得压缩后的DCNN,有效减少了冗余参数,降低了DCNN训练的计算代价。提出了基于信息共享搜索策略ISS(information sharing strategy)的萤火虫优化算法IFAS(improved firefly algorithm based on ISS),根据“IFAS”算法初始化DCNN参数,实现DCNN的并行化训练,提高网络的寻优能力。在Reduce阶段提出了... 相似文献

6.

Winograd快速卷积相关研究综述

童敢黄立波《计算机科学与探索》2022,16(5):959-971

卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用.卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分.近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法.其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选.但目前相关工... 相似文献

7.

基于Winograd稀疏算法的卷积神经网络加速器设计与研究

徐睿马胜郭阳黄友李艺煌《计算机工程与科学》2019,41(9):1557-1566

随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。相似文献

8.

面向嵌入式的卷积神经网络硬件加速器设计

下载免费PDF全文

唐蕊焦继业徐华昊《计算机工程与应用》2021,57(4):252-257

近年来,随着神经网络模型越来越复杂,针对卷积神经网络推理计算所需内存空间过大,限制其在嵌入式设备上部署的问题,提出一种动态多精度定点数据量化硬件结构,使用定点数代替训练后推理过程中的浮点数执行卷积运算.结果表明,采用16位动态定点量化和并行卷积运算硬件架构,与静态量化策略相比,数据准确率高达97.96％,硬件单元的面积... 相似文献

9.

基于FPGA的卷积神经网络加速器

《计算机工程》2017,(1)

现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。相似文献

10.

基于深度卷积神经网络的面部表情识别研究

倪春晓《信息与电脑》2023,(11):208-210

本研究为了解决传统面部表情识别模型准确率较低的问题，基于深度卷积神经网络（Deep Convolutional Neural Network,DCNN）提出一种新的改进神经网络模型，与传统模型相对比，本模型将其核心的卷积层替换成了深度可分离卷积层，同时搭配卷积残差块的使用，使网络能够有效减少参数的情况下，能够提取多尺度上的特征信息，从而有效地保留了细节特征。最后通过仿真对比，证明本研究提出的DCNN网络具有突出的性能特点，适合用于面部表情识别任务。相似文献

11.

基于Spark和NRSCA策略的并行深度森林算法

毛伊敏刘绍芬《计算机应用研究》2024,41(1):126-133

针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。相似文献

12.

基于二维Winograd算法的深流水线5×5卷积方法

黄程程董霄霄李钊《计算机应用》2021,41(8):2258-2264

针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络（CNN）预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。相似文献

13.

面向GPU计算平台的神经网络卷积性能优化

李茂文曲国远魏大洲贾海鹏《计算机研究与发展》2022,(6):1181-1191

图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络. 相似文献

14.

基于双通道卷积神经网络的航班延误预测模型 总被引：1，自引：0，他引：1

吴仁彪李佳怡屈景怡《计算机应用》2018,38(7):2100-2106

针对航班延误预测数据量大、特征提取困难而传统算法处理能力有限的问题,提出一种基于双通道卷积神经网络（DCNN）的航班延误预测模型。首先,该模型将航班数据和气象数据进行融合,应用DCNN进行自动特征提取,采用批归一化（BN）和Padding策略优化,提升到港延误等级的分类预测性能;然后,在卷积神经网络（CNN）基础上加入直通通道,以保证特征矩阵的无损传输,增强深度网络的畅通性;同时引入卷积衰减因子对卷积通道的特征矩阵进行稀疏性限制,控制不同网络深度的特征叠加比例,维持模型的稳定性。实验结果表明,所提模型与传统模型相比,具有更强的数据处理能力。通过数据融合,航班延误预测准确率可提高1个百分点;加深网络深度后,该模型能保证梯度的稳定,从而训练更深的网络,使准确率提升至92.1%。该基于DCNN算法的模型特征提取充分,预测性能优于对比模型,可更好地服务于民航决策。相似文献

15.

基于互信息和融合加权的并行深度森林算法

毛伊敏李文豪《计算机应用研究》2024,41(2)

针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法（parallel deep forest algorithm based on mutual information and mixed weighting,PDF-MIMW）。首先,在特征降维阶段提出了基于互信息的特征提取策略（feature extraction strategy based on mutual information,FE-MI）,结合特征重要性、交互性和冗余性度量过滤原始特征,剔除过多的不相关和冗余特征;接着,在多粒度扫描阶段提出了基于填充的改进多粒度扫描策略（improved multi-granularity scanning strategy based on padding,IMGS-P）,对精简后的特征进行填充并对窗口扫描后的子序列进行随机采样,保证多粒度扫描的平衡;其次,在级联森林构建阶段提出了并行子森林构建策略（sub-forest construction strategy based on mixed weighting,SFC-MW）,结合Spark框架并行构建加权子森林,提升模型的分类性能;最后,在类向量合并阶段提出基于混合粒子群算法的负载均衡策略（load balancing strategy based on hybrid particle swarm optimization algorithm,LB-HPSO）,优化Spark框架中任务节点的负载分配,降低类向量合并时的等待时长,提高模型的并行化效率。实验表明,PDF-MIMW算法的分类效果更佳,同时在大数据环境下的训练效率更高。相似文献

16.

颗粒复合材料代表体元并行建模算法研究

赵玖玲田先斌《计算机仿真》2010,27(1):46-49

为了利用细观力学方法研究复合固体推进剂材料的力学性能,需要建立具有代表性的推进剂细观胞元模型,针对当前算法普遍存在的计算效率低下问题,依据分子动力学思想生成颗粒堆积模型的性能特性,通过分析负载均衡和消息通信,提出了并行模型的三个准则,设计了区域分解的并行策略,并利用共享存储并行和分布式存储并行两级并行手段实现了并行算法。最后在IBMBladeCenter集群平台上通过实例证明算法可以缓解负载均衡并缩减通信开销,上述试验数据验证了算法的高效性,达到了提高胞元生成效率的目的。相似文献

17.

MCC-SIMD数据并行卷积计算方法的研究 总被引：1，自引：0，他引：1

张发存赵晓红王虑沈绪榜《计算机工程》2004,30(9):34-36

主要研究卷积计算的数据并行方法在MCC-SIMD计算机的设计和实现问题。在参考国内外现有资料的基础上，从图论的角度用卷积路径的方法对卷积计算的有关概念进行了严格的形式化定义；分析了4-连接卷积路径下数据并行卷积计算时处理元阵列的移动规律；在此基础上给出了数据并行卷积计算算法；最后对算法的计算复杂性和通信复杂性进行了简要分析。文中还对有关结论进行了证明。相似文献

18.

基于FPGA的通用卷积神经网络识别系统研究

赵凡白雪杨涛赵不贿徐雷钧《自动化仪表》2022,(1):42-47+54

针对目前在中央处理器(CPU)中部署卷积神经网络速度慢、在图形处理器(GPU)中功耗高等问题,采用基于现场可编程门阵列(FPGA)平台开发的卷积神经网络识别系统,对卷积神经网络的各个环节进行算法加速。考虑到算法的计算量和逻辑资源的消耗主要集中在卷积层,提出了在特征图的通道方向进行双卷积并行模块设计。在卷积神经网络的池化层和激活函数Softmax中,设计了流式池化,并提出改进的分段查表计算Softmax函数的方法。另外,在归一化和预处理阶段也分别进行了优化。卷积神经网络识别系统选用XILINX公司的ZCU104开发平台。该平台内部包含片上系统与可编程逻辑控制器。通过自制水果数据集,分别在ZCU104、CPU和GPU上进行试验。试验结果显示,ZCU104分类的准确率达到了95.8%,识别速度约为计算机端上CPU实现同种网络模型的3倍,并且高于GPU。此外,该系统通用性高、资源占用率低,可应用在其他神经网络模型中。相似文献

19.

一种高效的稀疏卷积神经网络加速器的设计与实现

下载免费PDF全文

余成宇李志远毛文宇鲁华祥《智能系统学报》2020,15(2):323-333

针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。相似文献

20.

基于FPGA的卷积神经网络硬件加速器设计

黄沛昱赵强李煜龙《计算机应用与软件》2023,(3):38-44

为了提高中小规模设备卷积神经网络的推理速度，提出一种基于FPGA的卷积神经网络硬件加速器设计方案。针对模型中的卷积运算单元，该硬件加速器采用输入、输出二维循环展开和循环分块的方法，设计128个并行乘法器单元。模型的输入输出接口采用双缓存设计，通过乒乓操作，降低数据传输带来的时间延迟。同时，采用16位定点量化模型中权重参数，偏置参数和输入输出特征图的像素值。实验结果表明，与通用CPU酷睿i5-4440处理器相比，在COCO数据集上准确率几乎不变的情况下，计算性能提高5.77倍。在系统时钟频率为150 MHz时，硬件加速器的计算性能达到28.88 GOPS。相似文献