首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.  相似文献   

2.
黄程程  董霄霄  李钊 《计算机应用》2021,41(8):2258-2264
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络(CNN)预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。  相似文献   

3.
针对并行深度卷积神经网络算法在大数据环境下存在冗余特征计算过多、卷积运算性能不足和参数并行化合并效率低等问题,提出了基于Winograd卷积的并行深度卷积神经网络优化算法。首先,该算法提出基于余弦相似度与归一化互信息的特征过滤策略,通过先筛选后融合的方式消除了通道间对于冗余特征的计算,以此解决了冗余特征计算过多的问题;然后,结合MapReduce提出了并行Winograd卷积策略,通过使用并行化Winograd卷积运算替换传统卷积运算的方式来提升卷积运算的性能,以此解决了卷积运算性能不足的问题;最后,提出基于任务迁移的负载均衡策略,通过动态负载迁移的方式来均衡集群中各节点之间的负载,降低了集群总体的平均反应时长,以此解决了参数并行化合并效率低的问题。实验表明,WP-DCNN算法显著降低了DCNN在大数据环境下的训练代价,而且对并行DCNN的训练效率也有大幅提升。  相似文献   

4.
为了进一步提高卷积神经网络算法的收敛速度和识别精度,提出基于双重优化的卷积神经网络图像识别算法。在构建卷积神经网络的过程中,针对特征提取和回归分类建立双重优化模型,实现对卷积与全连接过程的集成优化,并与局部优化算法对比,分析各算法的识别率和收敛速度的差异。在手写数字集和人脸数据集上的实验表明,双重优化模型可以在较大程度上提高卷积神经网络的收敛速度和识别精度,并且这种优化策略可以进一步拓展到其它与卷积神经网络相关的深度学习算法中。  相似文献   

5.
针对现有海量数字图像信息落后,提出了新型的压缩算法,设计出基于FPGA的视频图像采集系统.应用深度卷积神经网络优化视频图像编码算法和聚类算法实现数据特征提取,将图像与距离信息作为深度卷积神经网络的输入与输出,并利用其特征提取能力学习图像特征的距离信息,提取深度卷积神经网络中的全连接层作为编码,通过迭代调整确定图像编码,完成图像压缩.应用测试结果显示,该算法具有较高效率优势,且图像压缩解码后质量较好.  相似文献   

6.
针对布匹生产企业存在人工检测布匹瑕疵效率低、误检率、漏检率高的问题,提出一种基于深度卷积神经网络的单色布匹瑕疵检测算法.首先由于布匹瑕疵的数据规模远小于大型深度卷积神经网络的数据规模,如果采用大型卷积神经网络,计算量大且容易导致过拟合,因此设计了浅层的卷积神经网络结构;然后提出双网络并行的模型训练方法,用一个大网络指导小网络的训练过程,提高模型的训练效果;最后为了使得深度卷积神经网络模型脱离GPU的限制,能够在普通电脑、移动设备、嵌入式设备中高速运行,且保证模型检测精度,提出结合特征图优化卷积核参数的模型压缩算法.实验结果表明该算法可实现高准确率、高检测速度,在PC机的CPU模式下,检测速度为135 m/min,准确率可达到96.99%.  相似文献   

7.
《软件》2019,(3):217-221
神经网络的广泛应用使得人们更加关注神经网络的训练,更高精度的要求给神经网络的训练带来了困难,因此加速神经网络的训练成为了研究的重点。对于神经网络的训练中卷积层占据了大部分的训练时间,所以加速卷积层的训练成为了加速神经网络的关键。本文提出了GFW加速调度算法,GFW算法通过对不同卷积图像的大小和卷积核的数量调用不同的卷积算法,以达到整体的最佳训练效果。实验中具体分析了9层卷积网络的加速训练,实验结果显示,相比于GEMM卷积算法,GFW算法实现了2.901倍的加速,相比于FFT算法GFW算法实现了1.467倍的加速,相比于Winograd算法,GFW算法实现了1.318倍的加速。  相似文献   

8.
针对深度学习跟踪算法训练样本缺少、训练费时、算法复杂度高等问题,引入高斯核函数进行加速,提出一种无需训练的简化卷积神经网络跟踪算法。首先,对初始帧目标进行归一化处理并聚类提取一系列初始滤波器组,跟踪过程中结合目标背景信息与前景候选目标进行卷积;然后,提取目标简单抽象特征;最后,将简单层的卷积结果进行叠加得到目标的深层次特征表达。通过高斯核函数加速来提高算法中全部卷积运算的速度,利用目标的局部结构特征信息,对网络各阶段滤波器进行更新,结合粒子滤波跟踪框架实现跟踪。在CVPR2013跟踪数据集上的实验表明,本文方法脱离了繁琐深度学习运行环境,能克服低分辨率下目标局部遮挡与形变等问题,提高复杂背景下的跟踪效率。  相似文献   

9.
卷积神经网络因其对图像识别准确率高而在图像检索领域备受青睐,但处理大规模数据集时,基于卷积神经网络提取的深度特征维度高,容易引发"维度灾难".针对图像检索中深度特征维度高的问题,提出一种基于自适应融合网络特征提取与哈希特征降维的图像检索算法.由于传统哈希处理高维特征复杂度高,因此本文在卷积神经网络中加入自适应融合模块对特征进行重新整合,增强特征表征能力的同时降低特征维度;然后应用稀疏化优化算法对深度特征进行第2次降维,并通过映射获得精简的哈希码;最后,实验以Inception网络作为基础模型,在数据集CIFAR-10和ImageNet上进行了丰富的实验.实验结果表明,该算法能有效提高图像检索效率.  相似文献   

10.
基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案。在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案。在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576 GOPS,实际算力达422.08 GOPS,DSP的使用效率达4.5 Ope-ration/clock。加速计算系统的峰值算力达1 600 GOPS,将CNN景象匹配算法的吞吐时延降低至157.89 ms。实验结果表明,该加速计算方案能高效利用FPGA的计算资源,实现CNN景象匹配算法的实时计算。  相似文献   

11.
针对深度学习算法在多目标跟踪中的实时性问题,提出一种基于MobileNet的多目标跟踪算法.借助于MobileNet深度可分离卷积能够对深度网络模型进行压缩的原理,将YOLOv3主干网络替换为MobileNet,通过将标准卷积分解为深度卷积和逐点卷积,保留多尺度预测部分,以有效减少参数量.对于检测得到的边框信息,利用Deep-SORT算法进行跟踪.实验结果表明,所提出方法在跟踪效果基本不变的情况下可提升处理速度近50%.  相似文献   

12.
针对大数据环境下并行深度卷积神经网络(DCNN)算法中存在数据冗余特征多、卷积层运算速度慢、损失函数收敛性差等问题,提出了一种基于Im2col方法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先,提出基于Marr-Hildreth算子的并行特征提取策略MHO-PFES,提取数据中的目标特征作为卷积神经网络的输入,有效避免了数据冗余特征多的问题;其次,设计基于Im2col方法的并行模型训练策略IM-PMTS,通过设计马氏距离中心值去除冗余卷积核,并结合MapReduce和Im2col方法并行训练模型,提高了卷积层运算速度;最后提出改进的小批量梯度下降策略IM-BGDS,排除异常节点的训练数据对批梯度的影响,解决了损失函数收敛性差的问题。实验结果表明,IA-PDCNNOA算法在大数据环境下进行深度卷积神经网络计算具有较好的性能表现,适用于大规模数据集的并行化深度卷积神经网络模型训练。  相似文献   

13.
分布式矩阵相乘是众多分布式机器学习、科学计算等应用中的关键操作,但其性能会受到系统中常见的落后节点的严重影响。最近研究者提出了基于喷泉码的编码矩阵相乘方法,能够充分利用落后节点的部分计算结果,从而大幅度减轻落后节点问题,但忽略了工作节点的存储开销。在考虑存储开销与计算完成时间之间的权衡关系的基础上,首先提出了面向异构工作节点的计算期限感知的存储优化问题;然后进一步通过理论分析,提出了基于期望近似的解决思路,并通过松弛将问题转化为凸优化问题以方便高效求解。仿真实验表明,在保证较大的任务成功率的情况下,所提方案的存储开销会随着任务期限的放宽迅速下降,并且该方案能够更大幅度降低编码带来的存储开销。也就是说,所提方案能够在保障整体计算在期限内大概率完成的前提下,大幅度降低总体的额外存储负载。  相似文献   

14.
针对RS(Reed-Solomon)算法编码过程涉及有限域运算,复杂度高,效率低,运算代价难以被大规模分布式存储系统所接受等问题,提出了一种RS柯西码编码改进算法。该算法用贪心算法选取局部最优柯西矩阵,减少柯西码的计算量。同时,引入二进制矩阵替换柯西矩阵中的有限域元素进行阵列化,将有限域运算转换为异或运算,并对阵列进行运算优化,进一步减少计算量,增加柯西码的编码效率。根据仿真实验表明,改进后RS柯西码与通过遍历得到的最优柯西矩阵的柯西码相比,计算量更小,与编码效率著称的阵列码中的EVENODD码和STAR码相比,编码效率更高。并且具有类似阵列码性质,能够选择更简单高效的译码方法,在一定程度上提高解码效率。  相似文献   

15.
由于在现有的人体关键点检测问题中,深度学习解决方案采用的掩膜区域卷积神经网络Mask R-CNN存在参数量大导致计算成本过高、迭代次数多导致训练时间过长等问题,提出了一种基于重组通道网络ShuffleNet改进 Mask R-CNN网络模型。通过引入ShuffleNet的网络结构,使用分组逐点卷积与通道重排的操作与联合边框回归和掩膜分割的计算结果对Mask R-CNN进行轻量化改进。使用该方法改进网络模型在进行单人或多人情况下的人体关键点检测中,在保留精度的前提下,可以加快运行速度,减少检测时间。  相似文献   

16.
目的 为了解决基于卷积神经网络的算法对高光谱图像小样本分类精度较低、模型结构复杂和计算量大的问题,提出了一种变维卷积神经网络。方法 变维卷积神经网络对高光谱分类过程可根据内部特征图维度的变化分为空—谱信息融合、降维、混合特征提取与空—谱联合分类的过程。这种变维结构通过改变特征映射的维度,简化了网络结构并减少了计算量,并通过对空—谱信息的充分提取提高了卷积神经网络对小样本高光谱图像分类的精度。结果 实验分为变维卷积神经网络的性能分析实验与分类性能对比实验,所用的数据集为Indian Pines和Pavia University Scene数据集。通过实验可知,变维卷积神经网络对高光谱小样本可取得较高的分类精度,在Indian Pines和Pavia University Scene数据集上的总体分类精度分别为87.87%和98.18%,与其他分类算法对比有较明显的性能优势。结论 实验结果表明,合理的参数优化可有效提高变维卷积神经网络的分类精度,这种变维模型可较大程度提高对高光谱图像中小样本数据的分类性能,并可进一步推广到其他与高光谱图像相关的深度学习分类模型中。  相似文献   

17.
针对高光谱图像存在Hughes现象,以及空间和光谱特征利用效率低的问题,提出了一种结合标准分数降维和深度学习的高光谱图像分类算法。利用标准分数对高光谱数据的波段质量进行评价以剔除高光谱遥感图像中的冗余波段,结合优化过的3D-CNN(3D Convolutional Neural Network)分类方法,通过使用大步距卷积层替代池化层,引入L2正则化、批量归一化(Batch Normalization,BN)、Dropout等一系列策略,在减少网络参数的同时有效防止过拟合现象。通过Pavia Centre和Pavia University两个公开高光谱数据集的实验测试,该算法大幅度降低了网络模型的参数和计算量,取得了99.01%和95.99%的分类精度。  相似文献   

18.
基于SSE2的YUV与RGB色彩空间转换   总被引:2,自引:0,他引:2       下载免费PDF全文
视频处理中需要完成从YUV色彩空间到RGB色彩空间的转换。通过分析YUV格式与RGB格式间的转换算法,提出使用整形计算替代浮点运算,利用整除256对应右移八位操作,提高运算速度。结合使用Intel单指令多数据扩展指令集SSE2技术进行算法优化后,显著提高格式转换运算的效率。实验结果表明,采用此技术可以提高25倍以上的运算速度,在视频处理中具有很好的应用性。  相似文献   

19.
曹嵘晖    唐卓    左知微    张学东   《智能系统学报》2021,16(5):919-930
当前机器学习等算法的计算、迭代过程日趋复杂, 充足的算力是保障人工智能应用落地效果的关键。本文首先提出一种适应倾斜数据的分布式异构环境下的任务时空调度算法,有效提升机器学习模型训练等任务的平均效率;其次,提出分布式异构环境下高效的资源管理系统与节能调度算法,实现分布式异构环境下基于动态预测的跨域计算资源迁移及电压/频率的动态调节,节省了系统的整体能耗;然后构建了适应于机器学习/深度学习算法迭代的分布式异构优化环境,提出了面向机器学习/图迭代算法的分布式并行优化基本方法。最后,本文研发了面向领域应用的智能分析系统,并在制造、交通、教育、医疗等领域推广应用,解决了在高效数据采集、存储、清洗、融合与智能分析等过程中普遍存在的性能瓶颈问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号