首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
针对并行深度卷积神经网络算法在大数据环境下存在冗余特征计算过多、卷积运算性能不足和参数并行化合并效率低等问题,提出了基于Winograd卷积的并行深度卷积神经网络优化算法。首先,该算法提出基于余弦相似度与归一化互信息的特征过滤策略,通过先筛选后融合的方式消除了通道间对于冗余特征的计算,以此解决了冗余特征计算过多的问题;然后,结合MapReduce提出了并行Winograd卷积策略,通过使用并行化Winograd卷积运算替换传统卷积运算的方式来提升卷积运算的性能,以此解决了卷积运算性能不足的问题;最后,提出基于任务迁移的负载均衡策略,通过动态负载迁移的方式来均衡集群中各节点之间的负载,降低了集群总体的平均反应时长,以此解决了参数并行化合并效率低的问题。实验表明,WP-DCNN算法显著降低了DCNN在大数据环境下的训练代价,而且对并行DCNN的训练效率也有大幅提升。  相似文献   

2.
基于数据并行化的异步随机梯度下降(ASGD)算法由于需要在分布式计算节点之间频繁交换梯度数据,从而影响算法执行效率.提出基于分布式编码的同步随机梯度下降(SSGD)算法,利用计算任务的冗余分发策略对每个节点的中间结果传输时间进行量化以减少单一批次训练时间,并通过数据传输编码策略的分组数据交换模式降低节点间的数据通信总量...  相似文献   

3.
随着分布式系统规模扩大及计算复杂度增加,分布式计算的平均故障修复时间和容错计算所产生的通信开销呈现日益上升趋势.结合分布式编码计算和副本冗余技术,提出一种新的容错算法.map节点应用分布式编码计算的思想,将数据冗余分配至多个计算节点创建编码中间结果,降低计算节点在shuffle阶段的数据传输量.reduce节点通过对接...  相似文献   

4.

卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题. 随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求. 针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法. 该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算. 整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行. 通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销. 同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案. 最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍. 同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能. 其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%.

  相似文献   

5.
在详细分析卷积编码GMSK调制信号的编码和调制的联合状态转移后,针对GMSK相干接收机中载波同步困难的情况,提出了存在频偏时的卷积编码GMSK调制信号载波相位和数据序列联合估计的SMLE算法.仿真结果表明:在较小频偏情况下,算法能以较好的性能完成卷积编码GMSK调制信号的非相干联合解调和译码.  相似文献   

6.
随着深度学习的快速发展,其在语音处理、图像识别和自然语言理解等领域被广泛应用,为科研产业以及日常生活带去了巨大的变革.Intel紧跟深度学习的浪潮,推出了第2代Xeon Phi处理器KNL(knights landing),其后又发布了第3代Xeon Phi处理器KNM(knights mill),为深度学习的蓬勃发展带去了新的活力.通过在Intel平台上进行快速卷积算法Winograd的研究与优化,对比Intel MKL(math kernel library) DNN(deep neural network)中的卷积性能,推动Intel MKL DNN中深度神经网络接口的完善以及Intel平台上深度学习的发展.研究中结合Intel最新深度学习平台的AVX-512指令集、高速内存MCDRAM、多Memory/SNC模式、二维网格状内核结构等特性,并通过对内存分配、数据调度等情况的分析,设计优化Winograd算法,一方面选取典型的卷积神经网络(convolutional neural network, CNN)网络模型VGG19,测试对比Intel MKL DNN的卷积实现,最终取得了2倍多的性能加速比;另一方面,通过测试常用卷积类型,对比Intel MKL DNN和NVIDIA cuDNN,验证了实现的Winograd对于常用卷积类型具有很好的适用性且具有实际使用价值.该研究工作期望为Intel平台在深度学习领域的发展提供重要的指导意义.  相似文献   

7.
分布式视频编码的关键帧提取算法   总被引:1,自引:0,他引:1  
分布式视频编码方案中,目前常用固定周期的方法选取关键帧.该方法忽略了视频序列的帧间相关性、运动变化情况.针对这些缺陷,研究了基于聚类的自适应关键帧提取算法,在此基础上,提出基于互信息量的改进算法.最后,针对以上2种算法中的时延问题给出了解决方案.实验证明,对于不同的测试序列,基于互信息量改进算法相比固定选取关键帧算法,边信息PSNR均值有0.67~1.4dB的提高.此外,解决时延的算法比改进算法在效率上有很大提高.  相似文献   

8.
《软件》2019,(3):217-221
神经网络的广泛应用使得人们更加关注神经网络的训练,更高精度的要求给神经网络的训练带来了困难,因此加速神经网络的训练成为了研究的重点。对于神经网络的训练中卷积层占据了大部分的训练时间,所以加速卷积层的训练成为了加速神经网络的关键。本文提出了GFW加速调度算法,GFW算法通过对不同卷积图像的大小和卷积核的数量调用不同的卷积算法,以达到整体的最佳训练效果。实验中具体分析了9层卷积网络的加速训练,实验结果显示,相比于GEMM卷积算法,GFW算法实现了2.901倍的加速,相比于FFT算法GFW算法实现了1.467倍的加速,相比于Winograd算法,GFW算法实现了1.318倍的加速。  相似文献   

9.
随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能领域的推广应用,对面向飞腾多核处理器的高性能卷积实现提出了强烈需求.针对飞腾多核处理器的体系结构特征与Wingorad快速卷积算法的计算特点,提出了一种高性能并行Winograd快速卷积算法.该算法不依赖通用矩阵乘库函数,由卷积核转换、输入特征图转换、逐元素乘、输出特征图逆变换等4个部分构成,融合设计了4个部分的数据操作,并设计了与之配套的数据布局、多级并行数据转换算法与多级并行矩阵乘算法,实现访存性能以及算法整体性能的提升.在两款飞腾多核处理器上的测试结果显示,与开源库ACL和NNPACK中的Winograd快速卷积实现相比,该算法分别能获得1.05~16.11倍与1.66~16.90倍的性能加速;集成到开源框架Mxnet后,该算法使得VGG16网络的前向计算获得了3.01~6.79倍的性能加速.  相似文献   

10.
随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。  相似文献   

11.
DNA编码优化问题是DNA计算中的核心问题。分析DNA编码优化的约束条件,在单链DNA序列集合上引入h距离,将聚类小生境技术应用于小种群遗传算法的构造,对DNA编码优化问题进行求解。基于h距离定义DNA序列间的相似函数,将碱基字母编码为4进制整数、DNA编码序列作为个体编码为4进制整数向量、种群编码为4进制整数矩阵,基于模4算术运算,构造相应的遗传算子,并给出DNA编码序列的具体计算结果。实验结果表明,与现有DNA编码序列优化结果相比,该算法可得到更好的DNA编码序列且计算效率较高。  相似文献   

12.
张晓星  刘冀伟  胡广大  崔朝辉 《计算机科学》2011,38(11):275-277,295
边信息是影响分布式视频编码系统率失真性能的关键因素之一。针对传统的运动补偿帧内插方案的固定宏块划分法忽略了视频序列中各区域运动强烈程度不均的特性,提出基于图像活跃度的灵活宏块划分算法。在前向运动估计之前,对相部关键帧的差值图像统计活跃度,根据各区域的运动强烈程度自适应地调整宏块大小。实验结果表明,对于不同运动特性的序列,本算法可以明显提升边信息帧的重建质量,使系统的率失真性能提高0.3~1.3dB有效提高了系统性能。  相似文献   

13.
分布式视频编码对编码器的功耗、复杂度、存储能力和传输能力都有较高的要求,而分布式信源编码理论正好适应了这一需求。为了使人们对这一技术有所了解,首先阐述了分布式视频编码的基本原理与其应用研究现状。并针对多视点分布式视频编码的Wyner—Ziv编解码器设计、虚拟“相关信道”建模、辅助边信息生成等几项关键技术存在的问题及最新研究进展进行分析和实验,最后总结了分布式信源编码理论在多视点视频编码的发展与研究方向。  相似文献   

14.
柳伟  陈旭  梁永生  张基宏 《计算机工程》2011,37(15):208-211
提出一种基于贪婪算法的MGS可伸缩编码的码率控制优化方法。该方法以较低的计算复杂度优化MGS编码,根据不同帧类型和质量层类型的统计特性分别建立不同的率失真模型,并基于贪婪算法确定MGS的片层优化分配方案。实验结果表明,该方法在相同码率下明显提高解码图像的质量,平均峰值信噪比可提高0.5 dB。  相似文献   

15.
针对无线传感器网络内在特点及经典Beacon-based定位方法的局限性,提出了一种新的基于多跳导标节点的分布式节点定位策略。其主要原理在于应用距离矢量路由法获得邻近导标节点的同时,在选择参与定位的导标节点集时考虑了导标节点共线度及未知节点与导标节点的位置关系,并在此基础上提出了不依赖于复杂优化计算的基于权值的位置估算策略。仿真研究表明,提出的算法具有很好的自适应性、分布性、可扩展性和鲁棒性,特别是算法在计算复杂度及定位结果鲁棒性等方面表现出了很好的性能,适合应用于大规模无线传感器网络。  相似文献   

16.
针对变换域分布式视频编码问题,提出一种自适应量化算法AQSC。根据视频帧离散余弦变换系数的分布特点,确定各子带的重要性,只对重要的子带进行量化及编解码,不重要的子带不进行量化及编码,且在译码时直接用边信息代替。实验结果表明,AQSC算法可提高分布式视频编码系统的率失真性能,减少译码码率,解码后视频序列的整体质量有所提高。  相似文献   

17.
针对粒子群优化(PSO)算法在优化问题过程中易陷入局部最优的问题,提出一种基于哈夫曼编码的协同粒子群优化(HC PSO)算法。采用哈夫曼编码将种群划分成2个子种群并对2个子种群进行独立优化,同时,2子种群之间协同完成搜索种群的全局最优解。采用6个标准测试函数来测试算法性能。实验结果表明,该算法可以有效地避免种群陷入局部最优,具有较好的优化性能和稳定性,收敛精度得到了显著的提高。  相似文献   

18.
在组播通信网络中,在满足组播速率的前提下,如何使编码资源开销最小化即网络编码优化是一个NP难问题.针对现有基于基本遗传算法的网络编码优化的不足,提出基于GPU的并行遗传算法应用于网络编码优化.通过在不同的网络拓扑结构中进行仿真实验,结果表明提出的并行遗传算法能够在更短的时间内找到满意的编码方案,具有更高的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号