期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

胡健龚克毛伊敏陈志刚陈亮《计算机应用研究》2022,39(10)

针对大数据环境下并行深度卷积神经网络（DCNN）算法中存在数据冗余特征多、卷积层运算速度慢、损失函数收敛性差等问题,提出了一种基于Im2col方法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先,提出基于Marr-Hildreth算子的并行特征提取策略MHO-PFES,提取数据中的目标特征作为卷积神经网络的输入,有效避免了数据冗余特征多的问题;其次,设计基于Im2col方法的并行模型训练策略IM-PMTS,通过设计马氏距离中心值去除冗余卷积核,并结合MapReduce和Im2col方法并行训练模型,提高了卷积层运算速度;最后提出改进的小批量梯度下降策略IM-BGDS,排除异常节点的训练数据对批梯度的影响,解决了损失函数收敛性差的问题。实验结果表明,IA-PDCNNOA算法在大数据环境下进行深度卷积神经网络计算具有较好的性能表现,适用于大规模数据集的并行化深度卷积神经网络模型训练。相似文献

2.

分布式深度学习通信架构的性能分析

张立志冉浙江赖志权刘锋《计算机工程与科学》2021,43(3):416-425

近年来,深度学习技术的进步推动人工智能进入了一个新的发展时期.但是,海量的训练数据、超大规模的模型给深度学习带来了日益严峻的挑战,分布式深度学习应运而生,逐渐成为应对这一挑战的有效手段,而高效的参数通信架构是保证分布式深度学习性能的关键.针对传统分布式深度学习模型同步架构在大规模节点上并行训练的问题,首先,分析了集中式... 相似文献

3.

面向模型并行训练的模型拆分策略自动生成方法

王丽郭振华曹芳高开赵雅倩赵坤《计算机工程与科学》2020,42(9):1529-1537

随着训练数据规模的增大以及训练模型的日趋复杂,深度神经网络的训练成本越来越高,对计算平台提出了更高的算力需求,模型训练并行化成为增强其应用时效性的迫切需求。近年来基于分布式训练的AI加速器（如FPGA、TPU、AI芯片等）层出不穷,为深度神经网络并行训练提供了硬件基础。为了充分利用各种硬件资源,研究人员需要在集合了多种不同算力、不同硬件架构AI加速器的计算平台上进行神经网络的模型并行训练,因此,如何高效利用各种AI加速器计算资源,并实现训练任务在多种加速器上的负载均衡,一直是研究人员关心的热点问题。提出了一种面向模型并行训练的模型拆分策略自动生成方法,该方法能够基于静态的网络模型自动生成模型拆分策略,实现网络层在不同AI加速器上的任务分配。基于该方法自动生成的模型分配策略,能够高效利用单个计算平台上的所有计算资源,并保证模型训练任务在各设备之间的负载均衡,与目前使用的人工拆分策略相比,具有更高的时效性,节省拆分策略生成时间100倍以上,且降低了由于人为因素带来的不确定性。相似文献

4.

基于稀疏表示全局字典学习的图像分类方法

蒲国林邱玉辉《计算机应用》2015,35(2):499-501

针对传统的稀疏表示字典学习图像分类方法在大规模分布式环境下效率低下的问题,设计一种基于稀疏表示全局字典的图像学习方法。将传统的字典学习步骤分布到并行节点上,使用凸优化方法在节点上学习局部字典并实时更新全局字典,从而提高字典学习效率和大规模数据的分类效率。最后在MapReduce平台上进行并行化实验,结果显示该方法在不影响分类精度的情况下对大规模分布式数据的分类有明显的加速,可以更高效地运用于各种大规模图像分类任务中。相似文献

5.

Hadoop下多模式并行分类算法及其应用研究

李玉丹郑晓薇《计算机工程》2014,(12):45-49

根据人工神经网络自组织、高度并行以及具有非线性映射能力的特点,提出一种基于云计算的Hadoop多模式并行分类算法。通过将自组织映射网络与多个并行BP神经网络结合,提高多语义模式中复杂分类问题的学习效率和训练精度。采用Hadoop平台下的Map Reduce框架实现算法的并行处理,解决大规模数据样本训练时内存开销大、通信耗时长的问题。实验结果表明,与传统单BP多输出分类算法相比,该算法训练速度更快、分类精度更高,在处理大规模数据集时具有实时和高效的特性。相似文献

6.

基于Ray并行分布式框架的深度强化学习计算平台

赵康马陈燕王道军《软件》2022,(11):179-183

近些年随着深度强化学习的不断发展,其训练成本也在不断增加,然而传统的训练平台大部分是基于顺序执行训练,不仅训练时间长、硬件成本高昂,且数据采样也非常困难。为了解决这些问题,本文中提出了一种基于Ray并行分布式架构的深度强化学习计算平台(RRLP),平台利用固定资源预算进行异步并行训练,兼容机器人仿真环境,不仅可以节约硬件资源,还可以加快采样与训练速度提高效率。通过实验可知基于Ray并行分布式架构的深度强化学习计算平台优于传统的计算平台,且有一定稳定性和可扩展性。相似文献

7.

机器学习和深度学习的并行训练方法

祝佳怡《现代计算机》2022,(14):42-48

并行计算技术广泛用于对一些特定问题进行更进一步的优化,从而突破性地降低算法的时间消耗。近年来,随着大数据和人工智能的快速发展,在进行大规模深度学习模型的训练时,时间消耗成为一个重要的考虑因素。在模型的训练过程中,由于各个样本之间互不相关的性质,使得模型的训练过程可以利用并行技术来很好地优化。本文以最基础的线性回归作为模型的任务,测试了并行化方法在深度学习模型中的可行性,并对比了不同节点下的性能提升幅度。本文所提出的并行训练方法的时间复杂度为■,根据该时间复杂度,可以合理地根据待解决问题的规模来选择合适的并行化策略。相似文献

8.

基于MapReduce的高效用序列模式挖掘算法

程思远马超李聪聪《计算机系统应用》2015,24(12):228-232

由于数据规模的快速增长,高效用序列模式挖掘算法效率严重下降.针对这种情况,提出基于MapReduce的高效用序列模式挖掘算法HusMaR.算法基于MapReduce框架,使用效用矩阵高效地生成候选项;使用随机映射策略均衡计算资源;使用基于领域的剪枝策略来防止组合爆炸.实验结果表明,在大规模数据集下,算法取得了较高的并行效率. 相似文献

9.

大规模并行 CFD 软件的负载平衡设计

梁姗刘夏真袁武《数据与计算发展前沿》2016,7(6):54-60

基于多区结构网格的计算流体力学方法,在并行处理的难点是多个网格数据块在计算资源上的高效合理分配,以实现大规模并行环境下的负载平衡。本文围绕负载平衡问题,介绍了 CCFD 软件开展的一些工作,包括：1. 面向结构网格的双层图剖分策略,通过细层图剖分环节考虑计算量和通信量的负载平衡;2. 建立可细分的重叠网格体系,并基于该体系建立了重叠网格系统的双级负载平衡模型。算例验证表明,所采用的负载平衡策略在大规模并行环境下能获得较高并行效率。相似文献

10.

基于种群演化的超参数异步并行搜索

蒋云良赵康曹军杰范婧刘勇《控制与决策》2021,36(8):1825-1833

近年来随着深度学习尤其是深度强化学习模型的不断增大,其训练成本即超参数的搜索空间也在不断变大,然而传统超参数搜索算法大部分是基于顺序执行训练,往往需要等待数周甚至数月才有可能找到较优的超参数配置.为解决深度强化学习超参数搜索时间长和难以找到较优超参数配置问题,提出一种新的超参数搜索算法-----基于种群演化的超参数异步并行搜索(PEHS).算法结合演化算法思想,利用固定资源预算异步并行搜索种群模型及其超参数,从而提高算法性能.设计实现在Ray并行分布式框架上运行的参数搜索算法,通过实验表明在并行框架上基于种群演化的超参数异步并行搜索的效果优于传统超参数搜索算法,且性能稳定. 相似文献

11.

基于混合编程模型的支持向量机训练并行化

李涛刘学臣张帅王恺杨愚鲁《计算机研究与发展》2015,52(5)

支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、送代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture,CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface,MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力. 相似文献

12.

用于深度学习训练加速的自适应框架设计

范涛樊平成元庆《计算机辅助设计与图形学学报》2021,33(6):974-982

用FPGA加速深度学习算法的训练过程通常需要较长的开发周期和丰富的硬件设计经验.为了应对这一挑战,设计了一种基于自适应模板技术的深度学习算法训练加速框架,在应用规模、并行调度策略、资源使用和功能扩展上进行了深入的研究并提出了相应的优化策略.采用CPU-FPGA异构加速模板技术,提出了自适应的上层模型编译框架实现与不同硬件加速资源的适配.这种基于定制模板的软硬件协同设计可以很好地适配不同的FPGA芯片并支持算法的快速迭代.用图神经网络算法数据进行加速对比实验,实现了与CPU相比7～41倍的速度提升. 相似文献

13.

面向深度学习图像分类的GPU并行方法研究

韩彦岭沈思扬徐利军王静张云周汝雁《计算机工程》2023,49(1):191-200

针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。相似文献

14.

基于SVM的并行网络流量分类方法

裴杨王勇陶晓玲李平红《计算机工程与设计》2013,34(8)

针对SVM (support vector machine)算法应用到大规模网络流量分类中存在计算复杂度高、训练速度慢等问题,提出一种基于云计算平台进行并行网络流量分类的SVM方法,以提高对大数据集的分类训练速度.该方法是一种采用云计算平台构建多级SVM和映射规约(MapReduce)模型的方法.它将训练数据集划分为多个子训练数据集,通过对所有子训练数据集进行并行训练,得到支持向量集,进而训练出流量分类模型.实验结果表明,与传统的SVM方法相比,并行SVM网络流量分类方法在保持较高分类精度的前提下,有效地减少了训练时间,提高了大规模网络流量分类的速度. 相似文献

15.

基于自回归预测模型的深度注意力强化学习方法 总被引：1，自引：0，他引：1

梁星星冯旸赫黄金才王琦马扬刘忠《软件学报》2020,31(4):948-966

近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型,基于注意力机制结合预测模型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明,该模型能够高效地建立环境预测模型,并有效结合基于模型和无模型两类强化学习方法,实现样本的高效利用.最后,针对导弹突防智能规划问题进行了算法实证研究,应用结果表明,采用所提出的学习模型可在特定场景取得优于传统突防规划的效果. 相似文献

16.

可解释化、结构化、多模态化的深度神经网络

熊红凯高星李劭辉徐宇辉王涌壮余豪阳刘昕张云飞《模式识别与人工智能》2018,31(1):1-11

深度学习方法依赖于大规模的标签数据,通过端到端的监督训练,在计算机视觉、自然语言处理领域都取得优异性能.但是,现有方法通常针对单一模态数据,忽视数据的内在结构,缺乏理论支撑.针对上述问题,文中从基于小波核学习的深度滤波器组网络设计、基于结构化学习的深度学习、基于多模态学习的深度学习3个角度阐述结合深度学习方法与小波理论、结构化预测的潜在方法,以及其拓展到多模态数据的可行机制. 相似文献

17.

基于BERT模型与知识蒸馏的意图分类方法

廖胜兰吉建民俞畅陈小平《计算机工程》2021,47(5):73-79

意图分类是一种特殊的短文本分类方法,其从传统的模板匹配方法发展到深度学习方法,基于BERT模型的提出,使得大规模的预训练语言模型成为自然语言处理领域的主流方法。然而预训练模型十分庞大,且需要大量的数据和设备资源才能完成训练过程。提出一种知识蒸馏意图分类方法,以预训练后的BERT作为教师模型,文本卷积神经网络Text-CNN等小规模模型作为学生模型,通过生成对抗网络得到的大量无标签数据将教师模型中的知识迁移到学生模型中。实验数据包括基于真实场景下的电力业务意图分类数据集,以及通过生成对抗网络模型生成的大量无标签文本作为扩充数据。在真实数据和生成数据上的实验结果表明,用教师模型来指导学生模型训练,该方法可以在原有数据资源和计算资源的条件下将学生模型的意图分类准确率最高提升3.8个百分点。相似文献

18.

基于Spark的并行SVM算法研究

刘泽燊潘志松《计算机科学》2016,43(5):238-242

随着数据规模的不断增加,支持向量机(SVM)的并行化设计成为数据挖掘领域的一个研究热点。针对SVM算法训练大规模数据时存在寻优速度慢、内存占用大等问题,提出了一种基于Spark平台的并行支持向量机算法(SP-SVM)。该方法通过调整层叠支持向量机(Cascade SVM)的合并策略和训练结构,并利用Spark分布式计算框架实现;其次,进一步分析并行操作算子的性能,优化算法并行化实现方案,有效克服了层叠模型训练效率低的缺点。实验结果表明,新的并行训练方法在损失较小精度的前提下,在一定程度上减少了训练时间,能够很好地提高模型的学习效率。相似文献

19.

MapReduce框架下的朴素贝叶斯算法并行化研究

幸莉仙黄慧连《计算机系统应用》2013,22(2):108-111

研究朴素贝叶斯算法MapReduce的并行实现方法, 针对传统单点串行算法在面对大规模数据或者参与分类的属性较多时效率低甚至无力承载大规模运算, 以及难以满足人们处理海量数据的需求等问题, 本文在朴素贝叶斯基本理论和MapReduce框架的基础上, 提出了一种基于MapReduce的高效、廉价的并行化方法. 通过实验表明这种方法在面对大规模数据时能有效提高算法的效率, 满足人们处理海量数据的需求. 相似文献

20.

面向GPU集群的动态资源调度方法

傅懋钟胡海洋李忠金《计算机研究与发展》2023,(6):1308-1321

深度神经网络（deep neural network,DNN）已广泛应用于人类社会的许多领域.大规模的DNN模型可显著提高识别精度，然而在单个GPU设备上训练大规模的DNN模型需要耗费大量的时间.因此，如何借助分布式深度学习（distributed deep learning,DDL）技术，在GPU集群上并行地训练多DNN模型已受到工业界和学术界的广泛关注.基于此，提出一种面向GPU集群的动态资源调度（dynamic resource scheduling,DRS）方法，解决异构带宽环境下具有截止时间要求的多DNN任务调度问题.具体来说，首先基于Ring-AllReduce通信方式构建资源-时间模型，以衡量DDL任务在不同资源方案下的运行时间；然后基于截止时间需求构建了资源-性能模型，以实现高效的资源利用；最后，结合上述资源-时间和资源-性能模型设计了DRS算法，为多DNN任务训练实现资源方案决策.在DRS算法中融入最近截止时间原则进行实际资源分配，并利用资源迁移机制减少调度过程中出现的资源碎片场景的影响.在4个NVIDIA GeForce RTX 2 080 Ti的GPU集群上的异构... 相似文献