首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(sparse acceleration framework of convolutional neural network, SAF-CNN),通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-...  相似文献   

2.
针对AI模型生产和训练,传统基于脚本的物理单机或集群方式存在训练推理割裂、资源利用不充分、计算环境难迁移、训练流程冗长等问题,提出了一种面向深度学习模型训练的平台体系架构,架构分为数据平台层、计算平台层、训练套件层以及管理平台层四层,并逐层进行分析。在关键技术上,首先提出了训练推理一体化框架,采用抽象的计算流图屏蔽网络结构差异,并进行图优化;其次,提出了GPU状态感知的自适应资源匹配机制,采用环形消除算法解决通信成本线性增长问题;同时,提出基于启发式算法的标签匹配调度算法,以提高资源利用率;并且,通过租户管理和容灾机制的建立保障了系统平台的安全可靠性。最终搭建仿真平台验证其可用性、安全可靠性和拓展性。通过深度学习平台的应用,可以帮助企业更简易快捷地训练定制化模型和使用个性化服务,加速AI生产落地,推动AI技术和整个生态的繁荣发展。  相似文献   

3.
陈浩  李嘉祥  黄健  王菖  刘权  张中杰 《控制与决策》2023,38(11):3209-3218
面对高维连续状态空间或稀疏奖励等复杂任务时,仅依靠深度强化学习算法从零学习最优策略十分困难,如何将已有知识表示为人与学习型智能体之间相互可理解的形式,并有效地加速策略收敛仍是一个难题.对此,提出一种融合认知行为模型的深度强化学习框架,将领域内先验知识建模为基于信念-愿望-意图(belief- desire-intention, BDI)的认知行为模型,用于引导智能体策略学习.基于此框架,分别提出融合认知行为模型的深度Q学习算法和近端策略优化算法,并定量化设计认知行为模型对智能体策略更新的引导方式.最后,通过典型gym环境和空战机动决策对抗环境,验证所提出算法可以高效利用认知行为模型加速策略学习,有效缓解状态空间巨大和环境奖励稀疏的影响.  相似文献   

4.
随着深度学习与万物互联的快速发展,将深度学习与移动终端设备结合已经成为了一大研究热点。深度学习给终端设备带来性能提升的同时,将模型部署在资源受限的终端设备时也面临诸多挑战,如终端设备计算和存储资源受限,深度学习模型难以适应不断变化的设备状态等。基于此,研究了资源自适应的深度学习模型自适应量化问题。提出资源自适应混合精度模型量化方法,利用门控网络和骨干网络进行模型构建,以层为粒度寻找模型最佳量化策略,结合边端设备降低模型资源消耗。为了寻找最优模型量化策略,采取基于FPGA的深度学习模型部署。需要将模型部署在资源受限的边端设备上时,根据资源约束进行自适应训练,采取量化感知方法降低模型量化带来的精度损失。实验结果表明,该方法能够在保留78%的准确率的同时,降低50%的存储空间;同时,在FPGA设备上模型精度下降不超过2%,而能源消耗降低60%。  相似文献   

5.
近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起.大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类.深度学习作为一种实现机器学习的技术,正是解决这一问题的重要法宝,它在处理数据过程中发挥着重要作用并且改变了传统的机器学习方法,已被广泛应用于语音识别、图像识别和自然语言处理等研究领域.如何有效加速深度学习的计算能力一直是科研研究的重点.FPGA凭借其强大的并行计算能力和低功耗等优势成为GPU在加速深度学习领域的有力竞争者.从深度学习的几种典型模型出发,在FPGA加速技术现有特点的基础上从针对神经网络模型的加速器、针对具体问题的加速器、针对优化策略的加速器和针对硬件模板的加速器四方面概括总结了FPGA加速深度学习的研究现状,然后对比了不同加速技术和模型的性能,最后对未来可能发展的方向进行了展望.  相似文献   

6.
基于深度强化学习的机器人操作技能学习成为研究热点, 但由于任务的稀疏奖励性质, 学习效率较低. 本 文提出了基于元学习的双经验池自适应软更新事后经验回放方法, 并将其应用于稀疏奖励的机器人操作技能学习 问题求解. 首先, 在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数, 并加入温度自适应 调整策略, 动态调整温度参数以适应不同的任务环境; 其次, 结合元学习思想对经验回放进行分割, 训练时动态调整 选取真实采样数据和构建虚拟数的比例, 提出了DAS-HER方法; 然后, 将DAS-HER算法应用到机器人操作技能学 习中, 构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架; 最后, 在Mujoco下的Fetch和Hand环境 中, 进行了8项任务的对比实验, 实验结果表明, 无论是在训练效率还是在成功率方面, 本文算法表现均优于其他算 法.  相似文献   

7.
随着深度学习模型和硬件架构的快速发展,深度学习编译器已经被广泛应用.目前,深度学习模型的编译优化和调优的方法主要依赖基于高性能算子库的手动调优和基于搜索的自动调优策略.然而,面对多变的目标算子和多种硬件平台的适配需求,高性能算子库往往需要为各种架构进行多次重复实现.此外,现有的自动调优方案也面临着搜索开销大和缺乏可解释性的挑战.为了解决上述问题,本文提出了AutoConfig,一种面向深度学习编译优化的自动配置机制.针对不同的深度学习计算负载和特定的硬件平台,AutoConfig可以构建具备可解释性的优化算法分析模型,采用静态信息提取和动态开销测量的方法进行综合分析,并基于分析结果利用可配置的代码生成技术自动完成算法选择和调优.本文创新性地将优化分析模型与可配置的代码生成策略相结合,不仅保证了性能加速效果,还减少了重复开发的开销,同时简化了调优过程.在此基础上,本文进一步将AutoConfig集成到深度学习编译器Buddy Compiler中,对矩阵乘法和卷积的多种优化算法建立分析模型,并将自动配置的代码生成策略应用在多种SIMD硬件平台上进行评估.实验结果验证了AutoConfig在代码生成策略中有效地完成了参数配置和算法选择.与经过手动或自动优化的代码相比,由AutoConfig生成的代码可达到相似的执行性能,并且无需承担手动调优的重复实现开销和自动调优的搜索开销.  相似文献   

8.
王蓉芳  焦李成  刘芳  杨淑媛 《软件学报》2012,23(7):1760-1772
提出了一种种群规模自适应动态控制策略,实现了种群规模根据进化过程自适应的动态变化.该策略的实现不依赖于算法进化操作的具体步骤,因而适用于各种基于种群优化的自然计算方法.首先给出了动态控制策略的框架;然后,在此框架下,充分利用动态种群规模反馈的有用信息,提出了基于Logistic模型的增加/删除数目自适应变化的方法,设计了自适应地兼顾有效性和多样性的增加算子和基于多样性的删除算子.将该策略应用到两种不同的自然计算方法中,采用经典测试函数和新型CEC05测试函数验证其性能.实验结果均表明,结合了所提出的种群规模自适应动态控制策略的新算法,比原算法在求解精度和收敛速度上均有明显的提升.  相似文献   

9.
随着训练数据规模的增大以及训练模型的日趋复杂,深度神经网络的训练成本越来越高,对计算平台提出了更高的算力需求,模型训练并行化成为增强其应用时效性的迫切需求。近年来基于分布式训练的AI加速器(如FPGA、TPU、AI芯片等)层出不穷,为深度神经网络并行训练提供了硬件基础。为了充分利用各种硬件资源,研究人员需要在集合了多种不同算力、不同硬件架构AI加速器的计算平台上进行神经网络的模型并行训练,因此,如何高效利用各种AI加速器计算资源,并实现训练任务在多种加速器上的负载均衡,一直是研究人员关心的热点问题。提出了一种面向模型并行训练的模型拆分策略自动生成方法,该方法能够基于静态的网络模型自动生成模型拆分策略,实现网络层在不同AI加速器上的任务分配。基于该方法自动生成的模型分配策略,能够高效利用单个计算平台上的所有计算资源,并保证模型训练任务在各设备之间的负载均衡,与目前使用的人工拆分策略相比,具有更高的时效性,节省拆分策略生成时间100倍以上,且降低了由于人为因素带来的不确定性。  相似文献   

10.
传统的深度强化学习方法依赖大量的经验样本并且难以适应新任务.元强化学习通过从以往的训练任务中提取先验知识,为智能体快速适应新任务提供了一种有效的方法.基于最大熵强化学习框架的元深度强化学习通过最大化期望奖赏和最大化策略熵来优化策略.然而,目前以最大熵强化学习框架为基础的元强化学习算法普遍采用固定的温度参数,这在面对元强化学习的多任务场景时是不合理的.针对这一问题,提出了自适应调节策略熵(Automating Policy Entropy,APE)算法.该算法首先通过限制策略的熵,将原本的目标函数优化问题转换为受限优化问题,然后将受限优化问题中的对偶变量作为温度参数,通过拉格朗日对偶法求解得到其更新公式.根据得到的更新公式,温度参数将在每一轮元训练结束之后进行自适应调节.实验数据表明,所提算法在Ant-Fwd-Back和Walker-2D上的平均得分提高了200,元训练效率提升了82%;在Humanoid-Di-rec-2D上的策略收敛所需的训练步数为23万,收敛速度提升了127%.实验结果表明,所提算法具有更高的元训练效率和更好的稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号