首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
人工智能与各行业全面融合的浪潮方兴未艾,促使传统云平台拥抱以图形处理器(GPU)为代表的众核体系架构。为满足不同租户对于机器学习、深度学习等高密度计算的需求,使得传统云平台大力发展GPU虚拟化技术。安全作为云平台GPU虚拟化应用的关键环节,目前鲜有系统性的论述。因此,本文围绕云平台GPU虚拟化安全基本问题——典型GPU虚拟化技术给云平台引入的潜在安全威胁和GPU虚拟化的安全需求及安全防护技术演进趋势——展开。首先,深入分析了典型GPU虚拟化方法及其安全机制,并介绍了针对现有GPU虚拟化方法的侧信道、隐秘信道与内存溢出等攻击方法;其次,深入剖析了云平台GPU虚拟化所带来的潜在安全威胁,并总结了相应的安全需求;最后,提出了GPU上计算与内存资源协同隔离以确保多租户任务间的性能隔离、GPU任务行为特征感知以发现恶意程序、GPU任务安全调度、多层联合攻击阻断、GPU伴生信息脱敏等五大安全技术研究方向。本文希望为云平台GPU虚拟化安全技术发展与应用提供有益的参考。  相似文献   

2.
近年来,容器由于具有轻量级以及高可扩展性,逐渐替代了虚拟机,被广泛应用于深度学习云平台中。但目前深度学习云平台在GPU资源管理上依然存在着不足,主要表现为由于容器编排技术的限制,多个容器无法共享使用GPU资源,而对于一些小规模模型的训练任务和推理任务,单个任务并不能充分利用整张GPU卡的计算资源。当前的独占模式会导致昂贵的GPU资源的浪费,降低资源效率和服务可用性。针对这一问题,提出了一种GPU共享调度系统。一方面,基于Kubernetes的Operator机制对现有集群功能进行扩展,实现了多个Pod共享使用GPU资源,同时设计了一种代理机制保证了与原生Kubernetes的兼容性。另一方面,基于GPU时间片与抢占机制,实现了GPU资源的动态管理与调度,在多个任务之间进行细粒度的协调,并减少了任务干扰。实验结果表明,与原生Kubernetes调度系统相比,该系统能够将一组深度学习训练任务的完成时间平均减少约20%,使得集群GPU资源利用率平均提升约10%。在共享使用GPU时高优先级任务性能相较于独占GPU损耗不到5%,同时能够使得低优先级任务以20%的性能运行在同一张GPU上。  相似文献   

3.
深度学习算法和GPU算力的不断进步正促进着人工智能技术在包括计算机视觉、语音识别、自然语言处理等领域得到广泛应用.与此同时,深度学习已经开始应用于以自动驾驶为代表的安全攸关领域.但是,近两年接连发生了几起严重的交通事故表明深度学习技术的成熟度还远未达到安全攸关应用的要求,因此对可信人工智能系统的研究已经成为了一个热点方向.本文对现有的面向实时应用的深度学习领域的研究工作进行了综述,首先介绍了深度学习技术应用于实时嵌入式系统所面临的关键设计问题,然后从深层神经网络的轻量化设计、GPU时间分析与任务调度、CPU+GPU SoC异构平台的资源管理、深层神经网络与网络加速器的协同设计等多个方面对现有的研究工作进行了分析和总结,最后展望了面向实时应用的深度学习领域进一步的研究方向.  相似文献   

4.
深度强化学习(Deep Reinforcement Learning, DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景。由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署。针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务。实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748W,满足了深度强化学习在嵌入式领域的在线决策任务。  相似文献   

5.
为了解决航拍图像地面车辆目标实时检测和识别的问题,引入先进的人工智能技术,设计了一种基于深度学习的无人机航拍图像车辆目标检测嵌入式GPU系统.论文首先基于YOLOv3算法实现地面车辆目标检测技术,在GPU服务器上对地面车辆目标进行离线训练,通过自学习和迭代优化网络神经元权重,得到针对特定应用场景的网络模型;然后在嵌入式GPU平台上部属训练好的网络模型,实现无人机航拍图像的实时在线检测.实验结果表明,在NVIDIA TX2平台上实现了25帧/s的检测速率,基本满足地面车辆目标检测的需求.该嵌入式系统为无人机航拍图像在智慧交通领域的应用提供了一种解决方案.  相似文献   

6.
2016年9月13日,GTC CHINA 2016(GPU技术大会)在北京召开,NVIDIA联合创始人、总裁兼首席执行官黄仁勋出席大会,深度阐释了GPU计算产品与解决方案平台将如何拓展人工智能发展的想象空间,加速人工智能改变未来的进程。同时,NVIDIA全球首发了两款深度学习和自动驾驶最新产品,宣布了与京东等领先企业的合作项目。  相似文献   

7.
提出一种GPU集群下用户服务质量QoS感知的深度学习研发平台上的动态任务调度方法.采用离线评估模块对深度学习任务进行离线评测并构建计算性能预测模型.在线调度模块基于性能预测模型,结合任务的预期QoS,共同开展任务放置和任务执行顺序的调度.在一个分布式GPU集群实例上的实验表明,该方法相比其他基准策略能够实现更高的QoS保证率和集群资源利用率.  相似文献   

8.
2015年2月4日,浪潮正式发布了基于NVIDIA Tesla GPU加速器的整机柜服务器--SmartRack协处理加速整机柜服务器,这是一款密集型高度并行计算服务器,主要面向人工智能、深度学习等应用。
  通过与NVIDIA公司紧密合作,浪潮SmartRack协处理加速整机柜服务器可在1U空间里完美部署4个Tesla GPU加速器,实现“CPU+协处理器”协同计算加速,合理分配计算资源,充分释放计算能力,在并行计算方面有绝佳的表现,以高效、低耗、可靠。智能的特性,满足深度学习和人工智能等应用。此外,该产品还融合了广泛使用的NVIDIA CUDA并行计算平台以及cuDNN GPU加速库,最大效能发挥了GPU的强大处理性能,另外还能够完美支持Caffe、Torch等业界广泛使用的深度学习计算框架。  相似文献   

9.
将计算密度高的部分迁移到GPU上是加速经典数据挖掘算法的有效途径。首先介绍GPU特性和主要的GPU编程模型,随后针对数据挖掘主要任务类型分别介绍基于GPU加速的工作,包括分类、聚类、关联分析、时序分析和深度学习。最后分别基于CPU和GPU实现协同过滤推荐的两类经典算法,并基于经典的MovieLens数据集的实验验证GPU对加速数据挖掘应用的显著效果,进一步了解GPU加速的工作原理和实际意义。  相似文献   

10.
人工智能技术的快速发展和在云原生上部署应用高效等优点让越来越多的开发者和互联网企业将人工智能应用部署在Kubernetes集群上,但Kubernetes并不是主要针对深度学习而设计,对深度学习这个特定领域需要做定制优化.本文针对具有一定规模的Kubernetes集群上部署深度学习负载的场景,设计和实现了一系列优化方案,主要从深度学习所要求的数据处理、graphics processing unit (GPU)计算、分布式训练等几个方面进行优化,本文提出的优化方案覆盖了数据处理、计算等方面,这些技术极大简化人工智能负载在规模化云原生平台上的部署难度和提高运行效率,同时从实践上来看也验证了以上技术对人工智能应用有着显著的提升作用.  相似文献   

11.
针对图像目标检测的嵌入式实时应用需求,采用合并计算层的方法对基于MobileNet和单发多框检测器(SSD)的深度学习目标检测算法进行了优化,并采用软硬件结合的设计方法,基于ZYNQ可扩展处理平台设计了实时图像目标检测系统。在系统中,根据优化后的算法设计了一款多处理器核的深度学习算法加速器,并采用PYTHON语言设计了系统的软件。经过多个实验测试,深度学习目标检测系统处理速度可以达到45FPS,是深度学习软件框架在CPU上运行速度的4.9倍,在GPU上的1.7倍,完全满足实时图像目标检测的需求。  相似文献   

12.
近年来,深度卷积神经网络在图像识别和语音识别等领域被广泛运用,取得了很好的效果。深度卷积神经网络是层数较多的卷积神经网络,有数千万参数需要学习,计算开销大,导致训练非常耗时。针对这种情况,本文提出深度卷积神经网络的多GPU并行框架,设计并实现模型并行引擎,依托多GPU的强大协同并行计算能力,结合深度卷积神经网络在训练中的并行特点,实现快速高效的深度卷积神经网络训练。   相似文献   

13.
针对深度神经网络在分布式多机多GPU上的加速训练问题,提出一种基于虚拟化的远程多GPU调用的实现方法。利用远程GPU调用部署的分布式GPU集群改进传统一对一的虚拟化技术,同时改变深度神经网络在分布式多GPU训练过程中的参数交换的位置,达到两者兼容的目的。该方法利用分布式环境中的远程GPU资源实现深度神经网络的加速训练,且达到单机多GPU和多机多GPU在CUDA编程模式上的统一。以手写数字识别为例,利用通用网络环境中深度神经网络的多机多GPU数据并行的训练进行实验,结果验证了该方法的有效性和可行性。  相似文献   

14.
2016年1月4日,在美国拉斯维加斯举办的国际消费类电子产品展览会(CES)上,NVIDIA发布了NVIDIA DRIVE PX 2,全球最强大的车载人工智能引擎. DRIVE PX 2是NVIDIA为其汽车领域的合作伙伴而打造的产品,这套系统相当于150台MacBook Pro,为深度学习提供了前所未有的处理性能.它包含2颗第二代Tegra处理器和2颗基于Pascal架构的新一代独立GPU,每秒最多可完成24万亿次深度学习运算.该平台采用专门的指令集,这些指令集可加速深度学习网络推理中所运用的数学运算,平台计算性能比上一代产品快10倍以上.在通用浮点运算方面, DRIVE PX 2的多精度GPU架构每秒最多能够完成8万亿次运算,比上一代产品快了4倍以上.  相似文献   

15.
在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU平台有着显著的优势。随着GPU体系结构的不断演进以及开发平台的逐步完善,GPU已经进入到高性能计算的主流行列。GPU通用计算的普及,使个人和小型机构能有机会获得以往昂贵的大型、超级计算机才能提供的计算能力,并一定程度上改变了科学计算领域的格局和编程开发模式。GPU提供的强大计算能力极大地推动了计算智能的发展,并且已经在深度学习和群体智能优化方法等子领域获得了巨大的成功,更是在图像、语音等领域取得了突破性的进展。随着人工智能技术和方法的不断进步,GPU将在更多的领域获得更加广泛的应用。  相似文献   

16.
随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。  相似文献   

17.
赵杨 《信息与电脑》2023,(23):56-58
基于统一计算设备架构(Compute Unified Device Architecture,CUDA)框架实现的主流深度学习框架能够直接利用图形处理器(Graphics Processing Unit,GPU)的硬件优势,并通过集成优化库如CUDA深度神经网络加速库(CUDA Deep Neural Network library,cuDNN)对卷积、循环等不同类型层进行针对性加速。文章首先介绍GPU架构及CUDA框架的工作原理,概述主流深度学习框架的GPU支持,重点分析CNN卷积层、循环神经网络(Recurrent Neural Networks,RNN)循环层等在GPU上的具体实现与优化手段。  相似文献   

18.
束柬  陈剑波 《计算机应用研究》2023,40(11):3353-3357
针对AI模型生产和训练,传统基于脚本的物理单机或集群方式存在训练推理割裂、资源利用不充分、计算环境难迁移、训练流程冗长等问题,提出了一种面向深度学习模型训练的平台体系架构,架构分为数据平台层、计算平台层、训练套件层以及管理平台层四层,并逐层进行分析。在关键技术上,首先提出了训练推理一体化框架,采用抽象的计算流图屏蔽网络结构差异,并进行图优化;其次,提出了GPU状态感知的自适应资源匹配机制,采用环形消除算法解决通信成本线性增长问题;同时,提出基于启发式算法的标签匹配调度算法,以提高资源利用率;并且,通过租户管理和容灾机制的建立保障了系统平台的安全可靠性。最终搭建仿真平台验证其可用性、安全可靠性和拓展性。通过深度学习平台的应用,可以帮助企业更简易快捷地训练定制化模型和使用个性化服务,加速AI生产落地,推动AI技术和整个生态的繁荣发展。  相似文献   

19.
该公司为实现最高并行计算性能对新产品进行优化
  高密度GPU加速服务器针对企业和高性能计算环境需求进行优化,并为计算密集型应用、虚拟桌面基础架构和深度学习应用打造每瓦最高性能。  相似文献   

20.
由于航天器在高温、高压等恶劣环境中工作,采用传统故障检测方法自主性相对较差,缺少对故障特征的分析,导致检测精准度较低。提出了基于深度学习及GPU计算的航天器故障检测技术,依据航天器故障信号特征分析与检测原理,在GPU计算技术支持下,获取GPU图像,并在深度置信网络模型中引入该计算方法。根据构建的深度置信网络模型,预测轴承故障位置,经过GPU计算技术下提取的故障特征用于深度置信网络故障预测基本数据,将原始进行归一化处理,分析航天器轴承故障特征,并在不同参数支持下,利用深度学习算法自动确定网络关键参数,由此识别轴承故障,并学习故障特征,实现航天器故障检测。由实验结果可知,该技术检测精准度最高可达到98%,具有较强鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号