首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
赵杨 《信息与电脑》2023,(23):56-58
基于统一计算设备架构(Compute Unified Device Architecture,CUDA)框架实现的主流深度学习框架能够直接利用图形处理器(Graphics Processing Unit,GPU)的硬件优势,并通过集成优化库如CUDA深度神经网络加速库(CUDA Deep Neural Network library,cuDNN)对卷积、循环等不同类型层进行针对性加速。文章首先介绍GPU架构及CUDA框架的工作原理,概述主流深度学习框架的GPU支持,重点分析CNN卷积层、循环神经网络(Recurrent Neural Networks,RNN)循环层等在GPU上的具体实现与优化手段。  相似文献   

2.
卷积神经网络CNN目前作为神经网络的一个重要分支,相比于其他神经网络方法更适合应用于图像特征的学习和表达。随着CNN的不断发展,CNN将面临更多的挑战。CNN参数规模变得越来越大,这使得CNN对计算的需求量变得非常大。因此,目前产生了许多种方式对CNN的规模进行压缩。然而压缩后的CNN模型往往产生了许多稀疏的数据结构,这种稀疏结构会影响CNN在GPU上的性能。为了解决该问题,采用直接稀疏卷积算法,来加速GPU处理稀疏数据。根据其算法特点将卷积运算转换为稀疏向量与稠密向量内积运算,并将其在GPU平台上实现。本文的优化方案充分利用数据稀疏性和网络结构来分配线程进行任务调度,利用数据局部性来管理内存替换,使得在稀疏卷积神经网络SCNN中的GPU仍能够高效地处理卷积层运算。相比cuBLAS的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.07×~1.23×、1.17×~3.51×、1.32×~5.00×的加速比。相比cuSPARSE的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.31×~1.42×、1.09×~2.00×、1.07×~3.22×的加速比。  相似文献   

3.
近年来,深度卷积神经网络在图像识别和语音识别等领域被广泛运用,取得了很好的效果。深度卷积神经网络是层数较多的卷积神经网络,有数千万参数需要学习,计算开销大,导致训练非常耗时。针对这种情况,本文提出深度卷积神经网络的多GPU并行框架,设计并实现模型并行引擎,依托多GPU的强大协同并行计算能力,结合深度卷积神经网络在训练中的并行特点,实现快速高效的深度卷积神经网络训练。   相似文献   

4.
根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网络训练过程的前向传播阶段,在网络结构和数据集相同的情况下,对GPU,FPGA,CPU进行了在计算效率和能耗之间的比较。其中在计算效率方面,50 MHz频率的FPGA就可以相较于GPU实现近5倍的加速,相较于12核的CPU实现8倍的加速。而在功耗方面,该FPGA的实现方案只有GPU版本的26.7%。  相似文献   

5.
基于语音的手机来源识别已成为近年来多媒体取证领域中的一个研究热点.已有研究鲜有考虑环境背景噪声,难以满足司法领域实际应用场景的需求.提出一种遗传算法优化时间卷积网络的手机来源识别方法.基于对数域的Mel滤波器组系数特征,利用时间卷积网络进行深度语音特征学习,并利用线性判别分析提取低维深度特征,将低维深度特征输入到支持向...  相似文献   

6.
针对传统卷积神经网络(CNN)在训练过程中优化难度高的问题,提出基于矩阵分解的CNN改进方法。首先,通过矩阵分解将模型卷积层在训练期间的卷积核参数张量转换为多个参数矩阵的乘积,形成过参数化;其次,将这些额外的线性参数加入网络的反向传播,并与模型的其他参数同步更新,以改善梯度下降的优化过程;完成训练后,将矩阵乘积重新还原为标准卷积核参数,从而使推理期间前向传播的计算复杂度与改进前保持一致。选用简化QR分解和简化奇异值分解(SVD),在CIFAR-10数据集上进行分类效果实验,并用不同的图像分类数据集和初始化方式作进一步的泛化实验。实验结果表明,基于矩阵分解的VGG和残差网络(ResNet)对7个不同深度模型的分类准确率均高于原网络模型,可见矩阵分解方法可以让CNN更快地达到较高的分类准确率,最终收敛得到更好的局部最优。  相似文献   

7.
针对传统深度学习故障诊断方法在滚动轴承中诊断效果不理想的问题,提出一种细菌觅食优化算法(BFO)优化卷积神经网络(CNN)学习率使诊断效果提升的模型。在模型逐次迭代过程中,将CNN中的学习率参数带入BFO中,生成一个自适应的学习率,用于更新CNN的权重和偏置,使模型故障诊断效果达到最佳。通过实验证明基于细菌觅食算法优化的卷积神经网络训练的模型在分类精度上优于CNN训练的模型,并与CNN多种学习率对比,可将故障诊断准确率提升至97.25%,并提高了全局的收敛能力。  相似文献   

8.
目的 受限于卷积核形状固定,传统卷积神经网络(convolutional neural network,CNN)方法难以精确分类高光谱图像(hyperspectral image,HSI)中的跨类别边缘区域,导致地物边界模糊。内容引导CNN (content-guided CNN,CGCNN)能够根据地物形态自适应调整卷积核形状,具有地物边缘保持分类能力。但由于内容引导卷积属于非固定模板结构,不能直接调用现有深度学习加速库实现并行计算。针对该问题,本文设计了一种内容引导卷积的并行计算方法,并验证其加速及分类性能。方法 本文基于内容引导卷积等价于各向异性核加权和标准卷积的组合结构,通过利用深度学习库中的平铺、堆叠、网格和采样等底层函数构造索引矩阵来定义重采样方式,以将内容引导卷积分解为与空间位置无关的像素级独立计算过程,并在图形处理器(graphics processing unit,GPU)上并行执行。结果 经测试,本文提出的并行化内容引导卷积相比串行运算方式平均提速近700倍。在分类性能测试中,并行化CGCNN在合成数据集上表现出优异的细节保持分类能力,总精度平均高于对比方法7.10%;同时在两组真实数据集上亦取得最优分类结果,分别高于对比方法7.21%、2.70%。结论 通过将内容引导卷积分步拆解,能够将其转化为一系列并行计算过程,且能够在GPU上高效执行;并通过在多组数据集上的分类精度、参数敏感度和小样本学习等综合性能测试进一步表明,并行化CGCNN在具有优良分类性能的同时,亦具有对不同地物的边缘保持分类能力,能够获得更精细的分类结果。  相似文献   

9.
《微型机与应用》2018,(4):74-78
TensorFlow是谷歌开源的机器学习及深度学习框架,具有高度的灵活性,可以运行在多种平台上,如CPU、GPU以及移动设备,支持当前流行的深度学习模型。卷积神经网络具有多个处理层,能对图像的特征进行逐层抽象,相比于传统的图像识别方法具有良好的效果,对输入图像的旋转、扭曲、变形具有良好的鲁棒性,并且不用对图像进行预处理,简化了图像识别的步骤。在TensorFlow平台上,搭建了一个卷积神经网络模型,利用MNIST数据集对模型进行训练及测试,最终测试能达到99%的识别率。  相似文献   

10.
基于多级金字塔卷积神经网络(MLPCNN)的快速特征表示方法   总被引:1,自引:0,他引:1  
近年来,在机器视觉中基于卷积神经网络(CNN)的特征提取方法取得了令人惊叹的成果,主要原因是深度学习在多层和低维的特征表示上有着很大的优势。但是由于在大尺度图像中卷积滤波的过程速度过慢,导致CNN参数调节困难、训练时间过长,针对这一问题,本文基于传统卷积神经网络(TCNN, Traditional convolution neural network)提出一种快速有效的多级金字塔卷积神经网络MLPCNN(Multi-level pyramid CNN)。这一网络使用权值共享的方法将低级的滤波权值共享到高级,保证CNN的训练只在较小尺寸的图像块上进行,加快训练速度。实验表明,在特征维数比较低的情况下,MLPCNN提取到的特征比传统的特征提取方法更加有效,在Caltech101数据库上,MLPCNN识别率达到81.32%,而且训练速度较TCNN网络提高了约2.5倍。  相似文献   

11.
移动应用软件已经拥有了数以千万计的用户群体.根据最新统计,Android手机以85.1%的市场占有份额,成为了最受欢迎的移动端设备.Android应用软件的快速开发,使得如何保证程序质量,成了难题.我们不仅要考虑程序的正确性,也应保证运行时的流畅性.现有的性能研究工作都基于传统的静态分析或者动态执行.对于Android程序,静态分析具有一定的局限性,而动态分析又忽略了APP执行时的遍历方式.因此,本文提出了基于GUI的Android自动化性能测试框架,将着重关注页面状态和APP状态的相关性.通过对页面的分析,聚合,尽可能遍历到APP的各个状态,然后从日志中,找出APP性能上的问题.本框架使用Java作为开发语言,搭建了Android移动软件自动化性能测试框架,并在开源社区F-Droid上随机抽取了移动应用软件进行实验.实验表明,该技术能更多的遍历APP的状态,发现APP在运行过程中出现的性能问题,取得良好的效果.  相似文献   

12.
针对智能手机、平板电脑等移动终端计算能力有限的问题,提出一种基于网络的通用计算服务平台。该平台以服务的方式为移动终端提供远程计算支持,增强其进行复杂运算的能力。利用ParaViewWeb架构的可扩展性,将高性能GPU通用计算与ParaViewWeb架构结合,在保留ParaViewWeb原有的三维数据分析与可视化功能的基础上,扩展其远程调用服务器GPU运算资源的能力。选取医学图像滤波算法为实验对象,验证了该平台的有效性,结果表明对比本地应用,基于网络的应用取得了显著加速。  相似文献   

13.
14.
随着移动技术的发展,越来越多人员已经不仅在办公室处理日常事务,他们已开始使用手机、PDA和笔记本等移动终端通过公共通信网络访问单位内部的资源和应用.但是,这种通过公共网络接入也给单位网络引入了新的安全威胁,而传统的终端VPN已经满足不了现有的智能手机/平板电脑等移动终端的安全接入需求:一方面,如何保证在开放网络中保障移动终端用户身份和接入安全、数据保密性以及移动通信传输过程的一致性和完整性等安全要求;另一方面,由于移动终端容易丢失,如何保证移动终端内存储数据的安全性.因此,本文对基于Android架构的移动系统安全体系及所面临的安全威胁进行阐述并提出一些相应的防范措施.  相似文献   

15.
Customisation of mobile phones is a process of producing products according to individual needs on design, cost, and easiness of the phones. With the aim of identifying the most important features in customising mobile phones, 288 questionnaires were collected and analysed. The result showed that ‘text message’, ‘battery’, ‘contacts’, ‘software updates’, and ‘display size’ were highly required to customise. Among six factors (physical design, technical design, cost of entertainment, cost of information, cost of durability, easiness of use) obtained from a factor analysis, the most important reason for users to customise mobile phones was that they wanted to use a mobile phone easily. Cost of durability and cost of information were also important motivations for customisation of mobile phones. Finally, this research showed that gender and user experience were significant factors for customisation.  相似文献   

16.
学生身心的健康发展,受到了社会各界人士的广泛关注。如今智能手机在中低龄学生人群中的使用率越来越高。青少年自我控制能力不强,极易对手机产生依赖,因此需要引导学生健康合理地使用手机。与此同时手机作为终端设备还可以提供实时位置数据,为实现对学生人身安全监管提供了基础。基于此,设计了一种基于SpringBoot技术框架的学生成长守护系统。系统采用多服务模块的方案进行开发,使用Nginx作为反向代理服务器,MySQL、Redis作为数据库服务器。系统实现了对手机使用策略的设置,使用地理围栏技术对学生到校离校时间、轨迹等进行记录并实现消息推送。该系统有效管理了手机的使用情况并保证学生在校期间的人身安全。  相似文献   

17.
Liao  Jun  Liu  Dandan  Su  Guoxin  Liu  Li 《Applied Intelligence》2021,51(11):7933-7945

The usage of multivariate time series to identify diseases plays an important role in the medical field, as it can help medical staff to improve diagnose accuracy and reduce medical costs. Current research shows that deep Convolutional Neural Networks (CNN) can automatically capture features from raw data and Long Short-Term Memory (LSTM) networks can manage and learn temporal dependence between time series data such as physiological signals. In this work, we propose a deep learning framework called DeepCNN-LSTM by combining the CNN and LSTM to leverage their respective advantages for disease recognition, allowing itself to characterize complex temporal varieties with multiple autoencoded features. In particular, we use stationary wavelet transform together with median filter to preprocess low-frequency signal data, and introduce sliding window to segment physiological time series before model training for performance improvement on the training speed as well as the accuracy for recognizing diseases. In addition, we validate our model on a hybrid benchmark dataset collecting from MIMIC and Fantasia databases and set up four kinds of comparative experiments. Empirical evaluations on the benchmark dataset demonstrate that the proposed model outperforms other competitive approaches.

  相似文献   

18.
In some image classification tasks, similarities among different categories are different and the samples are usually misclassified as highly similar categories. To distinguish highly similar categories, more specific features are required so that the classifier can improve the classification performance. In this paper, we propose a novel two-level hierarchical feature learning framework based on the deep convolutional neural network (CNN), which is simple and effective. First, the deep feature extractors of different levels are trained using the transfer learning method that fine-tunes the pre-trained deep CNN model toward the new target dataset. Second, the general feature extracted from all the categories and the specific feature extracted from highly similar categories are fused into a feature vector. Then the final feature representation is fed into a linear classifier. Finally, experiments using the Caltech-256, Oxford Flower-102, and Tasmania Coral Point Count (CPC) datasets demonstrate that the expression ability of the deep features resulting from two-level hierarchical feature learning is powerful. Our proposed method effectively increases the classification accuracy in comparison with flat multiple classification methods.  相似文献   

19.
苗旭鹏  王驭捷  沈佳  邵蓥侠  崔斌 《软件学报》2023,34(9):4407-4420
图神经网络由于其强大的表示能力和灵活性最近取得了广泛的关注. 随着图数据规模的增长和显存容量的限制, 基于传统的通用深度学习系统进行图神经网络训练已经难以满足要求, 无法充分发挥GPU设备的性能. 如何高效利用GPU硬件进行图神经网络的训练已经成为该领域重要的研究问题之一. 传统做法是基于稀疏矩阵乘法, 完成图神经网络中的计算过程, 当面对GPU显存容量限制时, 通过分布式矩阵乘法, 把计算任务分发到每个设备上, 这类方法的主要不足有: (1)稀疏矩阵乘法忽视了图数据本身的稀疏分布特性, 计算效率不高; (2)忽视了GPU本身的计算和访存特性, 无法充分利用GPU硬件. 为了提高训练效率, 现有一些研究通过图采样方法, 减少每轮迭代的计算带价和存储需求, 同时也可以支持灵活的分布式拓展, 但是由于采样随机性和方差, 它们往往会影响训练的模型精度. 为此, 提出了一套面向多GPU的高性能图神经网络训练框架, 为了保证模型精度, 基于全量图进行训练, 探索了不同的多GPU图神经网络切分方案, 研究了GPU上不同的图数据排布对图神经网络计算过程中GPU性能的影响, 并提出了稀疏块感知的GPU访存优化技术. 基于C++和CuDNN实现了该原型系统, 在4个不同的大规模GNN数据集上的实验表明: (1)通过图重排优化, 提高了GPU约40%的缓存命中率, 计算加速比可达2倍; (2)相比于现有系统DGL, 取得了5.8倍的整体加速比.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号