首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
冉德成  吴东  钱磊 《计算机工程》2019,45(10):40-45
为满足深度学习推理中对不同规模矩阵乘法的计算需求,提出一种基于Zynq SoC平台的整数矩阵乘法加速器。采用基于总线广播的并行结构,充分利用片上数据的重用性并最小化中间累加结果的移动范围,以降低外部DRAM的访问需求。通过动态调整矩阵分块的大小,使加速器在计算形状不规则的矩阵乘时保持较高效率。实验结果表明,在DeepBench测试基准下,该加速器可对双核ARM Cortex-A9 CPU的矩阵乘运算实现8.4倍的加速效果。  相似文献   

2.
闫昊  刘芳芳  马文静  陈道琨 《软件学报》2023,34(7):3451-3463
稠密矩阵乘法(GEMM)是很多科学与工程计算应用中大量使用的函数,也是很多代数函数库中的基础函数,其性能高低对整个应用往往有决定性的影响.另外,因其计算密集的特点,矩阵乘法效率往往也是体现硬件平台性能的重要指标.针对国产申威1621处理器,对稠密矩阵乘法进行了系统性地优化.基于对各部分开销的分析,以及对体系结构特点与指令集的充分利用,对DGEMM函数从循环与分块方案,打包方式,核心计算函数实现,数据预取等方面进行了深入优化.此外,开发了代码生成器,为不同的输入参数生成不同版本的汇编代码和C语言代码,配合自动调优脚本,选取最佳参数.经过优化和调优,单线程DGEMM性能达到了单核浮点峰值性能的85%,16线程DGEMM性能达到16核浮点峰值性能的80%.对DGEMM函数的优化不仅提高了申威1621平台BLAS函数库性能,也为国产申威系列多核处理器上稠密数据计算优化提供了重要参考.  相似文献   

3.
GOTOBLAS一般矩阵乘法高效实现机制的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没有考虑存储层次的一般BLAS库。证明了GOTO库性能上的优越性和将存储层次引入计算模型的必要性。  相似文献   

4.
GPU 上的矩阵乘法的设计与实现   总被引:1,自引:0,他引:1  
矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。  相似文献   

5.
6.
蔡建兵  王晓东 《福建电脑》2003,(12):22-22,21
本文介绍了高速缓存复杂性的概念,并在给定的理想高速缓存模型下,分析了矩阵乘法算法中参数的设置对高速缓存复杂度的影响。  相似文献   

7.
通过对深度学习和矩阵分解技术进行结合,设计一个深度神经网络对用户和物品进行特征提取,形成用户隐向量和物品隐向量的方法,计算这两个隐向量的内积得到用户对物品的评分预测.为提高推荐精度,提出使用显式数据和隐式数据并设计新的损失函数能够同时计算这两类数据损失的方法.在两个公开数据集上的实验结果表明,该方法比基线模型在HR和N...  相似文献   

8.
矩阵乘法是许多应用中的核心计算,在这些应用中只是少量矩阵元素发生改变,如果全量重新计算则工作量很大,因此增量计算是解决该问题的有效手段. 本文提出了一种基于MapReudce模型的增量矩阵乘法计算方法,以及计算矩阵中变化元素的高效识别方法,通过利用矩阵元素的摘要信息快速计算出变化元素,然后将矩阵乘法计算过程转换为一系列等价的连接问题,实现了一种有效的矩阵乘法增量计算. 对于矩阵元素变化率较小的情形,计算实验表明提出的方法计算时间上明显优于全量重新计算方法.  相似文献   

9.
深度矩阵分解采用深层非线性映射,从而突破了矩阵分解中双线性关系影响推荐系统性能的瓶颈,但它没有考虑用户对未评分项目的偏好,且对于稀疏性较高的大规模数据其推荐性能不具有优势,为此提出一种融合矩阵补全与深度矩阵分解的推荐算法.首先通过矩阵补全模型将原始评分矩阵中的未知元素进行填补,然后依据补全后的矩阵,利用深度学习模型分别构建用户和项目潜在向量.最后,在MovieLens和SUSHI数据集上进行测试,实验结果表明,与深度矩阵分解相比,所提算法显著地提高了推荐系统的性能.  相似文献   

10.
11.
一种迁移学习和可变形卷积深度学习的蝴蝶检测算法   总被引:1,自引:0,他引:1  
针对自然生态蝴蝶多种特征检测的实际需求,以及生态环境下蝴蝶检测效率低、精度差问题,本文提出了一种基于迁移学习和可变形卷积深度神经网络的蝴蝶检测算法(Transfer learning and deformable convolution deep learning network,TDDNET).该算法首先使用可变形卷积模型重建ResNet-101卷积层,强化特征提取网络对蝴蝶特征的学习,并以此结合区域建议网络(Region proposal network,RPN)构建二分类蝴蝶检测网络,以下简称DNET-base;然后在DNET-base的模型上,构建RPN网络来指导可变形的敏感位置兴趣区域池化层,以便获得多尺度目标的评分特征图和更准确的位置,再由弱化非极大值抑制(Soft non-maximum suppression,Soft-NMS)精准分类形成TDDNET模型.随后通过模型迁移,将DNET-base训练参数迁移至TDDNET,有效降低数据分布不均造成的训练困难与检测性能差的影响,再由Fine-tuning方式快速训练TDDNET多分类网络,最终实现了对蝴蝶的精确检测.所提算法在854张蝴蝶测试集上对蝴蝶检测结果的mAP0.5为0.9414、mAP0.7为0.9235、检出率DR为0.9082以及分类准确率ACC为0.9370,均高于在同等硬件配置环境下的对比算法.对比实验表明,所提算法对生态照蝴蝶可实现较高精度的检测.  相似文献   

12.
数据融合是最大程度发挥大数据价值的关键,深度学习是挖掘数据深层特征信息的技术利器,基于深度学习的数据融合能够充分挖掘大数据潜在价值,从新的深度和广度拓展对世界的探索和认识。综述了近几年基于深度学习的数据融合方法的相关文献,以此了解深度学习在数据融合中应用所具有的优势。分类阐述常见的数据融合方法,同时指出这些方法的优点和不足。从基于深度学习特征提取的数据融合方法、基于深度学习融合的数据融合方法、基于深度学习全过程的数据融合方法三个方面对基于深度学习的数据融合方法进行分析,并做了对比研究与总结。总结全文并讨论了深度学习在数据融合中应用的难点和未来需要进一步研究的问题。  相似文献   

13.
现实中采集的数据由于需要适应实际工程需求以及数据细粒度信息的分类形式多样,样本数据间很难保持完全的独立同分布.而非独立同分布数据会严重降低深度神经网络模型训练的鲁棒性以及特定任务上的泛化性能.为了降低非独立同分布数据在模型训练和推断过程中的不良影响,提出一种批规范化的改进算法.该算法在神经网络模型训练开始前从数据集中取出一小批量数据做批规范化,求解出的均值与方差作为参考值用来更新训练时的其他批量数据.实验结果表明,该改进算法一定程度上能够加快神经网络模型训练收敛,相对于BN算法,分类错误率降低了0.3%,提高了神经网络模型训练的鲁棒性.在目标检测和实例分割任务上,应用该改进算法的预训练模型能够有效提高某些检测算法的泛化性能.  相似文献   

14.
隐写术及隐写分析是信息安全领域研究热点之一.隐写术的滥用造成许多安全隐患,如非法分子利用隐写进行隐蔽通信完成恐怖袭击.传统隐写分析方法的设计需要大量先验知识,而基于深度学习的隐写分析方法利用网络强大的表征学习能力自主提取图像异常特征,大大减少了人为参与,取得了较好的研究效果.为了促进基于深度学习的隐写分析方法研究,对目...  相似文献   

15.
针对数据的复杂性和语义深层关系,提出一种李群深层结构学习算法。主要包括:基于流形的深层结构分析方法、基于参数的李群半监督学习算法和基于线性的李群半监督学习算法,以及这些算法相融合的李群深层结构学习算法。该算法对连续语义间的深层关系有着重要的作用。实验结果显示,深度越深,该算法的效果越好。  相似文献   

16.
针对传统机器学习人工提取特征耗时耗力,并且提取高质量特征存在一定困难等问题,将基于深度学习的方法,首次结合卷积神经网络和概率神经网络,提出了一种新的模型GoogleNet-PNN,其自动学习特征,避免了手动提取特征的繁琐性,而且结合了PNN训练容易、收敛速度快等特点,在肝病分类的实验中取得了较好的效果;并使用了迁移学习的方法,通过在自然图像集的预训练,然后应用到医学图像,避免了因样本不足而出现的过拟合问题,实验结果最终表明识别准确率要优于其他方法,达到了98%的客观识别率。  相似文献   

17.
针对人体行为识别问题,比较了两种基于智能手机惯性加速度传感器数据的深度特征学习方法。与传统的人工特征提取方法相比,基于深度特征学习方法可以实现端到端训练,网络结构简单直观,避免了繁琐的特征工程,通过深度神经网络模型的学习自动获得特征。本文通过对比深度卷积神经网络、长短期记忆网络两种深度学习方法在公开网站UCI的机器学习知识库的人体行为识别数据集上的识别效果,论证了基于Dropout深度卷积神经网络特征学习方法的有效性。  相似文献   

18.
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。  相似文献   

19.
深度学习是机器学习研究中的一个重要领域,它具有强大的特征提取能力,且在许多应用中表现出先进的性能,因此在工业界中被广泛应用.然而,由于训练数据标注和模型设计存在偏见,现有的研究表明深度学习在某些应用中可能会强化人类的偏见和歧视,导致决策过程中的不公平现象产生,从而对个人和社会产生潜在的负面影响.为提高深度学习的应用可靠性、推动其在公平领域的发展,针对已有的研究工作,从数据和模型2方面出发,综述了深度学习应用中的偏见来源、针对不同类型偏见的去偏方法、评估去偏效果的公平性评价指标、以及目前主流的去偏平台,最后总结现有公平性研究领域存在的开放问题以及未来的发展趋势.  相似文献   

20.
深度学习在视频目标跟踪中的应用进展与展望   总被引:1,自引:0,他引:1  
视频目标跟踪是计算机视觉的重要研究课题, 在视频监控、机器人、人机交互等方面具有广泛应用. 大数据时代的到来及深度学习方法的出现, 为视频目标跟踪的研究提供了新的契机. 本文首先阐述了视频目标跟踪的基本研究框架. 对新时期视频目标跟踪研究的特点与趋势进行了分析, 介绍了国际上新兴的数据平台、评测方法. 重点介绍了目前发展迅猛的深度学习方法, 包括堆叠自编码器、卷积神经网络等在视频目标跟踪中的最新具体应用情况并进行了深入分析与总结. 最后对深度学习方法在视频目标跟踪中的未来应用与发展方向进行了展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号