共查询到20条相似文献,搜索用时 62 毫秒
1.
为满足深度学习推理中对不同规模矩阵乘法的计算需求,提出一种基于Zynq SoC平台的整数矩阵乘法加速器。采用基于总线广播的并行结构,充分利用片上数据的重用性并最小化中间累加结果的移动范围,以降低外部DRAM的访问需求。通过动态调整矩阵分块的大小,使加速器在计算形状不规则的矩阵乘时保持较高效率。实验结果表明,在DeepBench测试基准下,该加速器可对双核ARM Cortex-A9 CPU的矩阵乘运算实现8.4倍的加速效果。 相似文献
2.
很多实际应用中需要高效计算大量不同维度的小矩阵乘积,如基于图神经网络的图分类需要将多个邻接矩阵与节点特征矩阵相乘。针对现有方法无法跨不同硬件平台高效计算此类维度各异(简称变维)批处理小矩阵乘法的问题,基于深度学习编译器TVM,提出了一种可以跨平台的高效算法BVSM,通过为小矩阵特制优化模板、运用张量化批处理和分组填充等技术使得TVM可以高效进行变维批处理小矩阵乘法。在真实图分类任务数据集上的实验表明,在CPU 端,BVSM相较于自动调度和调优的TVM(AnsorTVM)平均获得两倍以上加速,平均性能达到Intel MKL变维批处理矩阵乘法的95%,最高为其1.27倍;在 GPU 端,BVSM相较于AnsorTVM 平均获得62.05倍的加速,相较于cuBLAS平均获得28.82倍的加速,相较于MAGMA 的变维批处理矩阵乘法平均获得6.59倍的加速。 相似文献
3.
稠密矩阵乘法(GEMM)是很多科学与工程计算应用中大量使用的函数,也是很多代数函数库中的基础函数,其性能高低对整个应用往往有决定性的影响.另外,因其计算密集的特点,矩阵乘法效率往往也是体现硬件平台性能的重要指标.针对国产申威1621处理器,对稠密矩阵乘法进行了系统性地优化.基于对各部分开销的分析,以及对体系结构特点与指令集的充分利用,对DGEMM函数从循环与分块方案,打包方式,核心计算函数实现,数据预取等方面进行了深入优化.此外,开发了代码生成器,为不同的输入参数生成不同版本的汇编代码和C语言代码,配合自动调优脚本,选取最佳参数.经过优化和调优,单线程DGEMM性能达到了单核浮点峰值性能的85%,16线程DGEMM性能达到16核浮点峰值性能的80%.对DGEMM函数的优化不仅提高了申威1621平台BLAS函数库性能,也为国产申威系列多核处理器上稠密数据计算优化提供了重要参考. 相似文献
4.
对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没有考虑存储层次的一般BLAS库。证明了GOTO库性能上的优越性和将存储层次引入计算模型的必要性。 相似文献
5.
矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。 相似文献
7.
通过对深度学习和矩阵分解技术进行结合,设计一个深度神经网络对用户和物品进行特征提取,形成用户隐向量和物品隐向量的方法,计算这两个隐向量的内积得到用户对物品的评分预测.为提高推荐精度,提出使用显式数据和隐式数据并设计新的损失函数能够同时计算这两类数据损失的方法.在两个公开数据集上的实验结果表明,该方法比基线模型在HR和N... 相似文献
8.
矩阵乘法是许多应用中的核心计算,在这些应用中只是少量矩阵元素发生改变,如果全量重新计算则工作量很大,因此增量计算是解决该问题的有效手段. 本文提出了一种基于MapReudce模型的增量矩阵乘法计算方法,以及计算矩阵中变化元素的高效识别方法,通过利用矩阵元素的摘要信息快速计算出变化元素,然后将矩阵乘法计算过程转换为一系列等价的连接问题,实现了一种有效的矩阵乘法增量计算. 对于矩阵元素变化率较小的情形,计算实验表明提出的方法计算时间上明显优于全量重新计算方法. 相似文献
9.
深度矩阵分解采用深层非线性映射,从而突破了矩阵分解中双线性关系影响推荐系统性能的瓶颈,但它没有考虑用户对未评分项目的偏好,且对于稀疏性较高的大规模数据其推荐性能不具有优势,为此提出一种融合矩阵补全与深度矩阵分解的推荐算法.首先通过矩阵补全模型将原始评分矩阵中的未知元素进行填补,然后依据补全后的矩阵,利用深度学习模型分别构建用户和项目潜在向量.最后,在MovieLens和SUSHI数据集上进行测试,实验结果表明,与深度矩阵分解相比,所提算法显著地提高了推荐系统的性能. 相似文献
10.
在向量处理器上进行矩阵运算时硬件资源利用率与数据处理能力较低。为此,基于魂芯数字信号处理器(HXDSP)平台,结合高效视频编码(HEVC)标准中的离散余弦变换算法,采用数据压缩式向量法实现矩阵乘法,以发挥向量处理器的硬件资源。实验结果表明,该方法可达到HXDSP的定点乘累加运算能力峰值32 GMACs,数据处理能力可达2 GPixel/s,满足HEVC编码标准的性能要求。 相似文献
11.
考虑到基于深度学习的恶意域名检测方法计算开销大,难以有效应用于真实网络场景域名检测实际,设计了一种基于可分离卷积的轻量级恶意域名检测算法.该模型使用可分离卷积结构,能够对卷积过程中的每一个输入通道进行深度卷积,然后对所有输出通道进行逐点卷积,在不减少卷积特征提取效果的情况下,有效减少卷积过程的参数量,实现更加快速的卷积... 相似文献
12.
该文构建了一种可对不同形式的多尺度结构进行归纳的统一框架,并基于该框架系统地探究了多尺度卷积的两个因素——特征传播和跨尺度交互,提出了简单而有效的多尺度卷积单元——多尺度-跨尺度-权重共享的卷积(MS 3-Conv)网络。实验结果表明,与基于标准卷积的网络相比,基于MS 3-Conv的网络可使用较少的参数和较低的计算成本实现更好的图像重建性能。除了定量分析,该文也对重建图像进行可视化分析,证明了MS 3-Conv网络能更好地恢复高频细节。 相似文献
13.
为了提高桥梁裂缝检测水平,解决目前手工检测费时费力和传统图像处理方法需要人工设定参数的问题,提出一种基于改进GoogLeNet的桥梁裂缝检测算法。首先,构建了一个较大规模的桥梁裂缝数据集RLH(Retinex-Laplace-Histogram equalization)用于模型的训练和测试。其次,基于原始的GoogLeNet模型,采用归一化的卷积核改进了inception模块,采用三种改进方案修改网络开头,去掉第七个及以后的inception层,建立桥梁裂缝特征图像分类系统。最后,利用滑动窗口精准定位裂缝并结合骨架提取算法计算裂缝的长度和宽度。实验结果表明,改进的GoogLeNet网络与原始GoogLeNet网络相比,识别准确率提升了3.13%,训练时间减少为原来的64.6%。另外,骨架提取算法能够考虑裂缝的走势,计算宽度更加准确,且最大宽度和平均宽度都能计算。综上所述,所提分类和测量方法具有准确度高、速度快、定位准确、测量准确等特点。 相似文献
14.
针对卷积神经网络的标量神经元无法表达特征位置信息,对复杂的车辆行驶环境适应性差,导致交通标志识别率低的问题,提出一种基于胶囊网络的智能交通标志识别方法。首先采用超深度卷积神经网络改进特征提取部分,然后在主胶囊层引入池化层,最后采用移动指数平均法改进了动态路由算法。在GTSRB数据集上的测试结果表明,改进后的胶囊网络方法在特殊场景下的识别精度提高了10.02个百分点,相对于传统的卷积神经网络,该方法的单张图片的识别时间缩短了2.09 ms。实验结果表明,改进后的胶囊网络方法能满足准确、实时的交通标志识别要求。 相似文献
15.
构建卷积神经网络要耗费大量的人力资源,且训练过程中需要消耗大量的算力资源.利用空洞卷积代替卷积神经网络中的池化操作,能有效增加感受野,降低运算复杂度,但是空洞卷积会带来空间层次和信息连续性的丢失.本文提出了一种并行不对称空洞卷积模块,该模块能够补全空洞卷积所丢失的信息,可以嵌入到现有的卷积神经网络中,代替3×3卷积进行... 相似文献
16.
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题. 随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求. 针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法. 该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算. 整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行. 通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销. 同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案. 最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍. 同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能. 其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 相似文献
17.
目的 超分辨率技术在实际生活中具有较为广泛的应用。经典的基于卷积神经网络的超分辨率(SRCNN)方法存在重建图像纹理结构模糊以及网络模型训练收敛过慢等问题。针对这两个问题,在SRCNN的基础上,提出一种多通道卷积的图像超分辨率(MCSR)算法。 方法 通过增加残差链接,选择MSRA初始化方法对网络权值进行初始化,加快模型收敛;引入多通道映射提取更加丰富的特征,使用多层3×3等小卷积核代替单层9×9等大卷积核,更加有效地利用特征,增强模型的超分辨率重构效果。 结果 MCSR迭代4×10 6次即可收敛,在Set5与Set14数据集上边长放大3倍后的平均峰值信噪比分别是32.84 dB和29.28 dB,与SRCNN相比提升显著。 结论 MCSR收敛速度更快,并且可以生成轮廓清晰的高分辨率图像,超分辨率效果更加优秀。 相似文献
18.
在目标跟踪算法中深度网络可以对大量图像进行训练和表示,但是对于特定的跟踪对象,离线训练不仅费时,而且在对大量图像进行学习时,其表示和识别能力效果不佳。基于以上问题提出有模板更新的卷积网络跟踪算法,可以在没有离线训练的大量数据时,也能够利用实现强大的目标跟踪能力。在目标跟踪中,从目标周围区域提取一组归一化的局部小区域块作为新的滤波器,围绕目标定义下一帧中的一组特征映射来提取自适应滤波器周围目标,对随后帧提取的归一化样本进行卷积操作生成一组特征图;利用这些特征图获取每个滤波器和目标的局部强度衍射图样之间的相似性,然后对其局部结构信息进行编码;最后,使用来自全局表示的特征图保存该目标的内部几何设计,再通过软收缩方法去噪抑制噪声值,使其低于自适应阈值,生成目标的稀疏表示。有模板更新改进的CNT算法能稳定地跟踪目标,不会发生严重漂移,具有优于传统CNT的良好跟踪效果。 相似文献
19.
针对运动想象脑电(MI-EEG)多分类问题,在已有研究的基础上进行改进,构建了基于深度可分离卷积的轻量级卷积神经网络(L-Net)和轻量级混合网络(LH-Net),并在BCI竞赛Ⅳ-2a四分类数据集上进行了实验和分析,结果表明:L-Net比LH-Net可以更快地拟合数据,训练时间更短;但LH-Net的稳定性比L-Net更好,在测试集上的分类性能具有更好的稳健性,平均准确率和平均Kappa系数比L-Net分别提高了3.6个百分点和4.8个百分点。为了进一步提升模型分类性能,采用了基于时频域的高斯噪声添加新方法对训练样本进行数据增强(DA),并针对噪声的强度进行了仿真验证,推测出了两种模型的最优噪声强度的取值范围。仿真结果表明使用了该数据增强方法后,两种模型的平均准确率最少提高了4个百分点,四分类效果均得到了明显提升。 相似文献
20.
为解决光伏出力超短期预测模型精度不足和运算速度慢的问题,本文提出了一种基于数据优化的改进深度学习方法光伏出力超短期预测模型。首先,为提升模型的计算效率,通过数据预处理和动态指数平滑法对样本数据进行优化;随后,应用卷积神经网络算法(CNN)构建的多阶卷积通道合并运算挖掘不同光伏电场间的时空耦合关系,得到反映多光伏电场光伏出力的融合特征值,将得到的融合特征值作为输入,利用改进深度学习算法进行分析,输出不同天气情况下的光伏超短期预测结果,以提高模型的预测精度;最后,基于实测光伏出力数据进行超短期预测,验证所提模型的有效性和准确性。算例分析表明,所提预测模型相比传统的超短期模型具有计算速度快和预测准确度高的优点。 相似文献
|