首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   8篇
  免费   3篇
  国内免费   1篇
建筑科学   1篇
无线电   2篇
冶金工业   1篇
自动化技术   8篇
  2024年   1篇
  2023年   4篇
  2022年   1篇
  2021年   1篇
  2020年   2篇
  2019年   2篇
  2011年   1篇
排序方式: 共有12条查询结果,搜索用时 15 毫秒
1.
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。  相似文献   
2.
随着深度学习的快速发展,其在语音处理、图像识别和自然语言理解等领域被广泛应用,为科研产业以及日常生活带去了巨大的变革.Intel紧跟深度学习的浪潮,推出了第2代Xeon Phi处理器KNL(knights landing),其后又发布了第3代Xeon Phi处理器KNM(knights mill),为深度学习的蓬勃发展带去了新的活力.通过在Intel平台上进行快速卷积算法Winograd的研究与优化,对比Intel MKL(math kernel library) DNN(deep neural network)中的卷积性能,推动Intel MKL DNN中深度神经网络接口的完善以及Intel平台上深度学习的发展.研究中结合Intel最新深度学习平台的AVX-512指令集、高速内存MCDRAM、多Memory/SNC模式、二维网格状内核结构等特性,并通过对内存分配、数据调度等情况的分析,设计优化Winograd算法,一方面选取典型的卷积神经网络(convolutional neural network, CNN)网络模型VGG19,测试对比Intel MKL DNN的卷积实现,最终取得了2倍多的性能加速比;另一方面,通过测试常用卷积类型,对比Intel MKL DNN和NVIDIA cuDNN,验证了实现的Winograd对于常用卷积类型具有很好的适用性且具有实际使用价值.该研究工作期望为Intel平台在深度学习领域的发展提供重要的指导意义.  相似文献   
3.
组织病理学是临床上肿瘤诊断的金标准,直接关系到治疗的开展与预后的评估。来自临床的需求为组织病理诊断提出了质量与效率两个方面的挑战。组织病理诊断涉及大量繁重的病理切片判读任务,高度依赖医生的经验,但病理医生的培养周期长,人才储备缺口巨大,病理科室普遍超负荷工作。近年来出现的基于深度学习的组织病理辅助诊断方法可以帮助医生提高诊断工作的精度与速度,缓解病理诊断资源不足的问题,引起了研究人员的广泛关注。本文初步综述深度学习方法在组织病理学中的相关研究工作。介绍了组织病理诊断的医学背景,整理了组织病理学领域的主要数据集,重点介绍倍受关注的乳腺癌、淋巴结转移癌、结肠癌的病理数据及其分析任务。本文归纳了数据的存储与处理、模型的设计与优化以及小样本与弱标注学习这3项需要解决的技术问题。围绕这些问题,本文介绍了包括数据存储、数据预处理、分类模型、分割模型、迁移学习和多示例学习等相关研究工作。最后总结了面向组织病理学诊断的深度学习方法研究现状,并指出当下研究工作可能的改进方向。  相似文献   
4.
舒嘉明  安虹  武铮  陈俊仕 《计算机工程》2019,45(12):153-159
神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重用和软件流水等方法降低从核访存开销,利用手动向量化的方法充分发挥从核浮点的计算能力。实验结果表明,与基础7层循环算法、gemm算法和Intel平台上的MKL-DNN算法相比,该算法的加速性能较好。  相似文献   
5.
矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%.  相似文献   
6.
针对极化复用模式中引入的交叉极化干扰问题,利用一种基于独立成分分析(ICA)的盲分离算法,无需信号先验知识和后续解调即可从观测信号中分离出源信号,达到消除极化干扰的目的。该算法基于线性瞬时混合模型,对峭度对比函数进行精确线性搜索优化,选取最佳步长,解决了盲分离信号中的排序问题。文中对不同信噪比和极化隔离度下的分离效果进行了仿真,仿真结果表明,该算法具有较好的分离性能,且在强交叉极化干扰和低信噪比下的性能较为稳定。  相似文献   
7.
作为深度学习领域中最具有影响力的网络结构之一,卷积神经网络朝着更深更复杂的方向发展,对硬件计算能力提出了更高的要求,随之出现了神经网络专用处理器.为了对这类处理器进行客观比较,并指导软硬件优化设计,本文针对卷积神经网络提出了宏基准测试程序和微基准测试程序.其中,宏基准测试程序包含主流的卷积神经网络模型,用于处理器性能的多方位评估和对比;微基准测试程序包含卷积神经网络中的核心网络层,用于细粒度定位性能瓶颈并指导优化.为了准确描述这套基准测试程序在真实硬件平台上的性能表现,本文选取了I/O等待延迟、跨节点通信延迟和CPU利用率3大系统性能评测指标以及IPC、分支预测、资源竞争和访存表现等微架构性能评测指标.基于评测结果,本文为处理器的硬件设计与架构改进提出了可靠建议.  相似文献   
8.

卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题. 随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求. 针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法. 该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算. 整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行. 通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销. 同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案. 最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍. 同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能. 其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%.

  相似文献   
9.
人文体育教育内容体系是建立以人为本,注重健身,发展学生个性,培养体育能力,形成锻炼习惯为中心的新内容体系,在不轻视体育生物功能的同时,重视体育对人的社会化作用和文化传递功能.  相似文献   
10.
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号