首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   7篇
  免费   3篇
  国内免费   1篇
建筑科学   1篇
无线电   2篇
冶金工业   1篇
自动化技术   7篇
  2023年   4篇
  2022年   1篇
  2021年   1篇
  2020年   2篇
  2019年   2篇
  2011年   1篇
排序方式: 共有11条查询结果,搜索用时 0 毫秒
1.
2.
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。  相似文献   
3.
组织病理学是临床上肿瘤诊断的金标准,直接关系到治疗的开展与预后的评估。来自临床的需求为组织病理诊断提出了质量与效率两个方面的挑战。组织病理诊断涉及大量繁重的病理切片判读任务,高度依赖医生的经验,但病理医生的培养周期长,人才储备缺口巨大,病理科室普遍超负荷工作。近年来出现的基于深度学习的组织病理辅助诊断方法可以帮助医生提高诊断工作的精度与速度,缓解病理诊断资源不足的问题,引起了研究人员的广泛关注。本文初步综述深度学习方法在组织病理学中的相关研究工作。介绍了组织病理诊断的医学背景,整理了组织病理学领域的主要数据集,重点介绍倍受关注的乳腺癌、淋巴结转移癌、结肠癌的病理数据及其分析任务。本文归纳了数据的存储与处理、模型的设计与优化以及小样本与弱标注学习这3项需要解决的技术问题。围绕这些问题,本文介绍了包括数据存储、数据预处理、分类模型、分割模型、迁移学习和多示例学习等相关研究工作。最后总结了面向组织病理学诊断的深度学习方法研究现状,并指出当下研究工作可能的改进方向。  相似文献   
4.
舒嘉明  安虹  武铮  陈俊仕 《计算机工程》2019,45(12):153-159
神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重用和软件流水等方法降低从核访存开销,利用手动向量化的方法充分发挥从核浮点的计算能力。实验结果表明,与基础7层循环算法、gemm算法和Intel平台上的MKL-DNN算法相比,该算法的加速性能较好。  相似文献   
5.
矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%.  相似文献   
6.
作为深度学习领域中最具有影响力的网络结构之一,卷积神经网络朝着更深更复杂的方向发展,对硬件计算能力提出了更高的要求,随之出现了神经网络专用处理器.为了对这类处理器进行客观比较,并指导软硬件优化设计,本文针对卷积神经网络提出了宏基准测试程序和微基准测试程序.其中,宏基准测试程序包含主流的卷积神经网络模型,用于处理器性能的多方位评估和对比;微基准测试程序包含卷积神经网络中的核心网络层,用于细粒度定位性能瓶颈并指导优化.为了准确描述这套基准测试程序在真实硬件平台上的性能表现,本文选取了I/O等待延迟、跨节点通信延迟和CPU利用率3大系统性能评测指标以及IPC、分支预测、资源竞争和访存表现等微架构性能评测指标.基于评测结果,本文为处理器的硬件设计与架构改进提出了可靠建议.  相似文献   
7.
人文体育教育内容体系是建立以人为本,注重健身,发展学生个性,培养体育能力,形成锻炼习惯为中心的新内容体系,在不轻视体育生物功能的同时,重视体育对人的社会化作用和文化传递功能.  相似文献   
8.
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴.  相似文献   
9.
针对极化复用模式中引入的交叉极化干扰问题,利用一种基于独立成分分析(ICA)的盲分离算法,无需信号先验知识和后续解调即可从观测信号中分离出源信号,达到消除极化干扰的目的。该算法基于线性瞬时混合模型,对峭度对比函数进行精确线性搜索优化,选取最佳步长,解决了盲分离信号中的排序问题。文中对不同信噪比和极化隔离度下的分离效果进行了仿真,仿真结果表明,该算法具有较好的分离性能,且在强交叉极化干扰和低信噪比下的性能较为稳定。  相似文献   
10.
为解决卫星通信中极化复用导致的交叉极化干扰问题,提出了一种基于复数快速独立成分分析方法,根据传输信道的对称性对算法作了简化处理,减少了计算量。该算法依据发送端的两个线极化信号的不相关性,在无源信号及混合矩阵的先验信息情况下,构造负熵函数并使其最大化来分离出独立成分,进而实现交叉极化信号对消。仿真实验以正交相移键控调制信号为例,从误差向量幅度、信干噪比、交叉极化隔离度、性能指数这几个指标上进行仿真,仿真结果显示基于复数快速独立成分分析方法对解决交叉极化干扰问题具有良好的性能。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号