期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

多核中Cache管理策略分析

文敏华张彬《数字通信世界》2016,(3)

本文首先分析了多核系统中二级Cache私有和共享管理方式的优缺点.并在此基础上,分析了现有的基于私有和共享方式的优化策略,现有的优化策略均通过混合私有和共享的方式在Cache访问延迟和Cache命中率之间找到一种平衡. 相似文献

2.

基于航电综合处理平台的RapidIO协议符合性验证

高小雨沈梦雨张磊刚文敏华《电脑编程技巧与维护》2022,(5):11-14,53

相似文献

3.

面向CFD应用的Intel持久内存性能评估

文敏华陈江胡广超韦建文王一超林新华《计算机工程与科学》2022,44(9):1550-1556

在科学计算领域,数据规模随着数值模拟精度要求的提高而快速增长,以DRAM为主存的传统方案由于成本高而难以扩展容量,近年来越来越被关注的持久内存技术有望解决这一问题。持久内存是在DRAM和SSD之间的补充,相比DRAM,持久内存具有容量大、性价比高的优点,但是性能也相对较低。为测试持久内存的应用性能,面向科学计算的一个重要领域——计算流体力学（CFD）,对Intel持久内存进行性能评估。实验中,持久内存采用了最易于使用的内存模式,源码不需要任何修改,测试程序涵盖内存基准测试和3种常见的CFD算法,实验结果表明,在内存模式下,对不同CFD算法,相比纯DRAM的配置,持久内存的引入会带来一定的性能损失,且该损失随数据规模的增加而增大;另一方面,持久内存的部署使单服务器能支撑超大数据规模的数值模拟。相似文献

4.

声子BTE应用的并行和优化研究

文敏华刘永志鲍华胡跃沈泳星韦建文林新华《计算机科学与探索》2020,14(8):1288-1297

相似文献

5.

神威太湖之光上OpenFOAM的移植与优化

孟德龙文敏华韦建文林新华《计算机科学》2017,44(10):64-70

神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R) Xeon(R) CPU E5-2695 v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。相似文献

6.

基于DGX-2的湍流燃烧问题优化研究

文敏华汪申鹏韦建文李林颖张斌林新华《计算机科学》2021,48(12):43-48

湍流燃烧问题的数值模拟是航空发动机设计的关键工具.由于需要使用高精度计算模型求解NS方程,湍流燃烧的数值模拟需要庞大的计算量,而物理化学模型的引入则导致流场极为复杂,使得计算域内的负载平衡问题成为大规模并行计算的瓶颈.为此文中将湍流燃烧的数值模拟方法在单台具有强大计算能力的服务器——DGX-2上进行移植和优化,设计了通量计算的线程分配方式,并以Roofline模型为工具分析指导了实际的优化方向.此外,还设计了高效的数据通信方式,并结合DGX-2的高速互联实现了湍流燃烧数值模拟方法的多GPU并行版本.实验结果表明,相较于双路Intel Xeon 6248 CPU 40核心的并行版本,迭代过程的计算部分在单块V100上获得了8.1倍的性能提升,在DGX-2共16块V100上达到了66.1倍的加速,优于CPU并行版本所能达到的最高性能. 相似文献

7.

使用Stencil评估Intel AVX2 Vgather指令

林新华秦强李硕文敏华松岗聪《计算机科学》2017,44(1):20-24

为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil 程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。相似文献

8.

翼沉浮运动推力来源的数值研究

文敏华胡文蓉刘洪《水动力学研究与进展(A辑)》2012,27(2):154-161

用数值模拟研究沉浮运动机翼的推力来源,并分析了雷诺数、沉浮幅度、翼型厚度以及外形等因素的影响。结果表明:非定常情况下的流场和流体动力与定常情况下完全不同;不同条件下粘性力和压差力对推力的贡献也很不一样;流体动力与流场涡结构密切相关,在某些情况下粘性力有可能成为推力的主要来源。相似文献

9.

CMP中Cache私有方式下副本容量的动态控制

文敏华《计算机光盘软件与应用》2012,(10):39-40

CMP中二级Cache多采用分布式结构,其中有两种基本管理方式:共享方式和私有方式。共享方式能最大程度利用二级Cache容量空间但却有高的平均访问延迟;私有方式能提供低访问延迟,但由于数据块副本的存在减少了Cache有效容量,因而增加了Cache缺失率。本文提出了基于私有方式的副本动态控制策略,能根据实际应用程序的执行程序情况动态控制副本数据块的数量,从而提高二级Cache性能。相似文献

10.

基于历史模拟法的风险价值算法在GPU上的实现和优化

张劼文敏华林新华孟德龙陆豪《计算机科学》2018,45(5):291-294, 321

风险价值(Value at Risk,VaR)是风险管理的基本工具,可对现有头寸的下行风险提供量化衡量方法。基于历史模拟法的VaR(Historical VaR)是最流行的计算方法之一,被广泛应用于世界各大金融机构。对金融产品进行实时或准实时的VaR计算,对于及时规避金融风险具有重要意义。由于金融产品日益复杂,产品数量持续增长,现有CPU计算平台上的计算能力已经难以满足VaR的性能需求。为解决这一问题, 在GPU上使用CUDA 对Historical VaR的计算代码进行了实现和优化。通过改进排序算法、基于Multi-stream 隐藏通讯时间、解耦数据依赖并实现细粒度并行等优化方法,CUDA版本的VaR计算性能比优化后的CPU单核性能提升了42.6倍,为快速计算超大数量债券的VaR提供了有效的解决方案。以上优化方法也可以为金融领域内其他算法的GPU化提供思路。相似文献