首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   12篇
  免费   0篇
水利工程   1篇
无线电   1篇
自动化技术   10篇
  2023年   1篇
  2022年   2篇
  2021年   1篇
  2020年   1篇
  2018年   1篇
  2017年   2篇
  2016年   2篇
  2012年   2篇
排序方式: 共有12条查询结果,搜索用时 31 毫秒
1.
本文首先分析了多核系统中二级Cache私有和共享管理方式的优缺点.并在此基础上,分析了现有的基于私有和共享方式的优化策略,现有的优化策略均通过混合私有和共享的方式在Cache访问延迟和Cache命中率之间找到一种平衡.  相似文献   
2.
3.
在科学计算领域,数据规模随着数值模拟精度要求的提高而快速增长,以DRAM为主存的传统方案由于成本高而难以扩展容量,近年来越来越被关注的持久内存技术有望解决这一问题。持久内存是在DRAM和SSD之间的补充,相比DRAM,持久内存具有容量大、性价比高的优点,但是性能也相对较低。为测试持久内存的应用性能,面向科学计算的一个重要领域——计算流体力学(CFD),对Intel持久内存进行性能评估。实验中,持久内存采用了最易于使用的内存模式,源码不需要任何修改,测试程序涵盖内存基准测试和3种常见的CFD算法,实验结果表明,在内存模式下,对不同CFD算法,相比纯DRAM的配置,持久内存的引入会带来一定的性能损失,且该损失随数据规模的增加而增大;另一方面,持久内存的部署使单服务器能支撑超大数据规模的数值模拟。  相似文献   
4.
5.
神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R) Xeon(R) CPU E5-2695 v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。  相似文献   
6.
湍流燃烧问题的数值模拟是航空发动机设计的关键工具.由于需要使用高精度计算模型求解NS方程,湍流燃烧的数值模拟需要庞大的计算量,而物理化学模型的引入则导致流场极为复杂,使得计算域内的负载平衡问题成为大规模并行计算的瓶颈.为此文中将湍流燃烧的数值模拟方法在单台具有强大计算能力的服务器——DGX-2上进行移植和优化,设计了通量计算的线程分配方式,并以Roofline模型为工具分析指导了实际的优化方向.此外,还设计了高效的数据通信方式,并结合DGX-2的高速互联实现了湍流燃烧数值模拟方法的多GPU并行版本.实验结果表明,相较于双路Intel Xeon 6248 CPU 40核心的并行版本,迭代过程的计算部分在单块V100上获得了8.1倍的性能提升,在DGX-2共16块V100上达到了66.1倍的加速,优于CPU并行版本所能达到的最高性能.  相似文献   
7.
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil 程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。  相似文献   
8.
用数值模拟研究沉浮运动机翼的推力来源,并分析了雷诺数、沉浮幅度、翼型厚度以及外形等因素的影响。结果表明:非定常情况下的流场和流体动力与定常情况下完全不同;不同条件下粘性力和压差力对推力的贡献也很不一样;流体动力与流场涡结构密切相关,在某些情况下粘性力有可能成为推力的主要来源。  相似文献   
9.
CMP中二级Cache多采用分布式结构,其中有两种基本管理方式:共享方式和私有方式。共享方式能最大程度利用二级Cache容量空间但却有高的平均访问延迟;私有方式能提供低访问延迟,但由于数据块副本的存在减少了Cache有效容量,因而增加了Cache缺失率。本文提出了基于私有方式的副本动态控制策略,能根据实际应用程序的执行程序情况动态控制副本数据块的数量,从而提高二级Cache性能。  相似文献   
10.
张劼  文敏华  林新华  孟德龙  陆豪 《计算机科学》2018,45(5):291-294, 321
风险价值(Value at Risk,VaR)是风险管理的基本工具,可对现有头寸的下行风险提供量化衡量方法。基于历史模拟法的VaR(Historical VaR)是最流行的计算方法之一,被广泛应用于世界各大金融机构。对金融产品进行实时或准实时的VaR计算,对于及时规避金融风险具有重要意义。由于金融产品日益复杂,产品数量持续增长,现有CPU计算平台上的计算能力已经难以满足VaR的性能需求。为解决这一问题, 在GPU上使用CUDA 对Historical VaR的计算代码进行了实现和优化。通过改进排序算法、基于Multi-stream 隐藏通讯时间、解耦数据依赖并实现细粒度并行等优化方法,CUDA版本的VaR计算性能比优化后的CPU单核性能提升了42.6倍,为快速计算超大数量债券的VaR提供了有效的解决方案。以上优化方法也可以为金融领域内其他算法的GPU化提供思路。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号