期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

400MPa级细晶粒螺纹钢筋的生产开发 总被引：1，自引：0，他引：1

张先轶吴惠英陈华斌李刚王云川《钢铁》2010,45(1)

针对现有工艺设备,以20MnSi坯料为母材,通过调整化学成分,修改精轧孔型设计参数,采用控制轧制和控制冷却工艺,成功地生产铁素体晶粒尺寸在5～10μm的400 MPa级细晶粒钢筋。相似文献

2.

Memory E?cient Two-Pass 3D FFT Algorithm for Intelr Xeon PhiTM Coprocessor

下载免费PDF全文

刘益群李焱张云泉张先轶《计算机科学技术学报》2014,(6)

Equipped with 512-bit wide SIMD instructions and large numbers of computing cores, the emerging x86-based Intelr Many Integrated Core (MIC) Architecture provides not only high floating-point performanc... 相似文献

3.

基于延迟隐藏因子的GPU 计算模型

袁良张云泉龙国平王可张先轶《软件学报》2010,21(Z1):251-262

近年来在生物计算,科学计算等领域成功地应用了GPU 加速计算并获得了较高加速比.然而在GPU 上编程和调优过程非常繁琐,为此,研究人员提出了许多提高编程效率的编程模型和编译器,以及指导程序优化的计算模型,在一定程度上简化了GPU上的算法设计和优化,但是已有工作都存在一些不足.针对GPU低延迟高带宽的特性,提出了基于延迟隐藏因子的GPU 计算模型,模型提取算法隐藏延迟的能力,以指导算法优化.利用3 种矩阵乘算法进行实测与模型预测,实验结果表明,在简化模型的情况下,平均误差率为0.19. 相似文献

4.

HRBF500螺纹直条的质量控制要点

张先轶吴惠英陈华斌李刚王云川韩德飞《工业建筑》2009,39(11)

以20MnSi坯料为基本成分,通过调整化学成分,修改精轧孔型设计参数,采用控制轧制和控制冷却工艺,成功地生产铁素体晶粒尺寸在5~10μm的500 MPa级细晶粒钢筋。结合500 MPa级细晶粒螺纹直条的开发经验,对影响产品质量的若干因素进行分析,并提出解决办法。相似文献

5.

永钢SWRCH35K冷镦钢盘条的质量控制要点

张先轶李刚韩德飞王云川《冶金标准化与质量》2010,48(1):18-21

永钢立足现有工艺装备,通过调整化学成分,明确转炉冶炼、LF精炼、连铸和高线轧制等过程的质量控制点,成功生产出SWRCH35K冷镦钢盘条。结合永钢SWRCH35K的开发经验,分析了该钢种生产过程的质量控制要点,并提出改进措施。相似文献

6.

P-QuantWiz:一种基于质谱的并行非标记定量软件

下载免费PDF全文

胡泽林张云泉王靖张先轶《计算机工程与科学》2009,31(11)

本文设计并实现了基于质谱的非标记定量软件QuantWiz,通过改变肽段定量的顺序,提高了定量软件的时间局部性和质谱数据缓存的命中次数。分析了QuantWiz的多种数据并行策略,设计并实现了按保留时间划分的并行定量软件P-QuantWiz。通过实验验证P-QuantWiz具有良好的并行效率,当进程数为32时,并行效率为63%。相似文献

7.

基于混合精度算法的改进HPL软件包

下载免费PDF全文

王磊张云泉刘芳芳张先轶《计算机工程》2010,36(19):47-49

利用求解线性方程组的混合精度算法,对HPL软件包进行改进。从性能与加速比、迭代时间与迭代次数以及误差分析3个方面,在四路AMD Opteron870双核处理器平台上,对原HPL与改进的HPL软件包进行对比测试。实验结果表明,改进的HPL软件包在保证双精度浮点精度要求的前提下,计算性能大约提高1倍,并具有良好的可扩展性。相似文献

8.

BLAS 库在多核处理器上的性能测试与分析

陈少虎张云泉张先轶程豪《软件学报》2010,21(Z1):214-223

BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS 的多核并行性能已经变得比与体系结构相关的单核性能更加重要.实验以流行于高性能计算的Xeon、Opteron 系列多核X86 处理器为例,全面测试了GotoBLAS、Atlas、MKL 和ACML 四种主流的BLAS 库的所有1,2,3 级函数,并覆盖了不同计算规模和多核并行方面的测试.通过测试结果,分析源代码、BLAS 库资料和论文的方式,分析BLAS 有效的优化和并行方法,以及它们所适合的平台.为BLAS 的优化、使用,甚至高性能处理器的发展上提供有益的建议.实验结果表明,比起一个逻辑处理强大但是复杂的处理器,一个cache 更大、性能更好,内存带宽更宽、延迟更小,主频更高的处理器往往能在高性能计算中取得更好的性能.同时,X86 平台上的状况对其他体系结构也有巨大的借鉴意义. 相似文献

9.

六边形区域快速傅里叶变换的CUDA-MPI算法及其实现

陈家杰李会元张先轶《数值计算与计算机应用》2012,33(1):59-72

本文研究六边形区域上快速傅里叶变换(FFTH)的CUDA-MPI算法及其实现.首先,我们通过充分利用CUDA的层次化并行机制及其库函数,设计了FFTH的高效率的CUDA算法.对于规模为3×2048~2的双精度复数类型数据,我们设计的CUDA程序与CPU串行程序相比可以达到12倍加速比,如果不计内存和显存之间的数据传输,则加速比可达40倍;其计算效率与CUFFT所提供的二维方形区域FFT程序的效率基本一致.在此基础上,我们通过研究GPU上分布式并行数据的转置与排序算法,优化设计了FFTH的CUDA-MPI算法.在3×8192~2的数据规模、10节点×6GPU的计算环境下,我们的CUDA-MPI程序与CPU串行程序相比达到了55倍的加速;其效率比MPI并行版FFTW以及基于CUFFT本地计算和FFTW并行转置的方形区域并行FFT的效率都要高出很多.FFTH的CUDA-MPI算法研究和测试为大规模CPU+GPU异构计算机系统的可扩展新型算法的探索提供了参考. 相似文献

10.

基于Julia语言的并行计算方法初探

巩庆奎张常有张先轶张云泉《计算机科学》2015,42(1):44-46

Julia语言是一种在MIT许可证下免费的开发中脚本语言(beta 0.2.0),目标是降低并行程序的编程难度.基于Julia现有语法机制,逐步增强Julia语法特性,结合公交线路的平均走行时间统计案例,研究Julia并行编程框架和程序逐步精化的方法.Julia程序支持本地多核心/多CPU并行计算.为充分发挥实验平台的计算潜能,尝试了提高Julia程序计算性能的策略.对案例程序的实验分析表明,Julia并行程序在管理计算核心方面耗费了一定的工作时间,但随着问题规模的增大,其影响可逐渐忽略,从而可获得接近线性的加速比. 相似文献