期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘晓娴赵荣彩丁锐李雁冰《计算机应用》2013,33(8):2171-2176

当计算划分层迭代数目较大,或是循环体单次迭代工作量较大,但可用的并行线程数目较小时,传统的基于循环分块的流水粒度优化方法无法进行处理。为此,提出一种基于循环分块减小流水粒度的方法,并根据流水并行循环的代价模型实现最优流水粒度的求解,设计实现了一个流水计算粒度的优化算法。对有限差分松弛法(FDR)的波前循环和时域有限差分法(FDTD)中典型循环的测试表明,与传统的流水粒度选择方法相比,所提算法能够得到更优的循环分块大小。相似文献

2.

面向OpenMP自动并行化的代价模型

李雁冰赵荣彩刘晓娴赵捷《软件学报》2014,25(S2):101-110

现有的OpenMP代价模型较为简单,既没有充分考虑OpenMP程序的执行细节,也无法适应不同的循环并行执行方式.针对上述问题,对最先进的产品级优化编译器Open64中已有的代价模型进行扩展,以单个并行候选循环为对象,建立一种用于OpenMP自动并行收益分析的代价模型.该模型在改进了Open64原有DOALL并行代价模型的基础上,又增加了DOACROSS流水并行代价模型和DSWP并行代价模型.实验结果表明,建立的代价模型能够较好地评估循环并行执行开销的趋势,为OpenMP自动并行化中的收益分析提供了有效的支持. 相似文献

3.

部分炭化策略制备Si@C材料及其储锂性能研究

下载免费PDF全文

刘晓娴郑娅刘娟喻强李小成韩峰王剑秋《有色金属科学与工程》2022,13(6):50-57

硅因其具有较高的理论比容量（约为3 579 mAh/g,Li₁₅Si₄）而成为最具吸引力的负极材料。为了解决硅材料高达300%的体积膨胀和导电性差等问题,以聚丙烯酸（PAA）、蚕茧提取物丝素蛋白和纳米硅（Si NPs）为原料,通过简单的部分炭化,一步法制备了Si@C_AS电极材料,并系统研究了聚丙烯酸（A）/丝素蛋白（S）的比例和炭化温度对Si@C_AS复合材料电化学性能的影响。结果表明:当聚丙烯酸与丝素蛋白的质量比为1∶1,炭化温度为450 ℃时,所制备的Si@C_AS负极的电化学性能较优,远超Si@C_A和Si@C_S负极材料的电化学性能。Si@C_AS负极材料可在0.5 A/g电流密度下循环200圈后比容量可达1 404.2 mAh/g。同时,该材料展现出了优异的倍率性能,在4 A/g电流密度下比容量仍可达1 452.8 mAh/g。相似文献

4.

面向规则DOACROSS循环的流水并行代码自动生成

刘晓娴赵荣彩赵捷徐金龙《软件学报》2014,25(6):1154-1168

发掘DOACROSS 循环中蕴含的并行性,选择合适的策略将其并行执行,对提升程序的并行性能非常重要.流水并行方式是规则DOACROSS 循环并行的重要方式.自动生成性能良好的流水并行代码是一项困难的工作,并行编译器对程序自动并行时常常对DOACROSS 循环作保守处理,损失了DOACROSS 循环包含的并行性,限制了程序的并行性能.针对上述问题,设计了一种选择计算划分循环层和循环分块层的启发式算法,给出了一个基于流水并行代价模型的循环分块大小计算公式,并使用计数信号量进行并行线程之间的同步,实现了基于OpenMP 的规则DOACROSS 循环流水并行代码的自动生成.通过对有限差分松弛法（finite difference relaxation,简称FDR）的波前（wavefront）循环和时域有限差分法（finite difference time domain,简称FDTD）中典型循环以及程序Poisson,LU 和Jacobi 的测试,算法自动生成的流水并行代码能够在多核处理器上获得明显的性能提升,使用的流水分块大小计算公式能够较为精确地计算出循环流水并行时的最佳分块大小.自动生成的流水并行代码与基于手工选择的最优分块大小的流水并行代码相比,加速比达到手工选择加速比的89%. 相似文献

5.

面向异构系统的OpenMP程序自动生成

下载免费PDF全文

刘晓娴黄品丰《信息工程大学学报》2012,13(4):489-495

异构系统的应用日益广泛.对一般的应用程序员而言,在异构体系结构上开发出高性能的应用程序并非易事.对OpenMP编程模型进行扩展,添加了适用于异构系统存储模型的编译子句;以Open64编译器为基础,实现了包含扩展子句OpenMP并行程序的自动生成.测试结果表明,自动生成的扩展OpenMP并行程序能够在异构系统上获得明显的性能提升. 相似文献

6.

面向DSWP并行的OpenMP任务调度机制的扩展与实现

刘晓娴赵荣彩丁锐《计算机科学》2013,40(9):38-43

多核处理器能够提升多线程程序的性能,但早已存在的诸多单线程程序无法从中获益,程序员也习惯于编写单线程程序.自动并行化技术是将单线程程序移植到多核上的重要手段,但是当循环中存在无法确定的数据依赖或复杂的控制流时,传统的自动并行化技术无法取得良好效果.Ottoni等人针对传统自动并行失败的循环提出了Decoupled Software Pipelining(DSWP)算法用以实现指令级的细粒度并行,但其需要对处理器体系结构的深入了解以及对核间通信队列和专用指令的硬件支持,并行性能和应用广泛性受到限制.基于OpenMP应用编程接口实现的DSWP并行不依赖于硬件上对核间通信队列和专用指令的支持,且不受平台的限制,但现有的OpenMP任务调度机制无法满足DSWP并行中对任务调度的需求.对现有的OpenMP任务调度机制进行扩展,增加了任务与线程绑定的属性,保证了基于OpenMP的DSWP并行程序的正确执行.在GCC的OpenMP运行库libgomp中扩展了任务绑定属性子句的功能,扩展后的GCC作为OpenMP DSWP程序的基础编译器,为自动并行提供支持.通过对基准测试集NPB3.3.1的测试表明,传统自动并行失败的循环,经OpenMP DSWP自动并行后在双核处理器上平均加速比达到1.23以上;使用添加了OpenMP DSWP算法的Open64编译器生成的并行程序,与仅使用传统自动并行方法的Intel 编译器和Open64编译器所得程序相比,平均加速比分别高出22％和26％. 相似文献

7.

OpenMP数据分布子句自动生成算法

黄品丰赵荣彩韩林刘晓娴《计算机工程》2013,39(3):295-299

将OpenMP程序扩展到异构多核结构时,非本地存储访问会导致访存开销增加,影响程序性能。针对该问题,引入带数组划分信息的数据分布子句,对数据在异构多核存储系统的布局进行管理,提出一种基于并行循环识别和数组引用模式分析的算法,实现该类子句的自动生成。实验结果表明,自动生成的OpenMP程序包含数据分布子句,具有较好的数据局部性,可降低访存开销,在异构多核系统上获得明显的性能提升。相似文献

8.

消除冗余通信的暴露集求解算法

下载免费PDF全文

刘晓娴赵荣彩梁玲《计算机工程》2009,35(11):35-37

针对分布存储结构计算机系统在并行编译过程中存在的问题,提出一种消除冗余通信的暴露集求解算法,分另4采用数组数据流分析和自干扰分析技术对嵌套循环中的流依赖和输入依赖进行分析,从而得到暴露集空间。仿真实验结果表明,将该算法所得结果作为后端生成数据分布通信代码的依据,可有效消除冗余通信,提高系统整体性能。相似文献