排序方式: 共有15条查询结果,搜索用时 15 毫秒
1.
针对Trace驱动的并行性能模拟问题,提出基于Trace信息指导的映射方法CO-LP3M。CO-LP3M利用从Trace中提取的目标应用程序的通信特征,以宿主机物理进程间通信次数最小化为目标,兼顾计算负载均衡,生成并行模拟任务到宿主机的映射。对Jacobi3D和HPL两个程序进行实验改为:对HPL程序进行实验(注:此处本来是两个程序的,后来为了缩减篇幅就删掉了其中的一个),结果表明CO-LP3M可有效提高并行模拟性能,相对于常见的映射方式,模拟性能最多提高14.7%。在此基础上给出CO-LP3M的扩展技术SCO-LP3M。 相似文献
2.
在机械位移量的测量中,光栅、磁栅、标准式感应同步器等都是属于相对坐标测量系统的位移测量装置。这种测量系统的缺点是,装置受干扰影响后,不能恢复先前的工作状态。这里所介绍的多坐标定尺励磁三重式感应同步器数显装置,能克服上述缺点。它由三重式感应同步器和数显表两部分组成,其数显表按三重式感应同步器三个独立通道,组成三个独立而又互相关联的闭环跟踪系统,以实现大范围直线位移的绝对坐标测量。 相似文献
3.
高光谱遥感影像降维最大噪声分数变换(maximum noise fraction rotation,简称MNF rotation)方法运算量大,耗时长.基于多核CPU与众核MIC(many integrated cores)平台,研究MNF算法的并行方案和性能优化.通过热点分析,针对滤波、协方差矩阵运算和MNF变换等热点,提出相应并行方案和多种优化策略,量化分析优化效果,设计MKL(math kernel library)库函数实现方案并测评其性能;设计并实现基于多核CPU的C-MNF和基于CPU/MIC的M-MNF并行算法.实验结果显示,C-MNF算法在多核CPU取得的加速比为58.9~106.4,而基于CPU/MIC异构系统的M-MNF算法性能最好,加速比最高可达137倍. 相似文献
4.
5.
随着处理器设计转向使用专门的异构多核以避免功耗墙的影响,软件开发人员发现很难处理这些处理器系统的复杂性。以Matrix-3000为代表的新型处理器具有复杂的内存层次结构和处理器组织,是为下一代E级超级计算机设计的高性能处理器。本文分享了我们为Matrix-3000开发的并行编程模型及其支持编译器和库的经验。为了帮助软件开发,我们从头开始开发了一个针对Matrix-3000的软件栈,包括一个低层次的编程接口和一个高层次的OpenCL编译器。该低层次编程模型为使用Matrix-3000的裸金属加速器提供了原生编程支持,而高层次模型允许程序员使用OpenCL并行编程标准。我们详细介绍了该软件栈的设计选择,并强调了从开发系统软件中学到的经验教训,以实现裸金属加速器的高效程序编写和性能解锁。我们的编程模型已经被部署到一个E级原型系统的生产环境中。 相似文献
6.
LP到PP的高效映射是加速并行性能模拟的关键技术之一。针对交互规则的并行应用程序,设计映射生成方法A2-LP3M从Trace中提取LP间的交互模式,以宿主机物理进程间通信最小化为目标,兼顾计算负载平衡,从循环块映射中选取合适的映射方式。实验表明,相对于常规映射方法,A2-LP3M减少并行模拟时间最多可达16.2%。 相似文献
7.
用OpenCL语言标准设计并实现了推荐系统领域的两种经典算法:交替最小二乘法(Alternating Least Squares,ALS)与循环坐标下降法(Cyclic Coordinate Descent,CCD)。将其应用到CPU,GPU,MIC多核与众核平台上,探索了在该平台上影响算法性能的因子:潜在特征维数与线程个数。同时,将OpenCL实现的两种算法与CUDA和OpenMP的实现进行比较,得出了一系列结论。在同等条件下,与ALS算法相比,CCD算法的精度更高,收敛速度更快且更稳定,但所耗时间更长。ALS和CCD算法基于OpenCL的实现性能不亚于CUDA(CCD 上加速比为1.03x,ALS上加速比为1.2x)和OpenMP的实现(CCD与ALS上加速比大约为1.6~1.7x),并且两种算法在CPU平台上的性能均比GPU与MIC好。 相似文献
8.
9.
深入分析了飞腾处理器FT 1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个开源代码移植到飞腾处理器和商用处理器上,探讨了该软件在两个平台上的单核性能与多核性能,分析了性能差异的原因并提出了相应的优化建议。认为FT 1500A已经有良好的生态基础(操作系统、编译器和工具链),使得移植典型科学计算程序简单可行,虽然跟商用平台相比,飞腾处理器在性能上存在着差距,但考虑到其在功耗上的优势,飞腾处理器将是一个非常具有应用前景的平台。 相似文献
10.
同步策略是并行离散事件模拟的关键技术之一。POSE是一种面向对象的可扩展的计算机体系结构并行模拟框架,可进行大规模系统的并行模拟。剖析了POSE框架中的乐观同步策略,按照时间窗口调整状况将其自适应策略分为半自适应策略和完全自适应策略;对自适应乐观同步策略的模拟速度与精度进行了深入的测试比较,发现经过调整半自适应乐观策略能够取得更好的性能;也发现现有完全自适应算法中存在窗口调节反馈滞后和GVT计算开销过大等问题,是其乐观策略优化的方向之一。 相似文献