排序方式: 共有58条查询结果,搜索用时 15 毫秒
21.
23.
互连网络已经成为提升高性能计算系统性能的技术瓶颈。对高性能互连网络中的拥塞控制进行研究,针对通信热点的形成过程,给出了一种基于网络包延迟偏差的硬件动态拥塞控制机制CMDPD,利用网络包传输延迟偏差预判网络拥塞状态,控制端到端网络注入,避免拥塞形成。构建了模拟环境,在Fat-tree和Dragonfly两种网络结构下,对CMDPD进行了模拟实验。结果表明,在Fat-tree网络中CMDPD的吞吐率可提高5%~12%。 相似文献
24.
大规模三角线性方程求解是科学与工程应用中重要的计算核心,受限于处理器的缓存容量和结构设计,其在CPU和GPU等平台上的计算效率不高。大规模三角线性方程的分块求解中,矩阵乘是主要运算,其计算效率对提升三角线性方程求解的计算效率至关重要。以矩阵乘计算效率较高的矩阵乘协处理器为计算平台,针对其结构特点提出了矩阵乘协处理器上大规模三角线性方程分块求解的实现方法和性能分析模型。实验结果表明,矩阵乘协处理器上大规模三角线性方程求解的计算效率最高可达85.9%,其实际性能和资源利用率分别为同等工艺下GPU的2.42倍和10.72倍。 相似文献
25.
飞机多目标优化设计网格的研究与应用 总被引:1,自引:0,他引:1
针对飞机多目标拓扑优化提出一种通用的遗传算法计算模型,在此模型基础上,基于对等计算(P2P)技术将分布的计算资源整合为高性能计算环境,以网格服务方式提供统一的资源服务和可视化的用户使用环境,实现多目标优化设计网格,解决飞机设计中遇到的复合材料多目标拓扑优化问题.首先对系统体系结构以及多目标遗传算法做出较详细的描述,然后以优化某型大展弦比机翼为例,给出一组实验数据.结果证明,该系统大大缩短了计算时间,具有良好的并行加速效果. 相似文献
26.
提出了两种高基Montgomery模乘线性阵列结构。两种线性阵列结构分别利用两种不同的并行化开发方法,沿不同的循环维度进行任务分配和调度,都能够充分开发算法的流水线并行。在Xilinx XC5VLX330 FPGA上实现了两种256位宽、基为216的模乘阵列结构。实验结果表明,两种结构具有84个时钟周期的延迟,吞吐率分别为1/17和1/21,与相关结构相比吞吐率更高。两种结构在性能和实现代价间能够达到合理平衡。 相似文献
27.
在分析分布共享存储系统中假共享及多写算法对系统性能影响的基础上,提出了一种简单有效的有限多写方法-直接收集方法,DC方法兼收单写和多写算法的优点,实现了单写与多写的自动衔接,同时取消了通常多写方法中的Twin和Diff,简化了多写的实现。文中还给出了与传统的单写与多写方法的比较测试结果。 相似文献
28.
在科学计算和大数据处理应用需求的推动下,高性能计算机的性能不断提升、系统规模日益扩大,系统功耗越来越成为制约能力提升的重要瓶颈.在深入分析现有4类高性能计算机的基础上探讨了2项关键技术:1)可重构微服务器(reconfigurable micro server,RMS)技术.解决单个计算节点在领域应用加速能力、系统功耗和体积间的平衡兼顾问题.2)自治与分治相结合的集群构造技术.解决基于微小型化计算节点的大规模计算平台构造与扩展性问题.在此基础上,提出了一种新型的高效多用计算平台架构——“蚁群”,构建了包含2 048个低功耗、微小型化RMS计算节点的蚁群平台原型系统,并实现了大规模指纹实时比对和多RMS节点协同排序2个典型应用.测试表明,单个RMS节点的指纹比对性能是Xeon单核的34倍,功耗仅5W,整个原型系统可实现千万量级指纹库的数百并发实时查询;蚁群平台的数据排序性能功耗比是GPU平台的10倍以上,有效提升数据排序的效率. 相似文献
29.
30.
能效比是未来高性能计算机需要解决的重要问题.众核处理器作为高性能计算机的重要实现手段,其微结构的优化设计对能效比提升尤为关键.提出了1种面向众核处理器的流水线紧耦合的指令循环缓存设计,以较小的L0指令缓存提供更加高能效的指令取指.作为体系结构研究同硬件可实现性紧密结合的1次尝试,设计始终考虑了硬件实现代价这一关键约束.为了控制L0指令缓存对流水线性能的影响,指令缓存采用了循环出口预取技术,以此保证指令缓存提供的低功耗的指令取指能够最终转化为流水线能效比的提升.在gem5模拟器上实现了对指令循环缓存的模拟.对SPEC2006的测试结果表明,在不影响流水线性能的前提下,设计的典型配置可以减少27%的指令取指功耗以及31.5%的流水线前段部件动态功耗. 相似文献