排序方式: 共有17条查询结果,搜索用时 46 毫秒
1.
非规则、核外计算既是大规模并行应用普遍存在的问题,也是影响大规模并行应用效率的关键问题.本文从并行处理模型、运行支持库实现和并行优化三个方面对非规则、核外计算技术进行了全面综述,并对典型研究成果的特点和不足进行了分析.如何充分利用系统结构的特点和应用数据本身的特点,寻求非规则、核外计算处理的优化是现有技术发展的共同思想.在此基础上,指出了处理两类问题的技术相关性以及在SMP集群系统结构和网络存储环境下,解决非规则、核外计算的新思路:一是从问题描述、编译优化、运行支持等多层次协同研究充分利用系统结构特点的优化技术,二是从应用问题出发,在并行粒度确定、并行范例选择等方面统一非规则、核外计算的处理,三是研究新的支持非规则通信的优化技术和动态负载均衡方法. 相似文献
2.
联邦学习是一种针对数据分布于多个客户端的环境下,客户端共同协作训练模型的分布式机器学习方法。在理想情况下全部客户端均参与每轮训练,但是实际应用中只随机选择一部分客户端参与。随机选择的客户端通常不能全面反映全局数据分布特征,导致全局模型训练效率和模型精度降低。为此,提出一种基于本地模型质量的客户端选择方法 ChFL。分析影响模型精度和收敛速度的重要因素,提取可反映客户端模型质量的损失值和训练时间2个重要指标。通过对本地损失值和训练时间融合建模,用于评估客户端模型质量。在此基础上,基于客户端质量指导客户端选择,同时与随机选择策略进行一定比例的结合,以提高全局模型精度。通过选择具有高质量的数据且计算性能较优的客户端参与训练,提升模型精度并加快收敛速度。在FEMNIST、CIFAR-10、MNIST、CINIC-10和EMNIST数据集上的实验结果表明,相比3种基线算法FedAvg、FedProx、FedNova,将ChFL与基线算法相结合后的收敛速度平均加快约10%,准确率平均提高4个百分点。 相似文献
3.
高效的并行有限差分Stencil 算法对于求解大型线性方程组是十分重要的.针对并行有限差分Stencil 算法中数据局部性差、同步和通信开销大的问题.首先改进传统有限差分Stencil 算法,提出了多层对称遍历有限差分Stencil 算法.然后给出了以迭代空间条块序作为执行序的串行算法,通过沿时间轴对迭代空间进行时滞划分,在不改变迭代算法性质的同时,对迭代空间条块内部多次迭代计算,提高算法的数据局部性.最后提出一种基于迭代空间条块的并行算法,该算法利用改进的多面体模型对迭代空间网格划分,并通过网格条块重排序减少了Cache 缺失率、通信启动和同步次数.理论分析和实验结果表明,该并行模型比传统的区域分解方法和红黑排序并行算法具有更好的数据局部性,并行效率和可扩展性. 相似文献
4.
5.
混合撕裂有限元法(Hybrid Total Finite Element Tearing and Interconnecting method,HTFETI)适用于求解结构力学、热力学等问题,是一种非重叠的区域分解方法,适用于大规模求解.但是在异构计算平台上对反应堆堆芯组件进行数值模拟时,采用混合撕裂有限元法会出现进程内和进程间的负载不均衡现象.在混合撕裂有限元求解器中,最主要的计算是稠密矩阵向量乘.针对进程内和进程间出现的负载不均衡现象,本文实现了动态负载均衡技术,充分利用了节点内和节点间的处理器资源,加快求解速度.最后,本文通过数值实验验证了上述优化技术能够加快混合撕裂有限元法的求解速度8.2%~9.4%. 相似文献
6.
数据中心工作负载混合部署在显著提升云数据中心的资源利用率的同时,也增加了调度的复杂性和作业的失效率.以阿里云发布的数据中心日志数据集cluster-trace-v2018为例,从离线批处理工作负载角度出发,详细地分析了不同类型工作负载在成功率和资源利用上的特征.主要发现如下:1)少量类型作业的失效会影响集群整体作业成功率并造成集群资源的浪费;2)伏羲分布式调度系统在任务故障切换执行时间上满足高斯分布,在任务调度延迟方面满足齐夫分布;3)通过分析失败实例在集群节点上的分布,发现集群作业发生失败在空间上具有随机性,且失败的实例很容易再次发生失败,而在时间上集群整体失败率则存在不平衡性;4)以任务实例的失效为基准,计算了集群节点的平均无故障时间,大部分节点的平均无故障时间在1000 s左右,小部分节点的任务实例失效率低,其平均无故障时间可达10000 s以上. 相似文献
7.
8.
边缘视频处理可以降低云平台视频处理系统的视频传输时延、视频处理开销和存储成本,但是视频参数(分辨率、帧率等)的多样性容易导致边缘视频处理的效果不尽人意。通常,在图像预处理阶段会先对图像进行缩放变换再进行后续处理,以保障图像处理的最佳效果,但是在视频监控等具有不确定性的场景中对所有分辨率的图像直接成倍缩小容易降低目标检测率。基于以上问题,把图像水平像素点和垂直像素点的缩放倍数记作图像缩放因子,对于不同分辨率的视频数据,分析了图像缩放因子对视频数据处理效果的影响,提出了图像缩放因子动态设置方案。该方案以系统性能指标(服务器端系统功耗和内存使用率)为视频处理性能指标(人脸检测率)的约束条件,获取该分辨率下人脸检测率最优时对应的图像缩放因子。实验结果表明,对于不同分辨率的视频数据,图像缩放因子动态设置方案可以在保证视频处理性能的基础上,减少系统功耗和内存使用率,提高视频处理效率。 相似文献
9.
迭代空间交错条块并行Gauss-Seidel算法 总被引:1,自引:0,他引:1
针对并行GS(Gauss-Seidel)迭代算法中数据局部性差、同步和通信开销大的问题,首先改进传统GS迭代,提出了多层对称GS迭代算法.然后给出了以迭代空间条块序作为执行序的串行执行模型.该模型通过对迭代空间进行"时滞"划分,对迭代空间条块内部多次迭代计算,提高算法的数据局部性.最后提出一种基于迭代空间条块的并行执行模型.该模型改进了迭代空间网格划分,并通过网格条块重排序减少了cache缺失率、通信启动和同步次数.实验结果表明,迭代空间交错条块并行算法比传统的区域分解方法和红黑排序并行算法具有更好的并行效率和可扩展性. 相似文献