排序方式: 共有61条查询结果,搜索用时 15 毫秒
1.
BLAS (Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准, 该库函数分为三个级别, 每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算. 本文研究了在申威1621处理器上BLAS一级函数的优化方案, 以函数AXPY为例, 充分利用平台的架构特点对其进行性能调优,设计了自动的线程分配方案. 实验结果显示优化过后的BLAS一级函数AXPY相对于GotoBLAS参考实现版本的单核和多核加速比分别高达4.36和9.50, 对于每种优化方式均得到了一定的性能提升. 相似文献
2.
硬件数据预取技术可以有效提升处理器的访存性能,是申威处理器性能优化过程中亟需突破的一项技术。硬件开销和处理器架构的制约是硬件预取技术实现中的主要难点。借鉴学术界对硬件预取技术的研究成果和工业界的应用现状,紧密结合申威处理器的结构特点,研究了申威处理器硬件预取技术的实现方法。以流预取为例,在处理器核心面积增加0.97%的情况下,硬件预取技术的应用可以将目前申威处理器的整数性能平均提升5.17%,最高提升28.88%;浮点性能平均提升6.39%,最高提升30.11%。 相似文献
3.
随着内置DVD刻录机的不断提速.DVD刻录机厂商生产的外置产品也开始逐步提速。这款BenQ的EW1621就是一款性能指标与目前顶级的内置DVD刻录机不相上下的产品。 相似文献
4.
申威作为全自主的国产CPU之一,较少参与民用市场,在该平台上的应用和支持相对较少。作者在项目中需要采用申威平台进行Java服务的部署,对申威平台上Java项目的支持软件的编译、测试和部署进行学习和研究。本文以Mysql5.7为例介绍了开源linux软件的编译安装方法,最后给出了基于docker容器技术实现申威平台下Java项目快速部署的方案,并实例展示申威平台下,Kylin:V10系统中安装docker的方法。 相似文献
6.
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。 相似文献
7.
8.
国产申威处理器的不可屏蔽核间中断(NMII)具有必须由某一核心主动发起的特性,导致目前无法适用Linux通用的锁死故障监测算法,严重情况下将影响关键领域的数据处理。针对该问题设计适用于申威架构的锁死故障监测与诊断系统。采用链式结构发送NMII请求,结合定时器事件和内核线程进行锁死时间戳检查,实现系统内单核心的软锁死与硬锁死监测;基于故障容错机制,采用主从式结构监测所有核心状态,当主核心发生故障时,执行容错措施并迁移主核心,实现系统内多核心故障的锁死监测;设计基于NMII的任务模型,实现锁死故障核心的诊断信息输出并扩展NMII应用场景。测试结果表明,所提算法在低与高故障风险下均可实现锁死故障的准确检出并作出实时诊断,满足申威平台锁死故障监测与诊断的可靠性与实时性要求。 相似文献
9.
10.