首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
Intel,AMD和IBM都具有针对自身特点的向量扩展库。相比于传统的标量计算,向量化技术带来的加速比较高。为此,针对申威26010处理器开发向量数学库软件。在分析函数常用级数法和迭代法算法的基础上,结合三角函数、反三角函数、指数函数和对数函数研究一种高效向量化算法,并对其进行实现与优化,使其支持函数高精度和高性能计算,并且满足浮点运算的要求。测试结果表明,该算法精度达到申威26010处理器上特定应用的要求,与Intel VML数学库相比,各函数的平均加速比均达到1.1以上。  相似文献   

2.
3.
对间接存储器的访问延迟往往会影响应用程序的执行性能, 一种有效的解决方案是使用预取技术. 国产申威平台中支持常规访问模式的软件预取和硬件预取机制, 但是其GCC编译器中缺少为间接存储器访问模式自动插入预取的方法. 为了解决这个问题, 基于申威GCC开发了一个完整间接预取优化遍, 它利用深度优先搜索算法查找引用循环归纳变量的间接内存引用并为之生成合适的软件预取. 在一组内存受限的基准测试中, 自动预取遍对SW1621处理器的平均加速比达到1.16倍.  相似文献   

4.
硬件数据预取技术可以有效提升处理器的访存性能,是申威处理器性能优化过程中亟需突破的一项技术。硬件开销和处理器架构的制约是硬件预取技术实现中的主要难点。借鉴学术界对硬件预取技术的研究成果和工业界的应用现状,紧密结合申威处理器的结构特点,研究了申威处理器硬件预取技术的实现方法。以流预取为例,在处理器核心面积增加0.97%的情况下,硬件预取技术的应用可以将目前申威处理器的整数性能平均提升5.17%,最高提升28.88%;浮点性能平均提升6.39%,最高提升30.11%。  相似文献   

5.
为了提高运行在申威平台业务服务软件和数据传输的安全性,基于安全自主可控的申威核心处理器和国产操作系统,采用安全和高强度的国密SM2、SM3、SM4进行加解密、身份认证、签名、摘要算法、密钥协商,运用多核处理器进行多包发送和多线程加解密技术,较高效地实现了基于申威平台的VPN系统。  相似文献   

6.
根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的StockhamFFT计算框架和Cooley-TukeyFFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%.  相似文献   

7.
刘芳芳  杨超  袁欣辉  吴长茂  敖玉龙 《软件学报》2018,29(12):3921-3932
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.  相似文献   

8.
在两化融合的背景和发展趋势下,串行接口依然是工业互联网设备的主流接口,通过串口能使设备快速接入互联网,进行集中监控和管理。作者通过对RS-232接口标准、Linux内核TTY驱动以及POSIX标准操作系统串口编程进行分析和研究,在申威831平台上实现了对非POSIX标准串口波特率的支持,本方法具有很强的实用性和现实指导意义,以期为申威平台相关研究提供些许思路。  相似文献   

9.
点积函数是BLAS库中的一级基础函数,其被科学计算等领域广泛调用.由于浮点计算会引入舍入误差,现有BLAS库中双精度点积函数不足以满足某些应用领域的精度要求,因此需要高精度算法来实现更精确可靠的计算.在本文中,面向国产申威1621平台,在现有的BLAS库的基础上,新增高精度点积函数的实现接口,来满足应用的高精度需求.同时,对于高精度点积算法运用循环展开、访存优化、指令重排等优化策略,实现汇编级手工优化.实验结果显示,文中高精度点积算法的计算结果精度,近似达到了双精度点积的两倍,有效提升了原始算法精度.同时,在保证精度提升的基础上,文中优化后的高精度点积函数相比未优化前,平均性能加速比达到了1.61.  相似文献   

10.
BLAS (Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准, 该库函数分为三个级别, 每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算. 本文研究了在申威1621处理器上BLAS一级函数的优化方案, 以函数AXPY为例, 充分...  相似文献   

11.
神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R) Xeon(R) CPU E5-2695 v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。  相似文献   

12.
传统故障诊断方法都是从分布式光伏组件外部特性进行故障判断,对于内部参数的变化缺少观察,导致分布式的故障类型诊断准确率低,因此,设计一种基于智能监控系统的分布式光伏故障自动诊断方法.以两级分布式光伏作为研究对象,建立并网运行的数学模型,通过智能监控系统得到内部参数故障评判特征值,采用崩溃点直接计算的方法计算电压崩溃、越限...  相似文献   

13.
针对间歇过程三维数据预处理中不同展开方式的多向偏最小二乘(MPLS)方法在线应用时存在的缺陷,提出改进的MPLS方法。该方法结合传统沿变量展开与批次展开的优势,不仅包含了批次间的信息,在一定程度上去除了过程的非线性及动态性,而且解决了在线应用时数据填充的问题;其次,该方法采用随时间更新的协方差代替固定的主元协方差充分考虑了得分向量的动态特性:最后,引进时变贡献图的故障诊断方法,实现了对故障源的实时跟踪。将该方法应用到工业青霉素发酵过程中,并与传统的MPLS方法进行比较。结果表明:该方法具有更好的监控性能,并能够及时检测故障及跟踪故障源。  相似文献   

14.
针对模拟电路的故障诊断和健康管理(PHM)的应用,提出了结合主成分分析(PCA)和极限学习机(ELM)的故障诊断方法。该方法用Sallen-Key带通滤波器来获取故障样本,并通过PCA进行故障特征提取。根据故障样本对ELM进行训练来获得故障诊断模型。实验结果表明,该实现方法识别率高、鲁棒性好,在工程实际中具有研究和应用价值。  相似文献   

15.
详细阐述了小波神经网络(WNN)的原理、结构,并对传统的BP算法进行了改进。以空调系统传感器故障检测问题为目标,提出了基于WNN的故障诊断方法。通过采集天津博物馆中的传感器数据,对训练好的WNN进行了传感器故障诊断能力的验证,对温度传感器的1℃偏差故障、0.05℃/s速率漂移故障、完全故障、与不同方差下的精度等级下降故障进行了仿真,结果表明:这种方法对传感器故障具有很好的诊断效果。  相似文献   

16.
软件密集型系统中由于有大量软件的嵌入,其故障模式发生了变化,产生了新的软硬件相关的故障模式。在分析软硬件相关故障特征的基础上,提出了一种基于动态故障树分析方法的故障诊断方案,并给出了分析方法和步骤。最后通过实例分析,证明了这种方法的可行性。  相似文献   

17.
提出一种基于自联想神经网络(AANN)的新算法用于系统中传感器故障诊断。阐述了AANN的结构和算法。具体说明了搜寻2个故障传感器和恢复信号的方法。用改进的AANN诊断有噪声情况下传感器跳变故障并恢复信号。本方法有易实现、结构简单的优点,仿真结果表明:本方法是可行的。  相似文献   

18.
林景栋  谭成 《传感器与微系统》2012,31(2):146-148,152
GBM系统作业时由于具有DEDS特性,其故障诊断非常适合采用DEDS故障诊断理论来处理。对DEDS故障诊断基本理论和GBM的故障诊断过程进行了简要的介绍,以GBM灌注系统的故障诊断为例,基于DEDS故障诊断理论对GBM的故障诊断过程进行了详细地分析和说明,实验结果表明:基于DEDS故障诊断理论的诊断结果效果明显,证明了DEDS故障诊断理论在GBM故障诊断中的有效性。  相似文献   

19.
讨论了交—交变频调速系统故障诊断的重要性,在当前的检测方法与故障诊断手段研究的基础上,提出了基于DSP和小波分析的变频调速系统故障诊断方法,建立了故障诊断系统;采用了基于小波能量的机电设备状态检测方法,充分利用了DSP强大的数据处理功能,以及小波分析所具有的对非平稳信号的分析处理能力和多分辨力的特性;建立了交—交变频调速系统的数学模型。经仿真实验证明:该方法适用于变频调速系统的故障诊断。  相似文献   

20.
基于OWPB和LS-SVM的电路板故障诊断系统   总被引:1,自引:0,他引:1  
针对雷达电路板检修困难的问题,提出了基于最优小波包基和最小二乘支持向量机相结合的雷达电路板故障诊断方法。利用小波变换对采样数据进行去噪处理,通过小波包分解选择最优小波包基提取熵值作为故障特征向量,并作为基于最小二乘支持向量机的雷达故障诊断模型的输入向量,经诊断模型输出后,完成雷达电路板故障诊断。基于此方法设计了雷达电路板故障诊断系统,提高了雷达故障诊断的正确性和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号