首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理...  相似文献   

2.
细胞神经网(CNN)是一种大规模非线性模拟电路。它的两个重要特点是时间连续特性和局部连接特性,这使CNN在数字领域能实现实时、高速、并行的信号处理,并特别适于大规模集成电路(VLSI)的实现。本文阐述了CNN的结构和特点,并介绍了CNN在通信系统中的应用,主要包括信号处理及其硬件实现、混沌通信和通信中的优化问题等方面。  相似文献   

3.
为增加检测突变信号的时效性,提高各种故障检测系统的效率,提出在“神威·太湖之光”上基于两级并行模式改进的排列熵(PE)算法。在节点间采用MPI(信息传递接口)并行编程模型,通过对等模式轮询调度方式解决多文件负载不均衡问题;在核组内采用Athread(加速线程库)并行编程模型,通过相空间构建重构矩阵,实现从核级数据划分;采用双缓冲技术实现从核计算与访存的重叠,减少主从通信时间;利用DMA通信和重组传输数据的方法,减少主从通信次数。使用15个LDK UER204滚动轴承全寿命周期实验数据进行测试,结果表明,单核组性能较主核版本最高可获得11.86倍加速,128核组最高实现123.73倍的性能提升。  相似文献   

4.
奇异值分解(SVD)广泛应用于数字信号处理等领域.为提高SVD效率,Brent等提出一种由SVD处理器组成的阵列,应用并行JACOBI算法实现SVD.SVD处理器一般采用CORDIC位并行结构实现.本文比较CORDIC位并行结构和位串行结构,分析了位串行结构在硬件资源以及时钟频率上的优势,采用CORDIC位串行结构设计了SVD处理器,并结合位串行结构的特点对其进行了优化.仿真实验验证了该设计的正确性;CORDIC结构的对比实验表明,与位并行结构相比,位串行设计以一定的处理时间为代价,可以节约大量的硬件资源,适用于硬件资源紧缺的非实时场合.  相似文献   

5.
一种并行查询优化策略   总被引:2,自引:0,他引:2  
叙述了在扩展BSP计算机上实现的shared_nothing并行对象关系数据库(PORDB)的两阶段查询优化。它分为顺序优化阶段和并行化两个阶段。顺序优化阶段在预测并行通信代价的基础上,采用基于代价的顺序查询优化。并行化阶段为缩减探索空间,先按照并行模式划分并行单元,再以并行单元为单位分配处理机。BSP模型可简化并行模式的实现和并行单元的划分。  相似文献   

6.
本文提出一种求解大规模稀疏矩阵特征问题的并行共轭梯度算法.为了提高算法的并行效率,设计了负载平衡的行划分方式,实现了计算和通信重叠的稀疏矩阵重排序方法,通过预处理减少计算过程中各进程间消息传递的通信量.另外,基于多核处理器高性能并行计算,实现了MPI和细粒度(线程级)OpenMP混合并行算法.在深腾7800并行计算机上对并行算法进行了测试,结果表明在进程数增多时并行算法可保持通信时间稳定性,在并行计算机上有很好的扩展性,适合大规模稀疏特征问题的求解.  相似文献   

7.
4 Neuron芯片的EIA-232C串行接口应用LonWorks网络应用多点并行访问结构,因此多节点之间可以实现点对点(peer to peer)通信.RS-485标准支持这种多点结构,允许网络中的节点和任意其它节点通信,在物理通道上最多可达32个节点.而EIA-232C标准,即以前的RS-232C标准只允许两个节点之间彼此通信.这一标准开始时是为数据终端设备和数据通信设备(如Modem)之间通信设计的,但近年来它被广泛用于其它通信中.  相似文献   

8.
并行BP算法在WDM环网上的波长分配   总被引:1,自引:0,他引:1  
波长分配是光网络设计的基本问题,设计波长分配算法是洞察光网络通信能力的基本方法。不同的并行算法具有不同的通信模式,如何在光互联网上实现这些通信模式,同时优化波长分配问题,是当前一个颇受关注的研究领域。神经网络计算的一个重要特点是大规模并行计算,该文基于WDM环网络,讨论了在其上实现并行BP算法的波长分配问题,设计了将完全二分图结构Kmn,通信模式嵌入环网的方案,给出了在WDM环网络上实现并行BP算法所需的最小波长数。  相似文献   

9.
减少通信开销是并行编译优化的主要目标之一.该文针对具有cache一致性的非一致存储访问并行系统(CC-NUMA)的特点,提出通过结合计算变换和数据变换,在统一的代数框架下对并行程序进行通信优化的策略和方法.通过实验测试,验证了此策略和方法是行之有效的.  相似文献   

10.
朴素并行LDA     
并行潜在狄利克雷分配(LDA)主题模型在计算与通信两方面的时间消耗较大,导致训练模型的时间过长,因而无法被广泛应用.提出朴素并行LDA算法,针对计算和通信分别提出改进方法.一方面通过加入单词影响因子以及设置阈值的方法来降低文本训练的粒度,另一方面通过降低通信频率来减少通信时间.实验结果表明,优化后的并行LDA在保证精度损失为1%的前提下,将训练速度提高了36%,有效提高了并行的加速比.  相似文献   

11.
一种新的隐马尔可夫模型及其在手绘图形识别中的应用   总被引:2,自引:0,他引:2  
提出了一种新的隐马尔可夫模型——自适应隐马尔可夫模型(AHMM).与传统的开环HMM相区别,AHMM是一种用于识别的带反馈机制的闭环HMM.AHMM采用带有压缩率调整因子的特征压缩算法,首先对待识别的特征序列进行较高压缩率的压缩,然后将压缩得到的特征序列送入HMM识别器进行识别.根据对识别效果满意度的判决,确定是否需要调整压缩率因子以获得较长的特征序列,并重新送入HMM识别器进行识别.将该文提出的AHMM用于联机手绘图形的识别,实验表明,AHMM方法与传统的HMM方法相比,识别率和识别速度均有显著提高.  相似文献   

12.
Scientific applications represent a dominant sector of compute‐intensive applications. Using massively parallel processing systems increases the feasibility to automate such applications because of the cooperation among multiple processors to perform the designated task. This paper proposes a parallel hidden Markov model (HMM) algorithm for 3D magnetic resonance image brain segmentation using two approaches. In the first approach, a hierarchical/multilevel parallel technique is used to achieve high performance for the running algorithm. This approach can speed up the computation process up to 7.8× compared with a serial run. The second approach is orthogonal to the first and tries to help in obtaining a minimum error for 3D magnetic resonance image brain segmentation using multiple processes with different randomization paths for cooperative fast minimum error convergence. This approach achieves minimum error level for HMM training not achievable by the serial HMM training on a single node. Then both approaches are combined to achieve both high accuracy and high performance simultaneously. For 768 processing nodes of a Blue Gene system, the combined approach, which uses both methods cooperatively, can achieve high‐accuracy HMM parameters with 98% of the error level and 2.6× speedup compared with the pure accuracy‐oriented approach alone. Copyright © 2012 John Wiley & Sons, Ltd.  相似文献   

13.
BSP模型独立于并行体系结构,既可作为并行计算模型,又可作为并行程序设计模型。提出了基于BSP模型的H-V事务模型,适用于长、短事务和长短事务混杂的情况。给出了在无共享结构下实现并行事务处理的进程结构。该结构不仅实现了事务内及事务间并行性,而且使人有可用性(availability)和可扩充性(scalability),而后给出了适用于该模型的基于时间戳的多版本并发控制协议,最后描述了事务在超步结构下的运行过程。性能测试表明,使用该模型进行事务处理时可获得良好的事务响应时间和加速比。  相似文献   

14.
隐马尔可夫模型是对DNA序列建模的一种简单且有效的模型, 实际应用中通常采用一阶隐马尔可夫模型. 然而, 由于其一阶无后效性的特点, 一阶隐马尔科夫模型无法表示非相邻碱基间的依赖关系, 从而导致序列中一些有用统计特征的丢失. 本文在分析DNA序列特有的生物学构造的基础上, 提出一种用于DNA序列分类的二阶隐马尔可夫模型, 该模型继承了一阶隐马尔可夫模型的优点, 充分表达了蕴涵在DNA序列中的生物学统计特征, 使得新模型具有明确的生物学意义. 基于新模型, 提出一种DNA序列的贝叶斯分类新方法, 并在实际DNA序列上进行了实验验证. 实验结果表明, 由于二阶隐马尔可夫模型充分反映了DNA序列碱基间的结构信息, 新方法有效地提高了序列的分类精度.  相似文献   

15.
研究了利用隐马尔可夫模型(HMM)对动态语音模式进行时间归一化的方法。引入了借助于HMM对语音基元观测序列所做的一种分段,这种分段被称之为语音基元观测序列的HMM全状态分段,并且定义了HMM全状态分段的符合度。根据HMM全状态分段的符合度确定了语音基元观测序列的最优HMM全状态分段,通过最优HMM全状态分段把语音基元观测序列转换为固定维数的向量,从而实现了动态语音模式的时间归一化。将动态语音模式的这一时间归一化方法在结合HMM和人工神经网络(ANN)的混合语音识别方法中进行了应用,实验结果表明这一时间归一化方法的有效性。  相似文献   

16.
Bonchiş  C.  Kaslik  E.  Roşu  F. 《The Journal of supercomputing》2019,75(3):1014-1025

A parallel numerical simulation algorithm is presented for fractional-order systems involving Caputo-type derivatives, based on the Adams–Bashforth–Moulton predictor–corrector scheme. The parallel algorithm is implemented using several different approaches: a pure MPI version, a combination of MPI with OpenMP optimization and a memory saving speedup approach. All tests run on a BlueGene/P cluster, and comparative improvement results for the running time are provided. As an applied experiment, the solutions of a fractional-order version of a system describing a forced series LCR circuit are numerically computed, depicting cascades of period-doubling bifurcations which lead to the onset of chaotic behavior.

  相似文献   

17.
Cache模拟工具可以在单机上模拟运行于异构环境下的并行程序的Cache访问。用户依照自己的需求指定Cache模型参数及替换算法,对每个进程中的某一段进行模拟,使并行程序中每个或每组子进程/线程分别对应一个Cache模型,从而同时得到每个或每组子进程/线程的Cache访问参数。使用单机Cache模拟环境降低了并行程序的Cache模拟对实际并行环境的依赖。同时,用户还可以很方便地在其基础上扩展并使用自行开发的替换算法或进程通信模块功能,适应了不同用户对并行程序Cache模拟工具的需要。  相似文献   

18.
满都呼  宋展 《集成技术》2016,5(1):33-43
CUDA (Compute Unified Device Architecture)是一种重要的并行处理架构,但其具有相对复杂的线程管理机制和多重存储模块,从而使得基于CUDA的算法时间复杂度很难量化.针对这一问题,提出了一种分层存储理论模型—HMM (Hierarchical Memory Machine)模型,该模型所具有的分层存储结构可以有效地描述图形处理单元设备不同存储模块的物理特性,因此非常适用于对CUDA算法时间复杂度的量化评估.作为HMM模型的应用实例,文章提出了一种基于HMM模型的并行近似字符串匹配算法,并给出了相应算法时间复杂度的计算过程.与串行算法相比,该算法可以获得60倍以上的加速比.  相似文献   

19.
一种改进的隐马尔可夫模型在语音识别中的应用   总被引:1,自引:0,他引:1  
提出了一种新的马尔可夫模型——异步隐马尔可夫模型.该模型针对噪音环境下语音识别过程中出现丢失帧的情况,通过增加新的隐藏时间标示变量Ck,估计出实际观察值对应的状态序列,实现对不规则或者不完整采样数据的建模.详细介绍了适合异步HMM的前后向算法以及用于训练的EM算法,并且对转移矩阵的计算进行了优化.最后通过实验仿真,分别使用经典HMM和异步HMM对相同的随机抽取帧的语音数据进行识别,识别结果显示在抽取帧相同情况下异步HMM比经典HMM的识别错误率低.  相似文献   

20.
针对在时间和空间上都具有高计算成本的长序列数据库,一个更有效和更紧凑且可以完全提取信息的挖掘模式是当前的研究热点。提出一种并行动态位向量频繁闭合序列模式的挖掘算法(PDBV FCSP),该算法采用多核处理器架构和DBV数据结构相结合的方式,有效加快了序列数据库的处理速度,并对搜索空间进行划分,尽早执行预处理序列的闭合检查,减少了所需的存储空间和挖掘频繁闭合序列模式的执行时间,克服了现有并行挖掘算法通信开销、同步和数据复制等问题。利用重新分配工作的动态负载平衡机制,解决处理器之间的负载均衡问题,最大限度地减少了CPU空闲时间。对DBV VDF算法和PDBV FCSP(2 4核)算法进行仿真比较,结果表明,PDBV FCSP算法在运行时间、内存使用和可伸缩性等方面都有较优的性能提升,且当内核数增加时,性能更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号