首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
多播中,网络节点在耗费代价很小的情况下发送和接收数据包,这种通讯的优势使多播在各种类型的网络应用中迅速增长,本文介绍了一种无线广播网络中的多播应用,其根据连接优先级控制网络通讯,通讯链路上的参数SIR决定连接优先级,在确定连接优先级的情况下,网络应尽可能多的提供符合SIR要求的连接,以提高通讯的效率。  相似文献   

2.
Cenju-4并行计算机是超高速缓存相干非一致性存储器访问(CCNUMA)多处理机,可缩放到1024个节点。Cenju-4采用位模式目录,比起其它不精确的方式(如粗向量方式)来,这种这方式能够使表示更精确。Cenju-4采用网络的多播和收集功能来发送无效请求消息和接收应答。即使在消息块为所有节点共享时,也能使存储访问延迟可缩放。Cenju-4还通过在主存中排队某些类型的消息的方法防止不足和死销现象。它用集中式目录方式安全解决了不足问题,用一个物理或虚拟网络解决死销问题。排队每个节点中的消息所需的缓冲器大小驻为32KB,而在1024节点的系统上则为两个64KB。本文主要介绍DSM结构的设计及一些性能结果。  相似文献   

3.
多播中,网络节点在耗费代价很小的情况下发送和接收数据包,这种通讯的优势使多播在各种类型的网络应用中迅速增长,本文介绍了一种无线广播网络中的多播应用,其根据连接优先级控制网络通讯,通讯链路上的参数SIR决定连接优先级,在确定连接优先级的情况下,网络应尽可能多的提供符合SIR要求的连接,以提高通讯的效率。  相似文献   

4.
多播路由算法对互连网络的通信性能和多处理机系统性能的发挥起着重要作用。针对基三分层互连网络,在权衡性能、成本和实现的基础上,提出一种基于树的受限多播路由算法TRMA。该算法充分利用基三分层互连网络的层次特性和节点编码中所含的网络拓扑信息实现消息路由,算法设计简单,易于硬件实现。和其他基于树的多播路由算法相比,TRMA算法不需要源节点在发送消息前构建多播树,并将多播树的信息存放在消息中,大大降低了源节点的工作负载,提高整个系统的性能。通过仿真比较了TRMA和基于单播的多播路由算法,结果表明TRMA具有较低的网络延迟和较小的网络流量。  相似文献   

5.
归约通讯作为聚合通讯中一类,是实现数值计算、进程控制的重要手段,以并行处理中的应用很广泛。由于归约通讯中的多个源结点主动地发送消息因此它具有与multicast通讯迥然不同的特为特点。此文即在对韶约通讯的行为特点和通讯过程的分析基础上,结合作者于[6]中提出的SBMT广播算法,提出了针对归约通讯的RSBT路由算法,并进一步作出了性能分析。  相似文献   

6.
胡涛  宋子善 《计算机工程》2006,32(22):229-231
介绍了共享存储网络的原理和优点,揭示了其在直升机工程模拟器应用中暴露出的串行传输等缺陷。为了解决应用中的问题,提出了一种适合于消息传递通信模式的并行存储网络。方法是在模拟器的中心节点中安装2块基于4端口快速静态存储器的并行存储网卡,这样可以实现中心节点和分系统的点对点并行通信,从而提高它们之间交换数据的聚集带宽到共享存储网络的6倍,最大限度地减小消息延时,从而增强模拟器的性能。  相似文献   

7.
吕闽晖  熊伟  沈来信 《计算机科学》2016,43(11):130-134
为了提高多群多点广播中继网络系统的性能,提出一种改进的协作中继多点广播码分多址(CDMA)系统设计。该方案利用协作中继辅助的分布式波束形成 实现单天线基站多播,获得了较好的空间分集增益。在该系统中,多个基站利用多个中继节点向多个目的地的各个小组传播消息;利用CDMA技术来减少中继节点以及目的地节点的多址干扰(MAI)障碍,同时每个中继节点作为线性预编码波束合成器,可以在合适的代码空间重塑基站信号;对线性波束形成矩阵进行优化,使得中继节点的功率最小化,从而满足QoS在信号干扰噪声比方面的要求。系统性能仿真对比实验的结果表明,提出的改进方案明显优于传统的正交复用方案(FDMA / TDMA)。  相似文献   

8.
防火墙与多播协议   总被引:1,自引:0,他引:1  
目前,因特网中存在的网络通讯方式包括单播、广播和多播,传统的网络通讯通常在两个点之间进行,这就是所谓的单播通讯方式。然而,一些新的网络应用如LANTV.桌面会议、视频点播、协作运算等需要在一组计算机之间同时进行通信,这个过程通常称为多点通讯,如果采用单播通讯  相似文献   

9.
归约通讯作为聚合通讯中的一类,是实现数值计算、进程控制的重要手段,在并行处理中应用很广泛。由于归约通讯中有多个源结点主动地发送消息,因此它具有与multicast通讯迥然不同的行为特点。此文即在对归约通讯的行为特点和通讯过程的分析基础上,结合作者于[6]中提出的SBMT广播算法,提出了针对归约通讯的RSBT路由算法,并进一步作出了性能分析。  相似文献   

10.
Cenju-4并行计算机是超高速缓存相干非一致性存储器访问(CCNUMA)多处理机,可缩放到1024个节点。Cenju-4采用位模目录,比起其它不精确的方式,如粗向量方式来,这种方式能够使表示法更精确。Cenju-4采用网络的多播和收集功能来发送无效请求消息和接收应答。即使在消息块为所有节点共享时,也能使存储访问延迟可缩放。Cenju-4还通过在主存中排队某些类型的消息的方法防止不足和死锁现象。它用集中式目录方式完全解决了不足问题,用一个物理或虚拟网络解决死锁问题,排队每个节点的消息所需的缓冲器大小仅为32KB,而在1024节点的系统上则为两个64KB。本文主要介绍DSM结构的设计及一些性能结果。  相似文献   

11.
Distributed-memory parallel systems rely on explicit message exchange for communication, but the communication operations they support can differ in many aspects. One key difference is the way messages are generated or consumed. With systolic communication, a message is transmitted as it is generated. For example, the result computed by the multiplier is sent directly to the communication subsystem for transmission to another node. With memory communication, the complete message is generated and stored in memory, and then transmitted to its destination. Since sender and receiver nodes are individually controlled, they can use different communication styles. One example of memory communication is message passing: both the sender and receiver buffer the message in memory. These two communication styles place different demands on processor design. This article illustrates each style's effect on processor resources for some key application kernels. We are targeting the iWarp system because it supports both communication styles. Two parallel-program generators, one for each communication style, automatically map the sample programs  相似文献   

12.
Many scientific applications require array redistribution when the programs run on distributed memory parallel computers. It is essential to use efficient algorithms for redistribution, otherwise the performance of the programs will degrade considerably. The redistribution overheads consist of two parts: index computation and inter-processor communication. If there is no communication scheduling in a redistribution routine, the inter-processor communication will incur a larger communication idle time when there exists node contention and/or difference among message lengths during one particular communication step. In order to solve this problem, in this paper, we propose an efficient scheduling scheme that not only minimizes the number of communication steps and eliminates node contention, but also minimizes the difference of message lengths in each communication step. Thus, the communication idle time is reduced in redistribution routines.  相似文献   

13.
在分布式存储系统上,MPI已被证实是理想的并行程序设计模型。MPI是基于消息传递的并行编程模型,进程间的通信是通过调用库函数来实现的,因此MPI并行程序中,通信部分代码的效率对该并行程序的性能有直接的影响。通过用集群通信函数替代点对点通信函数以及通过派生数据类型和建立新通信域这两种方式,两次改进DNS的MPI并行程序实现,并通过实验给出一个优化MPI并行程序的一般思路与方法。  相似文献   

14.
多任务环境—并行处理仿真中的核心模块   总被引:2,自引:0,他引:2  
  相似文献   

15.
高性能并行计算机技术是当今关键技术之一,由清华大学计算机系设计的高性能网络并行超级计算系统THNPSC-1在设计接口时,通过一个表对通信缓冲区进行维护,这样可以直接将数据从应用空间输入/输出到网络,从而支持真正意义上的0拷贝通信协议。通过提供用户层网络访问接口,通信与计算重叠等手段,该接口取得了很高的通信性能。其中实际测量的应用程序之间16字节信息的传递延迟不到7us,最大持续通信带宽可达30MBytes/s。  相似文献   

16.
本文描述了神威E级原型机的互连网络和消息机制.神威E级原型机是继神威蓝光、神威·太湖之光之后神威家族的第三代计算机.该计算机作为一台E级计算机的原型机,峰值性能3.13 PFlops,其最大的特色之一就是采用28 Gbps传输技术,设计开发了新一代的神威高阶路由器和神威高性能网络接口两款芯片,在传统胖树的基础上,设计了双轨泛树拓扑结构,定义实现了新颖的神威消息原语和消息库,实现了一种基于包级粒度动态切换的双轨乱序消息机制,通信性能比神威·太湖之光互连网络提升了4倍,为神威E级计算机互连网络的研制奠定了基础.  相似文献   

17.
Multidestination message passing has been proposed as an attractive mechanism for efficiently implementing multicast and other collective operations on direct networks. However, applying this mechanism to switch-based parallel systems is nontrivial. In this paper, we propose alternative switch architectures with differing buffer organizations to implement multidestination worms on switch-based parallel systems. First, we discuss issues related to such implementation (deadlock-freedom, replication mechanisms, header encoding, and routing). Next, we demonstrate how an existing central-buffer-based switch architecture supporting unicast message passing can be enhanced to accommodate multidestination message passing. Similarly, implementing multidestination worms on an input-buffer-based switch architecture is discussed, and two architectural alternatives are presented that reduce the wiring complexity in a practical switch implementation. The central-buffer-based and input-buffer-based implementations are evaluated against each other, as well as against the corresponding software-based schemes. Simulation experiments under a range of traffic (multiple multicast, bimodal, varying degree of multicast, and message length) and system size are used for evaluation. The study demonstrates the superiority of the central-buffer-based switch architecture. It also indicates that under bimodal traffic the central-buffer-based hardware multicast implementation affects background unicast traffic less adversely compared to a software-based multicast implementation. These results show that multidestination message passing can be applied easily and effectively to switch-based parallel systems to deliver good multicast and collective communication performance  相似文献   

18.
在并行计算的消息传递编程中,由于处理器间的通信将花费大量的时间,因此减少通信开销变得非常关键。基于这一点,注意到网络传输中存在大量小消息的特点,文章采用数据合并的思想,提出了一种减少弦振荡问题并行程序设计通信开销的方案,推导出一个使用性能达到最佳的公式,并对其进行了实验,得出的实验结果表明这种方案能够有效地减少并行计算中的通信开销.而且这种方案也能应用于一些其它的并行计算问题中。  相似文献   

19.
针对水声传播模型的计算量大,难以满足实时化、精细化水下声传播信息保障需求的难题,基于MPI+OpenMP混合并行编程方法,开展了WKBZ简正波模型混合并行计算方法研究,实现了水下声场2级混合并行计算。该方法通过节点间消息传递、节点内内存共享的方式,有效克服了MPI并行编程模型通信开销大和OpenMP并行编程环境可扩展性差的缺点,较好地解决了水下声传播快速计算的问题。测试结果表明,该方法能够较好地利用SMP集群节点间和节点内多级并行机制,充分发挥消息传递编程模型和共享内存编程模型各自的优势,大幅降低MPI进程间通信带来的时间开销,有效提升程序的可扩展性和并行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号