首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
设计并实现了一种基于IP网络互连的、可扩展的声纳阵列信号并行处理系统。该系统采用二片TI公司高性能网络多媒体处理器TMS320DM642组成的板上流水线并行结构作为一个处理节点,并借助IP网络实现板间互连并行处理,可根据换能器阵元和处理速度的要求适当增减处理节点的数目。声纳系统的每个处理节点与数据采集转换部分采用TCP/IP网络连接,可以通过物理上添加一个或多个处理节点,提高系统的数据处理能力。  相似文献   

2.
江南 《福建电脑》2002,(12):3-4
本文简要介绍了并行处理的算法策略以及并行处理的描述性定义,对并行技术在软件和硬件上的具体实现有较具体的阐述,并行处理在软件上的实现主要是分析程序的相关性及建立网络互连来实现的,在硬件上主要有三类机型:多处理机,多计算机和SIMD/向量机,在硬件技术方面主要通过存储器,处理机和流水线三个方面来实现并行技术。  相似文献   

3.
并行系统的互连技术一直是高性能计算机的一个关键研究领域。在本文作者1999年中提出了一种基于多端口快速存储器的新型互连体系结构MCIM,并在此基础上构造出规模为16-128个CPU的结点系统。该文将MCIM原理应用在互连网络通信技术上,实现了一种以存储器系统为中心 的路由器MRouter。它采用流水操作和穿通传输技术,可用于构成低延时、高带宽的高性能互连网络。这将种互连网络与上述结点系统结合,可以实现更大规模的并行系统。而且其无论在板级或是结点级都采用同一种互连技术,有利于系统的模块化实现。文中介绍了以存储器为中心的互连机制MCIM的原理,同时描述了以存储器为中心的路由器MRouter的结构及数据传输流程,在仿真实验中作者对MCIM的互连通信技术和其它互连技术进行了测试和比较。  相似文献   

4.
高可靠性群体系统的通信和切换   总被引:4,自引:4,他引:0       下载免费PDF全文
本文讨论了高可靠性并行处理群体系统的通信互连网络及切换技术。首先介绍存储器通道,然后研究了基于该结构的一个四处理结点的高可靠性并行处理群机系统,并对通信及系统切换性能进行了分析。  相似文献   

5.
针对双目机器视觉的图像处理速度问题,从处理器、处理器连接网络和存储器3个方面分析并行处理优化的设计要点,设计一种基于serial RapidIO连接的双6核DSP+双FPGA的高速图像处理系统,通过合理分解算法,在FPGA内部、DSP内部多核心之间以及FPGA和DSP之间实现流水线处理架构。  相似文献   

6.
本文对混响和噪声干扰下动目标检测的高速信号处理顺实现进行了研究。依据水下信号处理任务的特点,结合流水线处理和并行处理,采用模块化设计方法,实现了一个由1片8086微处理器和7片高速数字信号处理器TMS320C25构成的高速信号处理系统。该系统成功地实时实现了混响背景下的动目标检测,同时也能实现复杂的信号处理算法。  相似文献   

7.
高可靠性群机系统的通信和切换   总被引:1,自引:0,他引:1       下载免费PDF全文
本文讨论高可靠性并行处理群机系统的通信互连网络及切换技术。首先介绍存储器通道,然后研究基于该结构的一个四处理结点的高可靠性并行处理群机系统,并对通信及系统切换性能进行了分析。  相似文献   

8.
新型通用嵌入式信号处理系统是基于分组交换网络实现的。在嵌入式系统中,其中一个关键的问题是设计高性能和高可靠性的分组网络,解决多个处理器高速互连,进一步提高信号处理系统的整体性能。RapidIO协议是商业联盟协会为了解决嵌入式系统高速互连的问题于2001年3月提出的,该文根据协议的要求和应用范围,以及信号处理系统的特点,将该协议用于解决信号处理系统高速互连的问题,提出了一种能适用于RapidIO分组交换网络不同拓扑结构的路由策略,最后运用概率模型对此分组交换网络的一些性能进行了比较详细的分析。该文通过对实现RapidIO协议关键技术的研究和对系统性能的分析,对建立基于RapidIO协议的通用高速信号处理系统具有重要的意义。  相似文献   

9.
基于PCI-E接口的高速数字信号处理系统设计   总被引:1,自引:0,他引:1  
为了满足目前实时信号处理要求,利用ADSP-TS201和Virtex4系列FPGA构建高速数字信号处理系统,采用点对点互连和紧耦合结构设计,利用FPGA自定义LVDS接口实现板级互连,通过PCI-E接口与上位机通信,具有良好的可扩展性。文章介绍了系统的结构、原理及PCB设计。  相似文献   

10.
本提出用2×4×16通道互连网络模块实现光动态直接全互连多计算机(16台)小型并行处理系统的结构设计,并提出了适应这种系统结构的冲突处理机制和消息传递机制,以及实现这些机制的硬件逻辑电路和帧格式。  相似文献   

11.
超并行处理机系统有两个需要解决的瓶颈问题:1.多级互连网络的传输延迟;2.吞吐量.本文提出解决这两个瓶颈问题的新方案——由多级互连网络和存贮器组成的主存贮器充分利用流水线方式,以多股指令流流水线方式执行.就可以从根本上消除主存贮器的传输延迟,并配合使用高速缓冲存贮器消除吞吐量瓶颈.最后给出简要的模拟性能评价结果.  相似文献   

12.
全互连立方体网络在并行处理系统中的应用   总被引:3,自引:1,他引:2  
提出一种应用于大规模并行处理系统的结点度等于常数的递归多级分层互连网络 ,称为全互连立方体网络 (fully connected cubic network,FCCN) .FCCN具有可扩展性好、延伸性能好等优点 .一个 m- FCCN可以由 8个(m - 1) - FCCN递归得到 ,FCCN网络的结点度与网络的规模大小无关等于常数 4,网络的直径和平均结点距离都与结点数的立方根成正比 .提出 FCCN中的简单路由算法 .并将 FCCN互连网络结构在大规模光电混合处理系统中进行应用 ,通过实际计算结果证明 FCCN具有比较高的并行处理效率  相似文献   

13.
王逸林  蔡平  梅继丹 《计算机工程》2008,34(10):259-260
在并行处理系统中,处理节点之间的通信开销是制约处理机性能提高的主要瓶颈。该文提出一种以TMS320C641X数字信号处理器为核心的并行处理系统,设计了PCI总线、串口和包交换网络等多种并行互联网络,使得输入、输出、控制等多种数据流分离,在适合的网络上传输,可以提高传输效率,实现高性能DSP与高性能互联系统的结合。  相似文献   

14.
《Parallel Computing》2007,33(1):2-20
In multiprocessor systems, interconnection network design is critical for overall system performance. Among the popular interconnection networks, unidirectional ring-based networks have been one of popular choices for high performance large-scale shared memory multiprocessor systems. In this paper, we propose “Torus Ring”, which is a modified version of two-level hierarchical ring. The Torus Ring has the same complexity as the hierarchical rings, and the only difference is the way it connects the local rings. Compared to hierarchical rings, the Torus Ring helps exploit the memory access locality of application programs more efficiently. It has an advantage over the hierarchical ring when the destination of a packet is the adjacent local ring, especially the backward adjacent local ring. Although we assume that the destination of a network packet is uniformly distributed across the processing nodes, the average number of hops in Torus Ring is equal to that of the hierarchical ring. However, the performance gain of the Torus Ring is expected to increase, due to the memory access locality of the application programs in the real parallel programming environment. In the simulation results, the latency of the interconnection network is reduced by up to 19% and the execution time is reduced by up to 10%, with the moderate ring utilization ratio.  相似文献   

15.
《Parallel Computing》1999,25(13-14):1677-1698
In this paper performance evaluation methodologies that have been applied to the analysis of parallel systems are reviewed together with the specific performance metrics. We concentrate on a few selected performance studies of parallel system components, i.e., processor, memory, interconnection network, input/output, and operating system. We demonstrate the utility of the performance evaluation methodologies for identification of system bottlenecks, performance forecasting, and future system design.  相似文献   

16.
在主流通用处理系统中,超标量机制及高速缓存使得自修改代码(SMC)成为一种需要特殊处理的情况,为了继续支持使用自修改代码的程序并兼容原有程序,在处理系统设计中需要对SMC的情况进行支持。本文分析并对比了多种程序的SMC行为及解决方案,设计了一种利用FIFO队列在流水线外检测SMC的方案,避免了对主流水线的干扰;并通过复用访存通路来检测SMC导致的缓存一致性问题,由于优化后的设计不需要额外的端口,避免了在数据缓存使用多端口设计,使得整体面积下降了1.16%。同零开销的理想方案相比,该方案对性能的影响小于0.1%。  相似文献   

17.
The heterogeneous vision architecture that satisfies the computing demands of real-time computer vision by providing parallelism in three different forms is described. A pipeline of digital signal processing (DSP) chips initially processes signals. Then a SIMD associative processor array processes images and extract features, and a MIMD network of transputers processes extracted objects in parallel. The array's VLSI implementation, the processing modes available due to the use of content-addressable memory, and the means of achieving efficient 2-D interprocessor communication in the linear array are described. An application as a vehicle number plate recognition system is presented  相似文献   

18.
Extrinsic是HPF中用来调用外部语言过程的机制。利用HPF Extrinsic机制可以实现多范例并行计算,文章首先给出p-HPF并行编译器中Extrinsic过程调用的支持方法,然后给出几种在分布内存的网络环境下,基于Extrinsic的并行应用模版,它们是并行算法库应用模版、协同应用模版、MPSD处理应用模版、异步I/O应用模版和流水线应用模版。并分析了它们的运行效率,给出了p-HPF实现方法。  相似文献   

19.
To reject the use of a prime (or odd) number N of memory banks in a vector processor, it is generally advanced that address computation for such a memory system would require systematic Euclidean division by the number N. We first show that the Chinese Remainder Theorem allows one to define a very simple mapping of data onto the memory banks for which address computation does not require any Euclidean division. Massively parallel SIMD computers may have thousands of processors. When the memory on such a machine is globally shared, routing vectors from memory to the processors is a major difficulty; the control for the interconnection network cannot be generally computed at execution time. When the number of memory banks and processors is a product of prime numbers, the family of permutations needed for routing vectors from memory to the processors through the interconnection network has very specific properties. The Chinese Remainder Network presented in the paper is able to execute all these permutations in a single path and may be easily controlled.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号