首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
郭书军  张睿  安佰岳 《计算机测量与控制》2012,20(4):1095-1097,1119
随着数字信号处理设备在测试系统内的广泛应用,使得单颗DSP芯片的性能已无法满足日益增长的对处理速度的要求;设计的并行多DSP模块,集成了四片高端浮点DSP芯片和一片高性能FPGA芯片,其通过优化DSP簇拓扑结构、增强DSP簇数据缓存能力、扩展DSP簇数据传输通道等技术手段,使模块具备了强大的信号处理能力和灵活的应用开发方式;模块并行处理能力达到单DSP性能的3.6倍以上;该模块支持PXIe、RapidIO、Infiniband、光纤等多种高速接口,数据传输速率达到16Gbps可应用于雷达信号处理、合成仪器、软件无线电系统等多种测控系统。  相似文献   

2.
以多片C645xDSP为应用对象,介绍DSP之间的串行RapidIO总线通信方式。详述串行RapidlO的结构层次、硬件设计和软件设计方法。在DSP的数字信号处理功能基础上应用串行RapidIO,使得数据传输速率达到10Gbps,从而实现语音、视频和数据的同时传输,满足高速数据传输系统的需求。  相似文献   

3.
《微型机与应用》2017,(4):36-39
在使用Digital Signal Processor(DSP)芯片进行数字信号处理时,由于数据量大,线程较多,通常采用多片DSP协同处理。本文旨在研究DSP间数据和信息传输的实现,并以三片TI的TMS320C6474芯片为例,基于SRIO协议,设计一种传输架构,实现了DSP间的数据传输。最终实现DSP间2.520 Gb/s的数据传输速率,为理论值的50.40%,但如果除去线程调度和DSP间同步所用时间,其SRIO接口的数据传输速率可达到3.886 Gb/s,为理论值的77.72%。该设计具有较大的通用性,对其他同类型的芯片间的数据传输设计具有极大的参考性。  相似文献   

4.
浅析网格相关应用技术   总被引:3,自引:1,他引:3  
文中论述了网格数据传输和资源优化分配等网格相关技术。文中提出一种基于网格的动态数据并行传输方法,该算法能提高数据的传输速率和增强数据传输的稳定性,并给出该算法与其他算法在传输速度和稳定性上的实例比较;文中运用市场价格体系对动态变化环境的良好适应能力来处理网格资源分配中的异构性和动态性等难题。  相似文献   

5.
为了解决跨时钟域问题对基于片上网络的高速数据传输造成的功能误差,提出了一种新的片上网络跨时钟域高速数据通信接口电路.针对采用多电压频率岛分配方案的异步片上网络,将多路选择器模块和基于令牌环的环形异步FIFO相结合构成跨时钟域高速数据通信接口电路.实验结果表明,该算法及电路设计能够有效减小亚稳态的影响,增加片上网络系统数据传输的吞吐率,满足用于视频采集和处理系统的片上网络对大数据量和高速度数据码流进行实时传输的需求.  相似文献   

6.
基于DSP与FPGA结构的星载图像压缩系统设计与实现   总被引:2,自引:2,他引:0  
针对空间遥感成像数据传输之前需对CCD图像进行压缩处理的要求,设计了一种基于多片DSP+FPGA结构的高效高速星载图像压缩系统,采用了双正交重叠变换的定点实现算法对图像进行压缩,只需少量的移位和加法运算,降低了算法的实现难度,并对编码进行了优化处理,适于DSP并行处理。应用结果表明,该系统运行稳定可靠,压缩效果良好,软硬件复杂度低,有很好的实用性和推广价值。  相似文献   

7.
MapReduce是一种适用于大数据处理的重要并行计算框架,通过在大量集群节点上并行执行多个任务,极大地提高了数据的处理性能。然而,由于中间数据需要等到Mapper任务完成之后才能被发送给Reducer任务,由此导致的大量传输延迟成为MapReduce框架性能的重要瓶颈。为此,文中提出了一种面向MapReduce的中间数据传输流水线优化机制,将有效计算与中间数据传输解耦,以流水线的方式重叠执行各个阶段,有效隐藏数据传输开销。文中还给出了中间数据传输流水线执行机制和实现策略,包括流水线划分、数据细分、数据归并和数据传输粒度等。在公开数据集上对所提中间数据传输流水线优化机制进行了评价,当Shuffle数据量较大时,该优化机制比默认框架的整体性能提高了60.2%。  相似文献   

8.
在无线网络数据传输和通信过程中,由于网间路由的损伤和通信码元之间的码间干扰,导致数据传输信道失衡,需要对无线网络数据传输信道进行抗干扰滤波和均衡设计,实现无线网络数据的高保真性传输。传统方法采用复合链路相干均衡算法进行无线网络数据传输信道优化,随着通信信道载波数量的增长,导致信道均衡稳定性不好。提出一种基于数据通信码元相似性度量的无线网络数据传输信道优化算法,通过构建无线网络系统模型和信道模型,对无线网络的数据信息进行码元相似性度量和特征提取,以此为基础采用IIR滤波算法实现对信道干扰码元的滤波和抗干扰算法改进,实现对无线网络的数据传输信道优化和均衡设计,提高数据通信码的保真性传输能力。仿真结果表明,采用该算法能有效实现无线网络数据传输信道优化构建,信道的均衡性能和抗干扰性能较好,降低了数据传输的误比特率。  相似文献   

9.
介绍一种基于优化指纹识别算法的移动存储器设计,要求用户读写操作时进行指纹确认,并根据指纹正确与否以及输入次数进行相关处理,还具有无线传输数据至存储器等功能。将优化指纹算法与无线传输技术移植到存储器中,相比传统的移动存储器方案,它使文件信息传输更便捷,存储数据传输安全性更高,有效解决了存储器丢失和对于数据传输中突发事件处理的问题,为保密性要求高的场合提供了一种新方案。  相似文献   

10.
介绍了一种在实时操作系统DSP/BIOS平台下的雷达信号实时采集、处理与传输系统的设计和实现,利用TMS320C6416DSP强大的数据处理能力和其片内集成的PCI总线接口,满足了雷达信号处理中高数据传输率和高速处理能力的需要。  相似文献   

11.
为了给被动声探测技术研究提供实验验证平台,设计了一种可以进行实时数据采集和处理的系统方案.整个系统以数字信号处理器(DSP)和现场可编程门阵列(FPGA)为基本架构,由FPGA控制模数转换器(ADC)采集数据,通过USB 2.0电路将数据传送给个人计算机(PC),用于初期的离线验证;FPGA将采集到的数据通过外部存储器接口(EMIF)传递给DSP,用于实时处理.实验证明:系统实现了被动声探测中的实时数据采集、离线数据存储.数据采集与数据处理分别由不同处理器执行,提高了系统的响应速度与处理性能,能够满足探测系统的实时性要求.  相似文献   

12.
主DMA模式下PCI总线数据传输的DSP实现   总被引:1,自引:0,他引:1  
研究了基于PCI总线的DMA数据传输系统,着重描述了利用TMS320DM642DSP芯片实现PCI总线DMA数据传输的方法。以DM642作为PCI主设备控制并启动DMA数据传输,给出了主DMA模式下数据传输系统的实现结构及工作流程,并配合内存映射、双缓冲等方法,取得了良好的数据传输性能。  相似文献   

13.
为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能力,根据FT-M7002平台向量存储器的层次结构特征,分析Canny梯度计算并行算法的访存模式,通过首地址偏移取址解决不连续访存问题,并结合双缓冲方式完成数据传输与数据计算。实验结果表明,在与原始Canny算法具有相同检测精度的情况下,该算法在卷积核大小为3×3、5×5、7×7时整体运行速度提升了1.490~2.112倍,缩小了与主流加速器件在数字图像处理领域的性能差距。  相似文献   

14.
国产自主研发的飞腾系列高性能DSP处理器在图像处理领域的应用,对面向该平台的高性能图像处理算法提出了强烈需求.高斯滤波作为图像处理的基础算法,能有效滤除图像中的高斯噪声,在图像处理领域具有广泛应用.针对飞腾高性能DSP的体系结构特点与高斯滤波算法特性,实现了面向飞腾高性能DSP的高斯滤波算法优化.通过手工向量化、控制流消除和循环展开等优化手段充分利用数据级与指令级并行性,从而减少数据访存次数,提高指令执行效率.针对FT-M T2内核中的DM A硬件及向量存储器结构特点,进行了"乒-乓"缓存、DM A数组转置等优化,以减少数据传输时间,提高数据局部性.多种滤波核大小及图像矩阵规模下的测试结果表明,相对于高斯滤波算法的串行实现,该并行优化实现获得了1.3~1.41倍的加速比.在开启Cache的情况下,相较于dsplib库中高斯滤波算法在T M S320C6678平台上的运行性能,获得了1.15~1.71倍的加速效果.  相似文献   

15.
刘毅飞  张旭明  丁明跃 《计算机应用》2011,31(12):3334-3336
为了满足图像处理对处理器性能的高要求,以基于灰度的归一化互相关(NCC)匹配算法为例,采用高性能、低功耗的多核数字信号处理器(DSP)系统,根据归一化互相关算法中模板图像在源图像中逐个像素搜索并计算相关性的特点,将搜索区域分成六个部分并使TMS320C6472的六个核并行搜索计算这六个区域,并在不同图像存储位置采用不同图像和模板大小实现了多核DSP归一化互相关图像匹配算法。实验结果表明,多核DSP具有作为数字信号处理器的高速信号和图像处理的特点,同时可以根据不同算法通过核间任务分配实现多核并行处理。对于归一化互相关灰度图像匹配算法,TMS320C6472六核DSP和单核DSP比较获得接近单核DSP六倍的性能,对于较大尺寸的图像和PC相比也具有一定的性能加速。  相似文献   

16.
New and proposed communication systems are entirely digital, including Voice over Internet Protocol tasks as well as traditional data packets, fax, etc. Numerous digital signal processing (DSP) algorithms are available to encode and decode these signals, each having different requirements for data memory, program memory, and processor speed. A DSP multiprocessor having numerous DSP cores receives a stream of requests for encoding and decoding tasks. A service request is “blocked” if no DSP core can handle the task when it arrives. We present algorithms for assigning DSP tasks to cores in order to minimize the number of blocked tasks. This is similar to an online bin-packing problem with the important difference that the program memory can be shared between simultaneous service requests for the same DSP algorithm. Since bin-packing is known to be NP-complete, we develop fast heuristic online methods for this problem.  相似文献   

17.
在采用并行超长指令字结构的DSP芯片中,CPU处理速度与片外数据存取速度不匹配的问题,导致了CPU处理延时,限制了DSP系统性能的提升,针对这一问题,根据Cache的结构提出一种适宜于在DSPCPU上进行视频数据处理的数据排列新算法,并且将其成功地应用到基于Trimedia PNXl301的MPEG-4程序优化工作中,系统编码结果表明,该方法有效地减少了Cachemiss及片外数据存取的时间开销,在同等条件下,采用本算法后系统编码性能提高2帧/秒(CIF格式)左右。  相似文献   

18.
Most scientific and digital signal processing (DSP) applications are recursive or iterative. The execution of these applications on a chip multiprocessor (CMP) encounters two challenges. First, as most of the digital signal processing applications are both computation intensive and data intensive, an inefficient scheduling scheme may generate huge amount of write operation, cost a lot of time, and consume significant amount of energy. Second, because CPU speed has been increased dramatically compared with memory speed, the slowness of memory hinders the overall system performance. In this paper, we develop a Two-Level Partition (TLP) algorithm that can minimize write operation while achieving full parallelism for multi-dimensional DSP applications running on CMPs which employ scratchpad memory (SPM) as on-chip memory (e.g., the IBM Cell processor). Experiments on DSP benchmarks demonstrate the effectiveness and efficiency of the TLP algorithm, namely, the TLP algorithm can completely hide memory latencies to achieve full parallelism and generate the least amount of write operation to main memory compared with previous approaches. Experimental results show that our proposed algorithm is superior to all known methods, including the list scheduling, rotation scheduling, Partition Scheduling with Prefetching (PSP), and Iterational Retiming with Partitioning (IRP) algorithms. Furthermore, the TLP scheduling algorithm can reduce write operation to main memory by 45.35% and reduce the schedule length by 23.7% on average compared with the IRP scheduling algorithm, the best known algorithm.  相似文献   

19.
基于DSP和单片机的双CPU数据处理系统   总被引:13,自引:0,他引:13  
基于现实中很多嵌入式系统要求处理器实时处理数据或者实现复杂算法的同时还要能完成各种控制任务,提出了一种基于TMS320VC5402DSP和AT89C51单片机构建的双CPU数据处理系统的设计方案,充分发挥出DSP的数据处理能力和单片机的外围接口控制能力。文中详细介绍了该系统中DSP存储器的配置以及DSP与单片机通信接口的设计,给出了软硬件的实现方法。系统还设计了液晶显示模块和键盘模块作为人机交互接口,给出了硬件接口原理图,对软件编程的实现也做了探讨。目前该方案正实施于一个舰载智能接口箱的开发项目。  相似文献   

20.
G.729A语音编码算法DSP优化与高速实现   总被引:1,自引:0,他引:1  
提出了一种将G.729A语音编码算法在TMS320C55xDSP上高效实现的方法,并根据C55x系统结构提供的特性,通过使用双乘加运算、指令并行、循环展开、C55x的专用指令等方法对算法作了高质量的优化,优化实现后的G.729A的运算速度是8.76MCPS,需要15.2kw的程序空间和3.2kw的数据空间,实验结果证明本方法具有运算效率高、代码量少等特点,文中提出的一系列优化方法同样适用于基于C55xDSP等芯片系列其它代码的优化.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号