首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
This paper describes the design and implementation of the massively parallel processor based on the matrix architecture which is suitable for portable multimedia applications. The proposed architecture in this paper achieves the high performance of 40 GOPS in the case of consecutive fixed-point 16-bit additions at 200MHz clock frequency and the small power dissipation of 250mW. In addition, 1Mbit SRAM for data registers and 2048 2-bit-grained processing elements connected by a flexible switching network are integrated in the small area of 3.1 mm 2 in 90nm CMOS low standby technology. These design techniques and architectures described in this paper are attractive for realizing area-efficient, energy-efficient, and high-performance multimedia processors  相似文献   

2.
多DSP并行处理器的设计与实现   总被引:1,自引:0,他引:1  
采用ADI公司的4片ADSPTS201作为主处理芯片,以LINK口互连的松耦合结构和Clust总线互连的紧耦合结构作为多DSP的拓扑互连形式,设计并研制了基于PCI的高速并行信号处理器。该处理器在设计上采用CadenceSPB15.5做了充分的信号仿真,保证了系统的信号完整性,经测试系统运行稳定。同时,该信号处理器具备松耦合和紧耦合2种互连方式,可满足更多种形式的算法结构,在图像处理、实时信号处理能方面有较好的应用价值。  相似文献   

3.
本文首先论述了超常指令字VLIW和多核处理器体系结构,重点介绍了华威处理器的设计。该处理器是一款基于VLIW和SIMD体系结构的多核微处理器,本文重点对该处理器的体系结构、指令调度和编译优化技术进行了介绍,并给出了采用推断推测技术的优化结果。  相似文献   

4.
基于ADSP-21160的雷达脉冲压缩并行处理机的设计   总被引:9,自引:0,他引:9  
贺知明  黄巍  张剑  向敬成 《信号处理》2002,18(5):473-476
本文采用以多片通用DSP芯片ADSP-21160为核心建立并行处理机平台,通过多片并行FFT和IFFT运算,高效实现了频域数字脉冲压缩处理。在并行算法研究的基础上,设计并优化了一个高并行效率的雷达信号数字脉冲压缩系统,得出了相应的实验结果。  相似文献   

5.
为了解决当前椭圆曲线密码处理器普遍存在灵活性低、资源占用大的问题,该文采用统计建模的方式,以面积-时间(AT)综合性能指标为指导,提出了一种面向椭圆曲线密码并行处理架构的量化评估方式,并确定3路异构并行处理架构可使处理器综合性能达到最优。其次,该文提出一个分离分级式存储结构和一个运算资源高度复用的模运算单元,可增强存储器的访问效率和运算资源的利用率。在90 nm CMOS工艺下综合,该文处理器的面积为1.62mm2,完成一次GF(2571)和GF(p521)上的点乘运算分别需要2.26 ms/612.4J和2.63 ms/665.4J。与同类设计相比,该文处理器不仅具有较高的灵活性、可伸缩性,而且其芯片面积和运算速度达到了很好的折中。  相似文献   

6.
文中结合PicoJava和JOP等一些经典的Java处理器的优势,设计了一种基于RISC结构的Java处理器.它充分利用了Java指令折叠技术和精简指令集处理器的优势,不仅降低了设计复杂度,而且在很大程度上提高了Java处理器的性能.  相似文献   

7.
众核处理器的并行计算为AVS并行解码器的实现提供了基础,本文提出了一种功能并行和数据并行混合的并行设计方案,该方案采用了帧间和宏块行的两级并行。本文使用的是Tilera推出的Tile-Gx36众核处理器,同时利用该处理器提供的SIMD指令集进行了反量化、反变换、插值等模块的优化。实验结果表明该设计具有良好的并行加速比,可以在6个核的条件下完成1路AVS高清实时解码。  相似文献   

8.
《电子与封装》2016,(8):14-18
基于FIR算法在数字信号处理系统中的重要性以及当前对于高性能实时处理的需求,在一款可重构专用处理器平台上实现了FIR算法的并行化。并且对传统的直接型乘累加器进行了改进,提出了一种效率更高、延时更低的乘累加器,提高了FIR算法的性能。实验结果表明,设计的并行FIR滤波器误差在10~(-8)量级,对大于1 k点的FIR运算并行化效率达95%以上,加速比达3.85以上。  相似文献   

9.
长期演进(LTE)系统对调度时延提出了非常严格的时间要求,并且LTE的空口速率很大,这对处理基带部分的器件提出了非常高的要求,原来的单核处理器已经不能满足系统的需求。本文利用多核处理器实现LTE上行解调、译码的并行处理,并设计了多核并行处理方法,通过测试结果的分析,这种方法取得了很好的效果。  相似文献   

10.
The Long Term Evolution (LTE) system imposes high requirements for dispatching delay.Moreover,very large air interface rate of LTE requires good processing capability for the devices processing the baseband signals.Consequently,the single-core processor cannot meet the requirements of LTE system.This paper analyzes how to use multi-core processors to achieve parallel processing of uplink demodulation and decoding in LTE systems and designs an approach to parallel processing.The test results prove that this approach works quite well.  相似文献   

11.
提出了一种通用、高效的基于FPGA的多DSP并行处理系统,并对其进行了仿真。从仿真结果来看,该系统的数据读写时序与DSP芯片要求的数据读写时序完全吻合,可实现数据的高速并行处理,并达到了设计的目的。  相似文献   

12.
网络处理器是推动下一代网络发展的核心技术。本首先分析了网络处理器的基本结构,对其并行处理模型进行了深入研究;然后针对网络处理器体系结构的特点,提出一种数据分析驱动的网络处理器设计方法。本最后还介绍了网络处理器技术发展的新趋势。  相似文献   

13.
陈虎  董会宁  范逵  董健 《通信技术》2009,42(6):210-213
为了解决AHB片上总线有限带宽的问题,文中在其基础上,介绍了一种交叉互连矩阵结构的多层AHB总线,并从各子模块设计、以及各子模块之间的相互通信描述了多层AHB总线设计及其实现。最后对其进行系统级仿真,此总线结构极大地提高了片上系统传输带宽。  相似文献   

14.
该文提出了一种电流型CMOS电路的并联开关结构,使得电流型CMOS电路能在较低的电源电压下工作,因而可以实现电路的低功耗设计,同时在相同的电源电压下,采用并联开关结构的电路比相应的串联开关电路具有更快的速度,PSPICE模拟证明了采用并联开关结构设计的电路能在较低的电源电压下工作,并具有较小的电路延时。  相似文献   

15.
文章分析了CORDIC处理器的各种结构。给出了如何在电路结构级根据具体设计要求对面积、时间和吞吐量等性能进行折衷的设计方法,并用该方法设计实现了面向空间应用、符合IEEE-754单精度标准、采用粒度为2的流水结构的高性能CORDIC处理器。该设计方法对CORDIC处理器的电路结构级设计有重要的指导和借鉴意义。  相似文献   

16.
介绍了一种基于ADI公司的双片ADSP-TS201S型DSP芯片的数字信号处理器并行工作模式的设计。采用EPROM加载和链路口加载的方式分别对主片和从片进行程序的引导加载。简单介绍两片DSP的分工工作模式:其中主片DSP可以用于与外部进行数据交互通信和对双片DSP的控制管理;从片DSP可以专用于整个系统核心算法的实现。两片DSP通过DMA中断进行算法的同步以保证整个系统的实时运转。大致介绍系统构成,远程管控的实现方式。详细介绍主片的远程参数数据库和核心算法程序的更新所采用的设计方法。主片接收外部传递的信息及数据采用中断模式进行。  相似文献   

17.
一种基于高度并行结构的二维DCT/IDCT处理器设计   总被引:8,自引:2,他引:6  
本文介绍一种适用于MPEG-4视频简单层(Simple Profile Layer1-3)压缩编码的二维88 DCT/IDCT处理器设计,该处理器设计充分利用DCT与IDCT的相似性及算法对称性,用高度的并行结构来加快处理速度,采用一维DCT/IDCT单元复用的方式来实现二维DCT/IDCT运算和简化的乘法器设计,在满足处理速度和精度要求的基础上,利用较少的晶体管数目实现了一种高性能二维DCT/IDCT处理器。  相似文献   

18.
In this paper PAPRICA, a massively parallel coprocessor devoted to the analysis of bitmapped images is presented considering first the computational model, then the architecture and its implementation, and finally the performance analysis. The main goal of the project was to develop a subsystem to be attached to a standard workstation and to operate as a specialized processing module in dedicated systems. The computational model is strongly related to the concepts of mathematical morphology, and therefore the instruction set of the processing units implements basic morphological transformations. Moreover, the specific processor virtualization mechanism allows to handle and process multiresolution data sets. The actual implementation consists of a mesh of 256 single bit processing units operating in a SIMD style and is based on a set of custom VLSI circuits. The architecture comprises specific hardware extensions that significantly improved performances in real-time applications.  相似文献   

19.
基于LEON2处理器的SoC设计   总被引:2,自引:0,他引:2  
SoC已逐渐成为集成电路设计的主流发展趋势,而其中的微处理器部分尤为重要.选用LEON2处理器核,是一款可合成的VHDL模型,是基于SPARC V8结构的32位处理器,具有高度的可配置性,尤其适用于SoC设计,设计者可为其特定应用选择不同的外围设备IP核.本文介绍了LEON2处理器核的基本特征及其外围设备的IP核,主要讨论了基于LEON2处理器的SoC设计.  相似文献   

20.
This paper presents an implementation approach for the test of routers in a fine grain massively parallel architecture. First, an ad hoc test technique which diffuses test messages router by router is analyzed. Even though the technique does not add hardware, it is shown inefficient and not applicable due to practical constraints such as the limited number of pins of the chip implementing the machine. Based on a hierarchical implementation of the IEEE 1149.1 standard, two approaches are proposed and compared in terms of the area overhead, the overall test time and the flexibility in applying tests and diagnosing the routers inside the machine. The basic idea for both approaches is to construct groups of basic cells which are driven by the same test block and compare their test results after the same test vectors are applied at each cell input. The two approaches differ in the granularity of a basic cell. The choice of an implementation approach is not trivial. It is shown that each approach presents better performance than the other, that is, the approach which allows better fault coverage and less test time requires more silicon and less diagnostic possibilities compared to the second approach.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号