共查询到20条相似文献,搜索用时 109 毫秒
1.
在分析GCC结构的基础上,总结了GCC在高性能微处理器DSP和CPU上移植的解决方案,并比较了DSP、CPU和RISC结构的处理器在移植上的差别,重点介绍了GCC对DSP和CPU信号处理功能的支持以及指令分组和指令执行分组在GCC中的实现。 相似文献
2.
多线程计算模型、体系结构与编译技术 总被引:3,自引:0,他引:3
1 引言在过去的30年里,计算机体系结构经历了长足的发展,超标量、超流水线、VLIW等先进思想显著地提高了计算机的性能,但这些单线程的体系结构在提高指令级并行度方面也面临着巨大的困难。多线程体系结构被认为是一种提高并行度的有效模型,它结合了数据流结构和传统的冯·诺依曼控制流结构,既保持了指令执行的高性能,又实现了处理器的高 相似文献
3.
4.
本介绍一个采用VLIW超长指令字体系结构的高性能单片多处理机,在这个体系结构中采用流水寄存器堆来消除循环程序内的数据相关,从而使程序能够在指令级以极高的并行度并行运行。模拟实验结果表明这个体系结构具有很高的运算速度和很好的性能价格比。 相似文献
5.
6.
7.
YHFT-DX是国防科技大学设计的一款高性能定点DSP。论文设计并实现了YHFT-DX指令控制流水线,提出了在YHFT-DX 超长指令字结构中跨取指包边界派发和指令预取的方法,有效提升了流水线的性能。对指令流水线进行了高频结构优化,将派发部件的关键路径延时压缩40%,满足了600 MHz频率的设计目标。 相似文献
8.
魂芯DSP是一款采用VLIW和SIMD架构的针对高性能计算领域而设计的32bit静态标量数字信号处理器.为了满足数字高性能计算的性能要求,魂芯DSP提供了丰富的复数指令,而编译器不能直接利用这些复数指令来提升编译性能.因此针对魂芯DSP芯片提供了大量的复数类操作指令的特点,在传统开源编译器Open64的编译框架基础上进行研究,实现了复数作为编译器基础类型和复数运算操作的支持.同时,通过识别特定的复数类操作的模式利用魂芯DSP上的复数类指令对程序编译优化.实验结果表明,该实现方案在魂芯DSP编译器上对复数程序优化后能够取得平均5.28的加速比. 相似文献
9.
国产自主研发的飞腾系列高性能DSP处理器在图像处理领域的应用,对面向该平台的高性能图像处理算法提出了强烈需求.高斯滤波作为图像处理的基础算法,能有效滤除图像中的高斯噪声,在图像处理领域具有广泛应用.针对飞腾高性能DSP的体系结构特点与高斯滤波算法特性,实现了面向飞腾高性能DSP的高斯滤波算法优化.通过手工向量化、控制流消除和循环展开等优化手段充分利用数据级与指令级并行性,从而减少数据访存次数,提高指令执行效率.针对FT-M T2内核中的DM A硬件及向量存储器结构特点,进行了"乒-乓"缓存、DM A数组转置等优化,以减少数据传输时间,提高数据局部性.多种滤波核大小及图像矩阵规模下的测试结果表明,相对于高斯滤波算法的串行实现,该并行优化实现获得了1.3~1.41倍的加速比.在开启Cache的情况下,相较于dsplib库中高斯滤波算法在T M S320C6678平台上的运行性能,获得了1.15~1.71倍的加速效果. 相似文献
10.
数字信号处理器(DSP)结构设计及发展趋势 总被引:4,自引:0,他引:4
高速信息化的时代需要更高性能的数字信号处理器(DSP),以满足网络通信和3G移动通信等方面的要求。该文分析了早期DSP处理器的结构特点和当今最先进的体系结构,结合应用背景着重探讨了不同DSP体系结构和它们各自的优势和劣势,在研究了数字信号处理新应用领域的特点后,根据今后的半导体制造工艺和微处理器体系结构设计的发展,指出了DSP处理器在微结构设计方面的发展趋势。 相似文献
11.
主机扩展总线接口E-Bus是为自主研发的数字信号处理器(DSP)芯片YHFT-DSP开发的外围并行接口,能有效支持DSP与各种同步、异步接口的商业标准主机进行数据交换。为了有效地研制、测试和应用E-Bus,开发了一套基于E-Bus的DSP仿真测试平台。该平台采用软硬件协同仿真和现场可编程门阵列(FPGA)技术实现了E-Bus和USB2.0接口的协议变换。实验结果表明,测试平台具有良好的操控界面,实现了E-Bus主/从两种模式下外部主机与YHFT-DSP之间的数据交换。 相似文献
12.
针对嵌入式和移动设备对处理器高性能低功耗日趋强烈的要求,提出一种基于MIPS指令集的顺序超标量和超长指令字混合架构处理器设计方案,便于以同构多核架构代替目前业界普遍采用的CPU与DSP异构结构,降低功耗面积,同时以VLIW模式获得较好的DSP性能。在PD(Processor Designer)平台下以LISA语言建立处理器的周期精度软件模拟器,通用性能和DSP性能分别由dhrystone、coremark基准测试程序及EEMBC的telecom测试程序进行验证。测试结果表明该设计以较低的硬件开销通过混合架构获得较高的数字信号处理性能,在高性能低功耗的处理器应用场景中拥有良好的适用性。 相似文献
13.
对采用谓词执行优化技术后的编译代码,为了更高效地进行寄存器分配,首先介绍了Sias等人提出的一种基于二进制决策图(BDD)的谓词分析系统;然后在其基础上,对传统寄存器分配算法进行改进,给出了一种建立精化干涉图的新算法;最后将算法在学院研制的YHFT—DSP/700芯片的编译器上实现,实验结果表明,减少了所需寄存器数目,缩短了代码执行时间,获得了较好的性能提高. 相似文献
14.
Embedded Parallel computing architecture with Unique Memory Access (ePUMA) is a domain-specific embedded heterogeneous 9-core chip multiprocessor, which has a unique design with low power and high silicon efficiency for high-throughput DSP in emerging telecommunication and multimedia applications. Sorting is one of the most widely studied algorithms, more embedded applications also need efficient sorting. This paper proposes an efficient bitonic sorting algorithm eSORT for the novel ePUMA DSP. eSORT algorithm consists of two parts: an in-core sorting algorithm and an intra-core sorting algorithm. Both algorithms are adapted to the novel architecture and take advantage of the ePUMA platform. This paper implemented and evaluated the eSORT for variable datasets on ePUMA multi-core DSP and compared its performance with the Cell BE processors with the same SIMD parallelization structure. Results show that bitonic sort on ePUMA multi-core DSP has much better performance and scalability. Compared with optimized bitonic sort on Cell BE, the in-core sort is 11 times faster and intra-core sort is 15 times faster in average. 相似文献
15.
16.
Multi-core architectures are widely used to enhance the microprocessor performance within a limited increase in time-to-market and power consumption of the chips.Toward the application of high-density data signal processing, this paper presents a novel heterogeneous multi-core architecture digital signal processor(DSP),YHFT-QDSP,with one RISC CPU core and 4 VLIW DSP cores.By three kinds of interconnection,YHFT-QDSP provides high efficiency message communication for inner-chip RISC core and DSP cores,inne... 相似文献
17.
分簇结构超长指令字DSP编译器的设计与实现 总被引:5,自引:0,他引:5
超长指令字(VLIW)是高端DSP普遍采用的体系结构。VLIW DSP在硬件上没有调度和冲突判决的机制,其性能的发挥完全依靠编译嚣的优化效果.基于可重定向编译基础设施IMPACT,为分簇VLIW DSP YHFT—D4设计与实现了优化编译器.其中着重讨论了可重定向信息的定义、代码注释、SIMD指令的支持、分簇寄存器分配以度指令级并行开发和资源冲突解决等内容.实验结果表明该编译器可以达到较好的优化效果. 相似文献
18.
The characteristics of benchmark digital signal processing (DSP) algorithms are examined. These characteristics are used to suggest the features of an ideal DSP architecture, which is compared to current DSP and reduced instruction set computer (RISC) architectures. Timing comparisons taken from data books and research show that several on-the-market RISCs have a DSP performance close to or better than some DSP chips. Analysis of these DSP and RISC architectures leads to the suggestion of an ideal low-cost RISC DSP chip 相似文献
19.
20.
VLIW DSP体系结构及其性能优化的软件方法 总被引:5,自引:0,他引:5
影响DSP系统性能的因素主要有DSP处理器的体系结构、存储器系统、外设接口等硬件技术和程序优化等软件技术,其中软件的优化设计在DSP性能优化中起着越来越重要的作用。文章简要介绍了常见DSP系统的体系结构和存储器组织方法,并通过实例说明了对VLIW DSP系统进行软件优化的几种技术。 相似文献