首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,本文根据数字图像的卷积定理对数字图像的卷积运算进行了分析,并提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了卷积模板为3×3的图像卷积运算,从而实现了对卷积计算的硬件加速目的。最后,对这个图像卷积处理器体系结构的性能及其可扩展性进行了缜密的分析。  相似文献   

2.
随着计算机体系结构的发展,处理器运算单元速度大大提高,存储器速度成为处理器性能提高的瓶颈。通过实际分析,提出解决该问题的方法与途径。一个好的存储体系结构能够大大改善处理器性能。选取合适的缓存大小、路组,建立多级缓存结构,采用Wwrite buffer、victimcache和stream buffer可以进一步缓解暂停处理器运算单元流水线所带来的性能下降问题。  相似文献   

3.
网络处理器是推动下一代网络发展的核心技术。本首先分析了网络处理器的基本结构,对其并行处理模型进行了深入研究;然后针对网络处理器体系结构的特点,提出一种数据分析驱动的网络处理器设计方法。本最后还介绍了网络处理器技术发展的新趋势。  相似文献   

4.
基于网络处理器的路由器体系结构   总被引:2,自引:0,他引:2  
目前许多半导体厂商开始销售一种称为网络处理器的芯片。网络处理器和通用微处理器很相似,但在报文处理能力方面作了优化,从而特点适合于网络通信设备。文章从路由器的体系结构出发,对传统通用处理器和网络处理器实现报文处理的方法进行了比较,最后对网络处理器转发引擎作了详细的分析。  相似文献   

5.
6.
7.
8.
LS SIMD计算机的并行技术   总被引:2,自引:0,他引:2  
文章主要讨论了LSSIMD计算机中所采用的并行技术数据并行技术、三级指令流水线并行技术与三组指令并行执行技术。  相似文献   

9.
本文阐述了卷积神经网络的基本概念,并基于此引出全卷积神经网络和带孔卷积等卷积神经网络,对其含义、优缺点及其在图像语义分割中的应用进行了进一步的介绍和总结。本文阐述了卷积神经网络的基本概念,并基于此引出全卷积神经网络和带孔卷积等卷积神经网络,对其含义、优缺点及其在图像语义分割中的应用进行了进一步的介绍和总结。  相似文献   

10.
11.
为了获得尽可能高的并行计算单元的计算能力,对SIMD图像处理机的存储系统进行了深入研究.该存储系统根据图像处理应用的特点,使用基于编译获得的数据流存取全局信息进行数据流调度,有效地提高了数据存取的速度,满足了并行计算单元对数据存取速度的要求,为SIMD图像处理机系统性能的提高提供了支持.  相似文献   

12.
浅谈嵌入式处理器体系结构   总被引:1,自引:0,他引:1  
嵌入式系统一般指非PC系统,它包括硬件和软件两部分。其中嵌入式处理器是嵌入式系统硬件的核心。详细介绍了流行的嵌入式处理器体系结构及性能,分析了嵌入式处理器对嵌入式系统性能的影响及发展趋势。  相似文献   

13.
本文给出了-基于C40DSP的新颖阵列图象处理系统.该阵列采用了全局互连网络和局部互连网络,构成了一分布式存贮器体系和共享存贮器体系相结合的存贮器体系结构.理论研究表明,阵列处理器的性能有了明显的改善.阵列处理器的最大峰值指标可达:800MFLOPS、4.4BOPS和22.4Gbits/s.  相似文献   

14.
朱玉飞  戴紫彬  徐进辉  李功丽 《电子学报》2017,45(12):2957-2964
以信息安全设备的密码应用需求为基础,融合流体系结构处理器基本架构,设计出流体系结构密码处理器.文章主要研究和设计影响该处理器性能的瓶颈--流存储系统.此系统针对专用密码处理器的存储特点,并采用可配置化设计,满足密码应用对处理器存储系统灵活高效的要求.同时,该设计将层次化-分布-分体式存储、多数据通道流水并行化访存、流访存调度策略相结合,优化存储系统的访存效率,以提高该处理器的整体性能.研究结果表明,相比于典型密码处理器的存储设计,该设计的访存效率最高可提升约6倍.  相似文献   

15.
该文在阐述了灰度图像顺序形态变换的基础上,介绍了顺序形态变换硬件实现的图像处理系统。该系统采用DSP+FPGA的框架结构,利用FPGA的可重构特性将其中一片FPGA作为协处理器可以实现不同的图像处理功能。文中将软硬件实现的顺序形态图像处理图片在处理效果和速度两个方面作了比较。算法在FPGA芯片上的高速实现特征使数学形态学在图像实时处理领域的应用成为可能。  相似文献   

16.
We explore the energy dissipation of the Linear Processor Array (LPA) as a function of the number of available resources (Processor Units P) within the array. This number P is an important parameter, as it reflects performance, relates parallel processing to energy dissipation, and influences the scaling of the various parts of the LPA architecture (memory, address generator, communication network).To make a comparison of the different design variants for a fixed datawidth possible, we propose a high-level energy dissipation model of the processor, which is based on a detailed analysis of a general convolution algorithm.It is shown that the energy dissipation of the LPA can roughly be described by the relationship E total N/P with N presenting the datawidth in pixels. This relationship is derived from two observations: first, the largest contribution to E total is formed by the energy dissipated by the memories, and second, in our model of the LPA, the datawidth of the memories corresponds with the number of pixels N to be processed, which results in an increase of the access rate when P decreases.Furthermore, we have shown that the energy dissipation caused by communication within the LPA, increases with increasing number of resources: the trade-off between communication versus computation in parallel computing. This turns out to be negligible in the total energy dissipation, and we therefore conclude, that the optimum solution is found, when a full number of resources is applied within the LPA.  相似文献   

17.
一种高性能FFT处理器的VLSI结构设计   总被引:5,自引:0,他引:5  
孙阳  余锋 《微电子学》2003,33(4):358-361
针对高速数字信号处理的特点,研究了一种高性能FFT处理器的硬件结构。计算单元采用基4并行算法,使得基4碟形运算可以在一个时钟周期内完成,极大地提高了计算速度。根据该硬件结构,使用硬件描述语言和采用自顶向下的设计方法,完成了FFT处理器的电路设计。经硬件验证,达到设计要求。在系统时钟频率为100MHz时,1024点复数FFT的计算时间为12.8μs。  相似文献   

18.
基于流体系结构的高效能分组密码处理器研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对现有密码处理器存在的问题,借鉴流处理器架构,提出了高效能的可重构分组密码流处理器架构.该架构采用层次化设计思想,通过分块式本地寄存器组的数据组织方式和共享拼接使用运算单元机制,实现了软件流水和硬件流水的协同工作,能够挖掘分组内和分组间的指令级并行性并提高功能单元的利用率.在65nm CMOS工艺下对架构进行了综合仿真,并经过了大量算法映射.实验结果证明,该架构在CBC和ECB加密模式下均具有良好的加密性能.与其他密码处理器相比,该架构具有小面积、高效能的特点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号