首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
针对移动图形处理器对高能效和灵活性的需求,提出一种可重构背面剔除单元的设计方法。根据背面剔除算法的不同实现形式,采用可重构阵列结构,通过4×4个多核处理单元对乘加运算进行并行处理,其中包括对数据的拆分与准备、乘加运算、以及对不同计算方式的可重构切换,完成可重构背面剔除单元的设计。所设计的可重构背面剔除单元,能够对不可见的背面进行正确剔除,工作频率为121.18 MHz,与专用硬件实现相比,更具灵活性。  相似文献   

2.
针对面向图形的多台阵列架构,提出一种实现H.264/AVC视频编码的整数离散余弦变换并行处理算法。利用整数离散余弦变换蝶形快速变换,设计通过16个处理元并行工作的算法程序,将程序映射到面向图形的多台阵列架构仿真模型中进行整数离散余弦变换并行化运算。仿真结果表明,该算法完成一次整数离散余弦变换运算只需66个时钟数,相比于串行运算提高了77%,实现了整数离散余弦变换的并行化。  相似文献   

3.
本文提出了一种快速实现高分辨率星载合成孔径雷达(SAR)数字成像的方法.该算法快速、有效地对美国星载SIR-B录取的原始数据进行了计算机数字成像,得到一幅面积为25km×20km、分辨率为25m×25m的雷达图像,并设计了一种由脉动阵列位处理芯片BAP-128组成的并行机,该并行机为64×64阵列结构,完成一幅SIR-B卫星图像的成像需117秒左右.如果阵列扩展到256×256,仅需7秒多便可成一幅图像.  相似文献   

4.
根据基2分解的FFT算法理论,采用了流水线与并行结合的方式,设计了一种基于FPGA芯片的FFT计算模块.该模块由地址控制单元和存储单元配合蝶形运算单元,实现了计算长度为1 024点、数据类型为32位浮点型的FFT计算.测试结果表明,该模块在CycloneIII芯片中耗用3 928个LE和123kb的存储器资源,稳定工作频率可达110 MHz,完成1 024点FFT变换时间为95.66μs,具有良好的运算性能.  相似文献   

5.
针对多视点视频编码中去块滤波算法处理复杂、计算耗时等问题,通过分析去块滤波算法的可并行性和数据相关性,提出了一种并行化映射方案。利用面向视频编解码的动态可编程可重构阵列处理器DPR-CODEC(Dynamic Programmable Reconfigurable array processor)平台,设计并实现了基于阵列处理器的去块滤波并行算法。实验结果表明,该方法与单核处理器的串行实现方案相比数据加载时间降低了30.9倍、算法执行和总处理时间加速比分别达到12.3和28.0,有效减少了视频编解码时间,提高了去块滤波算法的运算效率。  相似文献   

6.
阐述了一种自适应抗干扰阵列信号处理系统的高速实现.算法采用基于QR分解的最小二乘算法,在系统的设计中采用了ARLA技术.ARLA技术通过引入并行机制把串行的自适应阵列信号处理算法转换成了并行的自适应阵列信号处理算法.ARLA技术的采用使基于QR分解的最小二乘算法具有优良的流水粒度.文章阐述了系统的硬件构架,该构架的宏单元可以由能够完成Givens旋转的CORDIC运算单元来充当,而且可以在不损失收敛速度的前提下达到很高的采样速率.  相似文献   

7.
针对高速数字信号处理的要求,提出用FPGA实现基-4FFT算法,并对其整体结构、蝶形单元进行了分析.采用蝶算单元输入并行结构和同址运算,能同时提供蝶形运算所需的4个操作数,具有最大的数据并行性,能提高处理速度;按照旋转因子存放规则,蝶形运算所需的3个旋转因子地址相同,且寻址方式简单;输出采取与输入相似的存储器;运算单元同时采用3个乘法的复数运算算法来实现.  相似文献   

8.
在色选领域中,针对高频相机要传输和处理的数据量大的特点,采用FPGA作为处理芯片,设计基于Camera Link标准的高频线阵CCD数据采集与处理系统。该系统运用FPGA芯片完成数据采集和时序控制,高性能DSP完成复杂的算法运算。阐述系统的整体设计思路、硬件结构和工作流程,包括Camera Link接口技术、高速缓存,FIFO接口技术以及图像输出控制等。该系统经过试验验证,能够稳定地实现图像数据的传输、存储与处理。  相似文献   

9.
针对纳米级半导体制造工艺中传统测试芯片掩模面积利用率低的问题,提出一种基于模块化单元的可扩展成品率测试结构阵列设计方法.基于45nm CMOS制造工艺分别实现32×32和64×64 2个大规模的测试结构阵列,模块化单元的有效面积利用率达79.31%和70.8%;流片后通过测试数据的分析能够发现通孔缺失、通孔尺寸变大以及大尺寸缺陷导致金属缺失等工艺缺陷问题.试验结果同时表明,该方法将传输门器件和测试结构组合成模块化单元;不仅能够实现对测试结构的四端测量,保证测试结果的正确性,并且能够减小成品率测试芯片的掩模面积.  相似文献   

10.
针对商用CPU的专用许可证授权费用高和卷积神经网络性能提升等问题,提出了一种基于多视图并行且具有可配置性的卷积神经网络加速器设计,同时结合RISC-V构建该加速器的片上系统。首先,扩展一组适用高速协加速器的控制访问接口和数据访问接口。其次,卷积神经网络各运算单元以多视图并行与结构复用实现。视图并行的不同组合将影响卷积单元硬件电路结构,因此多视图并行可通过复用基本运算结构来完成。池化单元由行池化和列池化子单元构成,且共享行池化的运算结构。对于全连接单元,采用调整全连接运算参数的方法来适应卷积单元的硬件结构,从而完成模型间的复用。然后,针对不同运算单元的硬件结构设计不同寄存器组,并结合开源RISC-V处理实现多种网络模型。最后,将卷积神经网络各运算单元分别部署在不同平台,计算运算时间、吞吐量和速度等。实验结果表明,提出方法的卷积加速比是CPU的189倍, VGG16的卷积运算吞吐量可达178GOP/s。因此,利用多视图并行能够达到加速效果,且以配置寄存器方式可实现不同网络模型。  相似文献   

11.
基于CameraLink的高速图像采集处理系统设计   总被引:1,自引:0,他引:1  
针对高帧频相机输出的图像数据量大的特点,设计并实现了一种基于CameraLink接口的高速实时图像采集处理系统。该系统采用FPGA芯片EP3C55F484完成图像的采集和预处理,高性能的DSP芯片TMS320DM642完成复杂的图像处理运算。介绍了系统的设计思路、硬件结构和工作流程,并描述了系统各个功能模块的设计方法。实验结果表明,系统可实时完成500帧/s的图像数据采集和处理任务。同时,该系统实现了从CameraLink信号到SDI信号视频接口转换功能。  相似文献   

12.
介绍了T805固定拓扑结构开发系统的硬件组成及相应的软件开发,该系统可用于实现车载雷达的高速串行通信和实时并行数据处理,且满足了当今不断发展的处理应用的需要。这里提出的设计和开发系统会满足下个世纪中系统的需要,计算要求主要包括高性能、使用简单灵活,这些特是设计T805固定拓扑结构开发系统的主要核心问题。  相似文献   

13.
面向图形和图像处理的轻核阵列机结构   总被引:1,自引:1,他引:0  
提出一种适用于图形和图像处理的高效并行阵列机结构。该结构的处理单元有单指令多数据(SIMD)和多指令多数据(MIMD)两种运行模式,兼有异步执行机制、硬件的多线程管理器和高效通信机制。这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和操作级并行运算。尤其值得指出的是,此种阵列机的流处理性能可以达到或接近专用集成电路的性能。该结构还能有效实现静态与动态数据流计算。  相似文献   

14.
基于FPGA的多用途提升小波变换核   总被引:1,自引:1,他引:0  
根据小波变换的框架式结构,提出了一种在FPGA上完全依靠重构来实现不同提升小波变换核的方法。根据变换特性和重构要求,采用了由下至上的结构体设计方法,将每个提升步骤用可编程的参数来表示,以保证每个提升步骤均可重构。给出了提升小波变换核在FPGA上的结构体,在逻辑综合时按不同小波的要求,改变参数可得到不同的结果。仿真实验表明,提升小波变换核的结构体在处理能力和功耗方面都取得了很好的效果,尤其在处理速度上,能满足图像处理实时性要求。  相似文献   

15.
该文基于德州仪器达芬奇技术下的多媒体处理芯片TMS320DM365,研究了其视频处理后端的硬件架构,设计了视频处理后端与TFT-LCD的硬件连接,实现了DM365视频处理后端对视频文件的解码和显示。经测试,视频显示清晰流畅,可应用于便携式多媒体移动终端。  相似文献   

16.
An optimal algorithmic approach to task scheduling for,triplet based architecture(TriBA),is proposed in this paper.TriBA is considered to be a high performance,distributed parallel computing architecture.TriBA consists of a 2D grid of small,programmable processing units,each physically connected to its three neighbors.In parallel or distributed environment an efficient assignment of tasks to the processing elements is imperatire to achieve fast job turnaround time.Moreover,the sojourn time experienced by each individual job should be minimized.The arriving jobs are comprised of parallel applications,each consisting of multiple-independent tasks that must be instantaneously assigned to processor queues,as they arrive.The processors indeDendently and concurrently service these tasks.The key scheduling issues is,when some queue backlogs are small,an incoming job should first spread its tasks to those lightly loaded queues in order to take advantage of the parallel processing gain.Our algorithmic approach achieves optimality in task scheduling by assigning consecutive tasks to a triplet of processors exploiting locality in tasks.The experimental results show that tasks allocatian to triplets of processing elements is efficient and optimal.Comparison to well accepted interconnection strategy,2D mesh,is shown to prove the effectiveness of our algorithmic approach for TriBA.Finally we conclude that TriBA can be an efficient interconnection strategy for computations intensive applications,if tasks assignment is carried out optimally using algorithmic approach.  相似文献   

17.
An optimal algorithmic approach to task scheduling for, triplet based architecture(TriBA), is proposed in this paper. TriBA is considered to be a high performance, distributed parallel computing architecture. TriBA consists of a 2D grid of small, programmable processing units, each physically connected to its three neighbors. In parallel or distributed environment an efficient assignment of tasks to the processing elements is imperative to achieve fast job turnaround time. Moreover, the sojourn time experienced by each individual job should be minimized. The arriving jobs are comprised of parallel applications, each consisting of multiple-independent tasks that must be instantaneously assigned to processor queues, as they arrive. The processors independently and concurrently service these tasks. The key scheduling issues is, when some queue backlogs are small, an incoming job should first spread its tasks to those lightly loaded queues in order to take advantage of the parallel processing gain. Our algorithmic approach achieves optimality in task scheduling by assigning consecutive tasks to a triplet of processors exploiting locality in tasks. The experimental results show that tasks allocation to triplets of processing elements is efficient and optimal. Comparison to well accepted interconnection strategy, 2D mesh, is shown to prove the effectiveness of our algorithmic approach for TriBA. Finally we conclude that TriBA can be an efficient interconnection strategy for computations intensive applications, if tasks assignment is carried out optimally using algorithmic approach.  相似文献   

18.
基于TMS320VC5402的实时语音采集与处理系统   总被引:2,自引:0,他引:2  
介绍了一种基于TMS3 2 0VC540 2数字信号处理芯片的实时语音采集与处理系统的设计与实现 ,该系统具有强大的数据处理能力并配有灵活的接口电路 ,能够满足实时信号处理的要求 ,可以作为研究语音信号处理的通用平台  相似文献   

19.
专用指令集处理器具有数字信号处理器的可编程性和专用处理电路的高速性,以专用指令集处理器为核心构成的阵列式并行处理系统在高速实时处理方面有着非常重要的应用.为此,提出了一种基于专用指令集处理器的快速傅里叶变换并行处理机实现方法.设计了基于精简指令集处理器体系结构的可编程处理单元,以其为核心构成并行处理系统,采用通信矩阵解决了并行系统内各个处理单元间的数据交换问题,实现了1024点快速傅里叶变换的并行处理.实验结果表明,在快速傅里叶变换处理方面,其处理速度比典型数字信号处理器提高30%,且具有系统并行规模大、功能灵活可变、设计复杂程度适当、设计重复利用性好的优点,非常适合在现场可编程逻辑门阵列中以SoC的形式实现.  相似文献   

20.
基于数据流模型和硬件可重构技术,提出了一种面向图像处理应用的可重构的多模式众核处理器结构.处理器采用了可扩展的层次化阵列结构,分布式共享存储和带硬件握手的近邻互连,可以分区并发实现多种并行模式,并克服了传统处理器实现数据流计算的低效性;基于VC++开发了集成仿真平台,用于对结构性能和指令性能的仿真验证,并在现场可编程门阵列上实现了包含64个处理单元的所提结构.仿真结果表明,所提结构实现了超过图形处理单元的性能以及接近专用集成电路的数据吞吐量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号