首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
为了实现基于FPGA的CCSDS图像压缩算法,在提升小波变换结构的基础上,提出了一种改进的基于行的并行3级2-D整数9/7小波变换实现结构.结构充分利用流水线设计技术,对于每一级2-D DWT,结构包含2个行处理器同时处理2行数据,借助10个行缓存存储变换的中间数据,实现了行、列变换的并行运算.同时对于3级小波变换,也采用了流水线结构,减少了存储器的使用量和对其访问造成的时间延迟,提高了变换速度.本结构完成分辨率为N×N灰度图像的3级小波分解所用的时钟周期约为O(N2/ 2).采用Altera的Stratix II FPGA实验,结果表明,本整数小波变换结构具有较高的吞吐率和变换速度,可以工作在86.5MHz的频率下,实现1024×1024灰度图像100fps的图像实时变换.  相似文献   

2.
位平面编码存储优化算法及FPGA设计   总被引:1,自引:1,他引:0  
提出一种基于子块的存储优化算法,可用于解决现有JPEG2000位平面编码器中存在的访问编码块存储器模式失配问题.采用将编码块划分成4×4的子块独立进行编码的策略,将访问同一小波系数的时间间隔从3N2Δt减少至48Δt,同时将访问编码块存储器的次数从(3K-2)N2降低至N2W.该算法不仅兼容现有各种加速技术,而且增加了子块并行的机会.基于FPGA平台实现了一种子块并行合并样本并行的位平面编码器结构,能够将编码时间复杂度从O(N2)降低至O(N),同时节省状态信息存储39%以上.实验结果表明,与目前最快的三层并行结构相比,文中设计的加速比达到了1.3.  相似文献   

3.
结合二维离散小波变换(2DDWT)和二维非负矩阵分解(2DNMF)两者的优点,提出了一种新的人脸识别融合算法2DDWT+2DNMF。首先利用小波变换把人脸图像分解成四个子块频带区域,并对三个高频子块进行图像融合,然后对低频子块和融合图像进行二维非负矩阵分解以提取特征,进而对特征数据进行加权处理。ORL和YALE人脸数据库中的识别实验表明,与PCA、SVD、NMF以及2DDWT+NMF算法相比,新融合算法能有效缩短训练时间和提高识别率。  相似文献   

4.
曹鹏  王超 《中国图象图形学报》2009,14(11):2198-2204
针对JPEG2000中的5/3小波和9/7小波存在的高存储问题,通过改进离散小波变换(DWT)的提升算法,提出了一种统一的高性能、低存储的2维离散小波变换架构.采用该算法实现的2维离散小波变换架构不仅省去了行列模块间的转置缓存,而且减小了片内缓存的大小.对于N×N大小的图像(N为图像宽度)进行5/32维DWT仅需要2N大小的片内缓存,进行9/7 2维DWT仅需要4N大小的片内缓存,而且通过采用流水线技术还可将关键路径缩短为一个乘法器的延时.和已有的2维DWT架构相比,该统一架构具有更低的片内存储器需求和更高的性能.该架构经Verilog HDL描述,并在ModelSim中验证正确.在Ahera Stratix Ⅱ FPGA EP2S60F1024C4中综合的结果显示,对于1 024×1 024大小的图像,需要1 284个ALUT,片内存储器的大小为4 K,最高频率可达172.56 MHz.  相似文献   

5.
在G.729.1语音编码算法中引入了一种长度为N=5×2m(m≥2)的MDCT/IMDCT实现的快速算法,编程实现该算法并在cygwin中仿真.在本方法中用孤立预乘的方法将N点的MDCT映射成N/2点的DCT-Ⅱ和DCT-Ⅳ,然后进入加窗阶段.该窗口是一种部分对称的窗.可以存储使用Ⅳ/2的字,同时包含了一种只需4次乘法在一定的条件下就可以分解5点DCT-Ⅱ的方法.与其他算法相比,该算法可以明显地降低复杂度和减少存储空间.  相似文献   

6.
各种并行位平面编码算法极大提高了上下文/符号数据对的产生速度,与此同时,算术编码算法的串行本质却严重限制了这些数据对的编码速度。因此,算术编码器(AE)已经成为JPEG2000系统的瓶颈问题。本文分析了现存各种算术编码器结构的缺陷,并提出了一种优化的单输入三级流水线结构。FPGA实现结果表明,本文结构以最小的硬件代价(1100 ALUTs和365 registers)获得了最优的实际数据吞吐率((133N)/(N+2))。  相似文献   

7.
无线认知网络中一种团划分的频谱感知算法   总被引:1,自引:0,他引:1  
提出了一种基于节点之间竞争关系以及感知代价的分布式频谱感知算法.该算法基于分布式最小团划分理论,将节点划分至不同的团中,然后再根据团的结构来计算最优频谱感知分配.该算法的时间复杂度仅为O(N2+M×N),其中,N为网络中节点数,M为信道数目.大量的仿真实验结果表明,该算法能够有效地提高网络性能.  相似文献   

8.
提出了一种并行的可配置HEVC熵编码的VLSI结构。通过对HEVC参考软件算法分析,针对HEVC中CABAC编码采用高度并行的语法元素处理方式,设计了针对CABAC中语法元素并行处理的硬件结构。同时采用可配置的PE-Array结构,在提高了吞吐率和计算效率的同时,平衡了VLSI设计中面积过大的问题。在SMIC 0.13μm工艺库下,进行了逻辑综合,系统总门数为16.2 K,片上存储为20.8 KB。在时钟频率300 MHz下,可处理3 840×2 160@30 frame/s的视频序列。  相似文献   

9.
一种新的用于H.264/AVC的运动估计VLSI结构   总被引:1,自引:0,他引:1  
提出了一种新的用于H.264/AVC的分数运动估计VLSI结构.首先改进分数运动估计算法的迭代顺序,将1/2像素精度和1/4像素精度的串行搜索改为同时进行,设计出一种空间上具有更高并行度的VLSI结构;另外该结构不需要输入和输出1/2插值数据,因此减少了存储带宽需求.该结构计算H.264/AVC中一个宏块1/4像素精度的41个运动向量需要1344个时钟周期.在0.18 μm CMOS工艺下作了逻辑综合和仿真,结果表明时钟频率为147MHz时,面积为276k门,能够满足SDTV(1280×720)@30Hz的视频编码需要.相比现有结构,该结构降低了存储访问带宽需求,提高了数据吞吐率.  相似文献   

10.
提出了一种基于词义相似度和最近邻算法的"N1+N2"结构短语语法关系判定方法.首先从"N1+N2"结构中两对名词间的语义相似度定义了短语结构间的相似度,在此基础上给出最近邻分类算法所需要的短语结构间距离的概念;然后建设了一个标注了词语语义类别和短语语法关系的"N1+N2"结构的样本语料库,建立了一种能够标注"N1+N2"结构关系的最近邻分类算法;最后用测试集中计算机标注结果与人工标注结果比较来测试算法效果.实验结果显示,基于论文所提算法的计算机自动标注结果正确率达到97.55%,该结果证明了论文设计算法的有效性.  相似文献   

11.
为了降低二维小波变换中的存储消耗并同时提高电路处理速度,提出了一种二维并行的VLSI结构。通过充分挖掘二维变换中行变换和列变换之间的关系,优化了行变换核和列变换核的并行数据扫描输入方式,将9/7小波变换的中间存储降低至4N。同时,采用基于翻转格式的流水线技术,将电路的关键路径缩短至一级乘法器延时,有效地提高了电路处理速度,并通过伸缩电路合并的优化方法将乘法器个数降低至10个,从而有效地减少了硬件资源消耗。  相似文献   

12.
本文介绍了一种支持高性能的图形图像系统的帧缓存的体系结构。在此系统中利用SIMD,存储器交叉和流水线三种并行技术,以及CACE来提高更新帧缓存中像素数据的速率。在此系统中图形处理器可以按行、列或一个任意的矩形块同时存取N/2个像素(N为帧缓存的模块数)。系统中的Z—BUFFER可以提高三维消隐面算法的效率。  相似文献   

13.
基于分布/共享内存层次结构的并行程序设计   总被引:1,自引:0,他引:1  
李清宝  张平 《计算机应用》2004,24(6):148-150,158
分布内存结构和共享内存结构各具特点,又有很强的互补性,分布/共享内存层次结构将两种结构相结合,以充分发挥其优势。文中主要讨论基于分布/共享内存层次结构的并行程序设计问题,介绍了MPI和OpenMP混合并行程序设计模式。  相似文献   

14.
Parallel Algorithms for Image Template Matching on Hypercube SIMD Computers   总被引:1,自引:0,他引:1  
This correspondence presents several parallel algorithms for image template matching on an SIMD array processor with a hypercube interconnection network. For an N by N image and an M by M window, the time complexity is reduced from O(N2M2) for the serial algorithm to O(M2/K2 + M * log2 N/K + log2 N * log2 K) for the N2K2-PE system (1 ? K ? M), or to O(N2M2/L2) for the L2-PE system (L ? N). With efficient use of the inter-PE communication network, each PE requires only a small local memory, many unnecessary data transmissions are eliminated, and the time complexity is greatly reduced.  相似文献   

15.
In this paper emerging parallel/distributed architectures are explored for the digital VLSI implementation of adaptive bidirectional associative memory (BAM) neural network. A single instruction stream many data stream (SIMD)-based parallel processing architecture, is developed for the adaptive BAM neural network, taking advantage of the inherent parallelism in BAM. This novel neural processor architecture is named the sliding feeder BAM array processor (SLiFBAM). The SLiFBAM processor can be viewed as a two-stroke neural processing engine, It has four operating modes: learn pattern, evaluate pattern, read weight, and write weight. Design of a SLiFBAM VLSI processor chip is also described. By using 2-mum scalable CMOS technology, a SLiFBAM processor chip with 4+4 neurons and eight modules of 256x5 bit local weight-storage SRAM, was integrated on a 6.9x7.4 mm(2) prototype die. The system architecture is highly flexible and modular, enabling the construction of larger BAM networks of up to 252 neurons using multiple SLiFBAM chips.  相似文献   

16.
Given N matrices A1, A2,...,AN of size NtimesN, the matrix chain product problem is to compute A1timesA2times...timesAN. Given an NtimesN matrix A, the matrix powers problem is to calculate the first N powers of A, that is, A, A2, A3,..., AN. We solve the two problems on distributed memory systems (DMSs) with p processors that can support one-to-one communications in T(p) time. Assume that the fastest sequential matrix multiplication algorithm has time complexity O(Nalpha), where the currently best value of a is less than 2.3755. Let p be arbitrarily chosen in the range 1lesplesNalpha+1/(log N)2. We show that the two problems can be solved by a DMS with p processors in Tchain(N,p)=O((Nalpha+1/p)+T(p))((N2(2+1/alpha/p2/alpha)(log+p/N)1-2/alpha+log+((p log N)/Nalpha)) and Tpower (N,p)=O(Nalpha+1/p+T(p)((N2(1+1/alpha)/p2/alpha)(log+p/2 log N)1-2/alpha+(log N)2))) times, respectively, where the function log+ is defined as follows: log+ x=log x if xges1 and log+ x=1 if 0相似文献   

17.
The main contribution of this work is to propose an efficient parallel prefix sums architecture based on the recently-developed technique of shift switching with domino logic, where the charge/discharge signals propagate along the switch chain producing semaphores in a network that is fast and highly hardware-compact. The proposed architecture for computing the prefix sums of N-1 bits features a total delay of (4 log N + /spl radic/N-2)/sub */T/sub d/, where T/sub d/ is the delay for charging or discharging a row of two prefix sum units of eight shift switches. Our simulation results show that, under 0.8-micron CMOS technology, the delay T/sub d/ does not exceed 1 ns. As it turns out, our design is faster than any design known to us for values on N in the range 1 /spl les/ N /spl les/ 2/sup 10/. Yet, another important and novel feature of the proposed architecture is that it requires very simple controls, partially driven by the semaphores. This significantly reduces the hardware complexity of the design and fully utilizes the inherent speed of the process.  相似文献   

18.
The flash memory solid-state disk (SSD) is emerging as a killer application for NAND flash memory due to its high performance and low power consumption. To attain high write performance, recent SSDs use an internal SDRAM write buffer and parallel architecture that uses interleaving techniques. In such architecture, coarse-grained address mapping called superblock mapping is inevitably used to exploit the parallel architecture. However, superblock mapping shows poor performance for random write requests. In this paper, we propose a novel victim block selection policy for the write buffer considering the parallel architecture of SSD. We also propose a multi-level address mapping scheme that supports small-sized write requests while utilizing the parallel architecture. Experimental results show that the proposed scheme improves the I/O performance of SSD by up to 64% compared to the existing technique.  相似文献   

19.
KLT算法已在多个领域得到成功的应用,其中特征点的排序是用来选择好的特征点跟踪的关键。针对传统排序算法计算耗时、实时性差的缺点,提出一种可并行的多层次归并排序算法并在FPGA中实现了其并行计算,同时分析了其周期精确的计算时间。结果表明该归并排序算法可以O(N )的时间复杂度完成特征点的排序,能够满足高清分辨率的图像/视频数据中KLT特征点排序的实时性要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号