首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 93 毫秒
1.
针对压缩感知重构算法计算实时性太差的问题,提出压缩采样追踪匹配(compressive sampling matching pursuit,CoSaMP)算法的并行化加速算法。 基于多线程技术实现重构算法的粗粒度并行化,分析CoSaMP算法的计算热点,将其中耗时较多的矩阵操作移植在图形处理器(graphics processing unit, GPU)上,实现算法的细粒度并行化。在测试图像上进行试验,结果表明:并行化加速算法取得50倍的加速效果,有效地降低重构算法的计算时间开销。  相似文献   

2.
针对多视点视频编码中去块滤波算法处理复杂、计算耗时等问题,通过分析去块滤波算法的可并行性和数据相关性,提出了一种并行化映射方案。利用面向视频编解码的动态可编程可重构阵列处理器DPR-CODEC(Dynamic Programmable Reconfigurable array processor)平台,设计并实现了基于阵列处理器的去块滤波并行算法。实验结果表明,该方法与单核处理器的串行实现方案相比数据加载时间降低了30.9倍、算法执行和总处理时间加速比分别达到12.3和28.0,有效减少了视频编解码时间,提高了去块滤波算法的运算效率。  相似文献   

3.
多核处理器能够提升多线程程序的性能,但早已存在的诸多单线程程序无法从中获益,程序员也习惯于编写单线程程序。自动并行化技术是将单线程程序移植到多核上的重要手段,但是当循环中存在无法确定的数据依赖或复杂的控制流时,传统的自动并行化技术无法取得良好效果。decoupled software pipelining(DSWP)算法针对传统自动并行失败的循环实现了指令级的细粒度并行,但是需要对处理器体系结构和指令集的深入了解,对其并行性能和应用广泛性带来限制。通过对DSWP算法进行改进,提出了基于OpenMP的DSWP自动并行算法。该算法增大了并行粒度,使用OpenMP并行应用编程接口实现并行,不再依赖具体的体系结构,实现了DSWP算法的应用扩展。通过对基准测试集NPB3.3.1的测试表明,传统自动并行失败的循环,经文章算法并行后在双核处理器上平均加速比达到1.23以上;使用添加了文章算法的Open64编译器生成的并行程序,与仅使用传统自动并行方法的Intel编译器和Open64编译器所得程序相比,平均加速比分别高出22%和26%。  相似文献   

4.
针对多态同构阵列机,提出一种新的方法对计算视觉算法中的纹理特征提取算法进行并行处理。该方法在基于计算视觉标准OpenVX的基础上,将纹理特征提取算法的各步骤用OpenVX核函数进行实现,并构造出该算法的图模型,再将图模型利用OpenVX库函数映射到多态同构阵列机上进行并行处理。实验结果表明,该方法所实现的加速比按线性增长,纹理特征提取算法的执行效率得到显著提高。  相似文献   

5.
面向图形和图像处理的轻核阵列机结构   总被引:1,自引:1,他引:0  
提出一种适用于图形和图像处理的高效并行阵列机结构。该结构的处理单元有单指令多数据(SIMD)和多指令多数据(MIMD)两种运行模式,兼有异步执行机制、硬件的多线程管理器和高效通信机制。这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和操作级并行运算。尤其值得指出的是,此种阵列机的流处理性能可以达到或接近专用集成电路的性能。该结构还能有效实现静态与动态数据流计算。  相似文献   

6.
基于动态规划法提出了寻找最短路程的并行化方法,该方法将递推计算问题影射到两个线性阵列结构上并行实现,提高了计算的实时性。该方法也可用于动态规划法并行求解其它多级决策过程。  相似文献   

7.
针对图形处理中的Gamma校正算法和平均滤波算法,在多态并行阵列机上进行并行化设计。该设计利用多线程调度模式将算法中不相关程序分为多个线程相互填充,减少线程的阻塞等待时间,最后将多线程程序映射到阵列机上实现算法的并行化。仿真结果表明,Gamma校正算法在单线程下运行消耗时间是多线程的3.5倍,平均滤波算法在单线程下运行消耗时间是多线程的2.2倍。  相似文献   

8.
针对OpenVX1.0标准中的核心库函数,在新型多态同构阵列处理器平台上实现基于该标准的Kernel函数算法的并行化。以Gaussian Filter、Color Convert、Sobel3×3等kernel函数组成的节点构造图像边缘检测的OpenVX图执行模型,将该执行模型映射到阵列机上实现了并行加速。实验结果证明,PAAG阵列机能实现高复杂度算法的并行实现,并且能获得线性增长的加速比,执行效率更高。  相似文献   

9.
针对面向图形的多台阵列架构,提出一种实现H.264/AVC视频编码的整数离散余弦变换并行处理算法。利用整数离散余弦变换蝶形快速变换,设计通过16个处理元并行工作的算法程序,将程序映射到面向图形的多台阵列架构仿真模型中进行整数离散余弦变换并行化运算。仿真结果表明,该算法完成一次整数离散余弦变换运算只需66个时钟数,相比于串行运算提高了77%,实现了整数离散余弦变换的并行化。  相似文献   

10.
为提高网络环境下细粒度并行FDTD计算的性能,引入局域网两层并行能力的概念,发展了一种高性能的混合并行FDTD算法。在该算法中,通过利用MPI与OpenMP多线程技术,在传统域分解FDTD算法基础上,实现了数据与任务的两层并行化。作为算法实现的应用,对一种常见的车载隐藏式印刷天线进行了模拟研究。计算在不同数量的PC机上执行,并与传统的网络并行FDTD算法进行了比较。数值结果表明,当域分解粒度较小时,该混合并行方法能够有效地提高局域网并行FDTD的算法性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号