首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
针对西安邮电大学自主设计的一款面向图形、图像应用的阵列处理器PAAG系统(polymorphic array architecture for graphics and image processing)多核处理器并行编译问题,提出一种基于GCC编译器框架的可实现并行编译的移植技术。结合图像处理器并行处理要求和硬件特点,通过一种底层中间表示———寄存器传输语言 RTL (register transfer lan‐guage)进行模式匹配,完成指令选择,实现编译器移植;使用堆栈管理方式解决 PAAG系统没有寄存器文件的问题和函数调用问题。该技术的实现打破了PAAG系统只能手工编译的局面,有效提高了单个处理器的编译效率,使PAAG系统的性能得到提升;对于并行处理的图形图像处理器,该技术是一种正确可行的实施方案。  相似文献   

2.
针对OpenVX并行处理器中微控制器内部存储量大和转移步骤复杂的问题,利用相联存储器产生微程序初始地址的方法提高了控制存储器的利用率.并依据分组并行判断思想对各个操作执行条件分组,提高了转移地址产生的速度.通过将OpenVX中5类图像处理函数映射到此处理器进行验证,实验结果表明,采用上述结构和方法,控制存储器利用率提高...  相似文献   

3.
针对传统的生物计算中DNA序列保守序列的识别(模体识别)和最长公共子序列计算需要较大的数据量、计算量,以及功耗大等问题,文中提出了两种基于PAAG多态并行处理器的并行算法,该并行处理器能够支持数据、线程、指令多种并行。通过编程在PAAG多态并行处理的处理单元( PE)上开发了相应的串行和并行程序,将计算的不同过程分派到不同的处理单元( PE)上进行处理,实现了不同粒度算法的并行。实验结果表明,文中提出的并行算法使模体识别和最长公共子序列的计算效率得到明显提高。  相似文献   

4.
本文在分析并行图像处理常用方法的基础上,针对全自动贴片机视觉系统对图像处理要求,对矩形片式元器件(Chip芯片)和IC芯片图像并行处理方法进行了可行性分析,并从流水线并行和数据并行两个方面,对两种元器件在不同情况下提出了各自可行的图像并行处理框架和实现方法,对表面组装生产中图像并行处理方法进行了探索。  相似文献   

5.
为满足大规模虚拟现实应用在渲染速度和显示分辨率等方面的要求,采用基于多核平台的PC集群系统,构建了高性价比的分布式图形渲染系统。系统充分结合多核PC集群中节点内部的并行和节点间的并行,通过对视景体的缩放和投影中心的移动实现了灵活的分屏,集群节点内部从渲染流水线、循环迭代、函数级三个层次进行了多核并行优化,有效地提高了并行绘制系统的效率。实验结果表明:多核平台与并行绘制系统结合,以多线程的方式有效地提高了应用程序性能。  相似文献   

6.
提出了一种新型的多态高效并行阵列机结构--萤火虫2号阵列机。该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理。采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和分布式指令级并行运算。尤其值得指出的是,此种阵列机的流处理性能堪与专用集成电路匹敌。该结构还能有效实现静态与动态数据流计算,可以高效实现图形、图像和数字信号处理任务。  相似文献   

7.
提出一种基于GPU的高程并行插值算法,实现了对三维地表上海量离散点的并行加速渲染。通过高程纹理组织三维地表网格高程数据作为离散点渲染的基础,并通过GLSL编写GPU着色器程序动态控制图形渲染管线,实现视点相关的高程并行插值算法。实验结果表明,提出的基于GPU的高程并行插值算法较传统的内存插值算法,将三维地表上海量离散点的渲染量级从百万级提高到了千万级。  相似文献   

8.
BLAS (Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库.该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算.本文研究如何在申威众核处理器上BLAS-1、2级函数的并行实现,并充分利用平台特性对它们进行深度的性能调优,归纳总结程序在申威平台上的并行实现与优化技巧.申威26010 CPU采用了异构众核架构,众多计算核心提供的大规模并行处理能力,使单块芯片具有3 TFLOPS的双精度浮点计算性能.实验结果显示BLAS-1、2级函数相对于GotoBLAS参考实现版的平均加速比分别高达11.x和6.x,对于每一优化手段,均有明显的性能加速.  相似文献   

9.
基于PC集群的三维图形并行渲染性能分析   总被引:1,自引:0,他引:1  
研究基于PC集群的三维图形并行渲染性能问题,从网络性能、算法复杂度、并行分配机制等几方面分析了影响并行渲染性能的关键因素。在千兆以太网PC集群上进行了基于通用MPI和OpenGL的三维图形并行渲染仿真测试,给出了数据及分析结果,给出了合理构建并行三维图形渲染系统的建议,通过平衡图形算法复杂度和网络性能以达到最佳并行性能。  相似文献   

10.
多核处理器并行编程模型的研究与设计   总被引:2,自引:0,他引:2  
为了在多核处理器上充分利用多核资源以提升程序性能,研究了多核处理器的体系结构和多核环境下可能影响并行程序性能的因素,实现了基于任务的并行编程模型.该模型提供了单任务数据并行和多任务并行两种并行处理方式,其中单任务数据并行使用cache块技术划分数据集,多任务并行使用任务密取的任务调度策略.用该模型实现了计算斐波那契数列的递归算法,实验结果表明,使用该模型编写多核并行程序可以达到较高的相对于串行计算的加速比.  相似文献   

11.
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。  相似文献   

12.
为研究并行图形绘制技术,介绍图形绘制的流水线过程,对其内在的可并行性进行分析,研究并行绘制的实现方式,包括流水线并行、数据并行和作业并行,以及前分布拼接合成、中分布拼接合成和后分布拼接合成,讨论并行绘制面临的主要问题及其发展趋势。  相似文献   

13.
The rapid advance of computer hardware and popularity of multimedia applications enable multi-core processors with sub-word parallelism instructions to become a dominant market trend in desk-top PCs as well as high end mobile devices. This paper presents an efficient parallel implementation of 2D convolution algorithm demanding high performance computing power in multi-core desktop PCs. It is a representative computation intensive algorithm, in image and signal processing applications, accompanied by heavy memory access; on the other hand, their computational complexities are relatively low. The purpose of this study is to explore the effectiveness of exploiting the streaming SIMD (Single Instruction Multiple Data) extension (SSE) technology and TBB (Threading Building Block) run-time library in Intel multi-core processors. By doing so, we can take advantage of all the hardware features of multi-core processor concurrently for data- and task-level parallelism. For the performance evaluation, we implemented a 3?×?3 kernel based convolution algorithm using SSE2 and TBB with different combinations and compared their processing speeds. The experimental results show that both technologies have a significant effect on the performance and the processing speed can be greatly improved when using two technologies at the same time; for example, 6.2, 6.1, and 1.4 times speedup compared with the implementation of either of them are suggested for 256?×?256, 512?×?512, and 1024?×?1024 data sets, respectively.  相似文献   

14.
当前面向单指令多数据(SIMD)扩展部件的两类向量化方法分别是循环级向量化方法和超字级并行(SLP)方法。针对当前编译器不能实现函数级向量化的问题,提出一种基于静态单赋值的函数级向量化方法。该方法首先分析程序的变量属性,然后利用一组包括向量函数子句、一致子句、线性子句等编译指示子句指导编译器实现函数级向量化,最后利用变量属性结果对向量化代码进行了优化。从多媒体和图像处理领域选择部分测试用例对所提的函数级向量化的功能和性能在国产申威平台上进行测试,与程序串行执行相比,采用函数级向量化后程序的执行效率更高。实验结果表明函数级向量化可以取得类似任务级并行的加速效果,该方法可以指导自动函数级向量化的实现。  相似文献   

15.
Real-Time Weighted Pose-Space Deformation on the GPU   总被引:1,自引:0,他引:1  
  相似文献   

16.
Nvidia从GeForce8系列开始,在显卡上推出统一计算设备框架技术,使GPU的通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。在医学图像分析中,图像配准通常是一个耗时的过程,不利于临床应用,为了加速医学图像的2D-3D配准过程,研究了CUDA的设计思想和编程方式,提出了一种基于CUDA并行编程模型的加速配准新技术,在构建的虚拟X线摄像系统下,采用并行计算的方式快速生成高质量DRR图像,以对应像素的灰度值残差作为相似性测度,使用Powell优化方法寻找最优变换。实验结果表明,该技术既很好地保持了配准精度,同时又大大提高了配准速度,加速比达到了十几甚至几十倍。  相似文献   

17.
杨际祥 《计算机科学》2016,43(4):188-191
多核并行编程的开发效率和加速比是影响多核进一步发展的两个重要问题。针对这两个问题,设计并实现了一个轻量级的多核多线程库(UCMLib)。该库基于任务原语概念,提供了数据并行性和任务并行性两种表达逻辑并行性的模式;对多线程编程的复杂性进行了封装和抽象,为开发者提供了高级的编程方法而不必显式地考虑锁和竞争,并降低了并行编程难度以提高开发效率。UCMLib的任务调度器基于对任务队列和工作者线程的有效构建和管理来提高并行程序的加速比。性能测试表明,当计算规模增大时,UCMLib在数据并行性与任务并行性两方面获得了比TPL库略优的加速比。最后给出了可能的性能改进方法以及需要进一步研究的问题。  相似文献   

18.
基于CUDA的双三次B样条缩放方法   总被引:4,自引:2,他引:2       下载免费PDF全文
Nvidia在GeForce 8系列显卡上推出的CUDA(统一计算设备架构)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。  相似文献   

19.
张拥军  陈艇 《计算机应用》2015,35(4):1179-1184
针对3GPP-LTE协议中多输入多输出(MIMO)均衡算法的高复杂度和高吞吐率问题,提出了一种面向软件无线电的并行MIMO均衡处理器,该处理器采用单指令流多数据流(SIMD)和超长指令字(VLIW)技术同时开发子载波间MIMO均衡和子载波内矩阵运算的并行性,并且每一个SIMD功能单元能够支持16 bit定点和20 bit伪浮点复数向量运算和矩阵运算,满足不同天线配置的MIMO均衡算法对处理精度、延迟和功耗的要求。实验结果表明,MIMO均衡处理器的4×4矩阵逆运算吞吐率达到了95 MInversion/s,满足3GPP-LTE协议的要求,并且其灵活可编程性和可配置性能够支持不同的均衡算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号