共查询到20条相似文献,搜索用时 31 毫秒
1.
刘钢锋 《微电子学与计算机》2013,30(2)
随着微处理器技术的发展,GPU/CPU的混合计算已经成为是科学计算的主流趋势.本文从编程的层面,介绍了如何利用已有的并行编程语言来,调度GPU的计算功能,主要以MPI(一种消息传递编程模型)与基于GPU的CUDA(统一计算设备架构)编程模型相结合的方式进行GPU集群程序的测试,并分析了CPU/GPU集群并行环境下的运行特点.从分析的特点中总结出GPU集群较优策略,从而为提高CPU/GPU并行程序性能提供科学依据. 相似文献
2.
基于GPU的快速二维沃尔什变换研究 总被引:1,自引:1,他引:1
提出了一种基于GPU(Graphics Processing Unit,图形处理器)CUDA(Compute Unified Device Architecture,计算统一设备架构)平台的快速二维沃尔什变换(Walsh Transform)实现方法.该方法利用GPU的并行结构和硬件特点,从算法实现、存储类型、逻辑构架设置等方面提高了沃尔什变换的运算速度.实验结果表明,随着图像分辨率的增加,沃尔什变换在GPU上运行时间远低于CPU,GPU比CPU具有更明显的加速效果. 相似文献
3.
为提高计算速度,复杂网格模型操作处理中的仿射变换计算被移植到具有可编程能力的GPU上实现.在并行计算中,每个线程计算一个顶点的k邻域权重值和坐标变换,多个线程同时执行.经过对线程结构安排、设备存储器分配等的优化,充分发挥GPU并行运算性能.实验结果表明,GPU加速计算对大规模网格顶点仿射变换的处理得到了较好的加速效果. 相似文献
4.
文中设计的多核系统是基于Microblaze软核,通过平台FFGA设计技术实现的.核问互联采用OPB总线,每个核都有IP模块来记录编号,实现的硬件锁完成了多核的启动和多核的同步.最后将操作系统Mutek移植到该系统上,完成线程调度和任务分配.实验证明,该系统能很好地支持多核多线程,有效提高了并行处理能力. 相似文献
5.
如何根据开发板的硬件资源设计引导加载程序是嵌入式系统设计的重点与难点.为解决引导加栽程序的设计问题,针对一个基于MPC8265处理器的硬件系统平台,分析了U-Boot的源码结构组成和启动流程,并提出U-Boot的移植方法.该方法可广泛应用于其他处理器及嵌入式系统.应用结果表明,移植后的U-Boot-1.2.0在开发板上运行良好,可以成功稳定地引导Linux-2.6内核以及NFS根文件系统. 相似文献
6.
提出了一种基于图形处理器(GPU)的SAR方位向信号分解的高效实现方法。SAR方位向信号可以通过四参数Chirplet分解方法来分解。此方法的关键难题是计算量过大,计算量主要由2部分组成:构建Chirp原子库,以及SAR方位向信号在过完备库上分解的计算量。与传统的CPU相比,GPU更加适用于密集型和大量数据并行化的计算。提出将算法的核心部分移植到GPU上进行并行计算,充分挖掘其运算潜能。结果表明:该方法与传统的基于CPU的算法相比有两位数以上的效率提升。 相似文献
7.
在CMT处理器结构及主要共享资源的基础上,首先阐述了资源争用对系统性能下降的影响,然后介绍了流水线资源和Cache资源争用问题的研究进展,并对Cache资源共享模型及划分机制进行详细的讨论,同时介绍了旨在减少资源争用的线程协同调度机制,探讨了可能的研究发展方向。 相似文献
8.
依据GPU计算特点和任务划分的特点,提出一种类似主从模型的GPU-CPU协作计算的处理模式,通过把问题或算法划分成多子任务,并对划分的子任务给出合理的调度算法,使GPU和CPU各自发挥特点,从而发挥较高效率的GPU通用计算能力,通过测试验证该协作模式是有效的. 相似文献
9.
本文针对基于可配置处理器的异构多核结构,提出一种新的线程级动态调度模型。此类异构多核系统中每个核分别针对某一应用做指令集扩展,调度器通过线程、处理器核以及指令集间的映射关系,动态调度线程至适合的处理器核,从而在没有大幅增加芯片面积的前提下,达到与每个核都具有全扩展指令集相近似的加速比,此外该模型还可以有效减少编程模型的复杂度。 相似文献
10.
多核系统是当今处理器发展的主方向,如何合理高效进行任务调度,确保全部处理核心处于有效工作状态是当今多核系统研究的一个重要方向.多核任务调度的关键难点在于发掘任务并行性,为解决这一问题,本文借鉴指令级多线程思想,结合多核系统中任务的粗粒度特性,提出了一种新型的粗粒度多线程多核体系结构,建立了多线程取指策略、资源分配策略和线程切换机制,同步完成了这一结构多线程调度器电路设计.围绕此调度器构建了一个粗粒度多核计算平台,并在FPGA芯片上进行硬件实现,实验结果表明,该设计方案相对于单线程使多核计算平台的任务并行度平均提高约34.29%. 相似文献
11.
12.
为了提高LS MPP(Li-Shan MPP)系统的性能,并将其纳入新型嵌入式流处理器之中.以LS MPP体系结构为基础,根据嵌入式流处理器概念模型,针对图像处理应用的特征,提出了基于LS MPP的流处理技术.该技术通过定义新型流数据类型和核函数,构造了流处理模型,并分析了以LS MPP为基础提出的嵌入式流处理器概念模型上的流调度的实现方法,为全面提高LS MPP嵌入式流处理器的性能提供了系统软件支持. 相似文献
13.
为了优化自动化立体仓库入库调度策略,文章引入多线程技术与多处理器理论,并利用该思想对大型自动化立体仓库入库调度进行了深入研究与分析,提出了基于多线程技术与多处理器理论的大型AS/RS入库调度策略,有效提高了大型AS/RS入库效率.通过测试用例验证了该调度策略的可行性. 相似文献
14.
15.
软件流水技术通过重组循环体来挖掘指令级并行性,模调度是一类广泛使用的软件流水调度算法.传统模调度算法通常会产生变量活跃域重叠和寄存器压力增大问题,无法适用于嵌入式处理器.本文面向嵌入式处理器特性,建立了一种优化回溯模型,并基于该回溯模型提出了一种面向嵌入式处理器的无重叠模调度算法(NOn-Over-lapped Iterative Modulo Scheduling,简称NOOI).NOOI算法使用循环相关反依赖消除变量活跃域重叠,并使用依赖约束和资源约束回溯模型消解节点冲突,从而提高了模调度的有效性.实验结果表明,NOOI模调度算法能够有效改进模调度成功率和循环启动间距,并提高程序性能. 相似文献
16.
17.
Giorgia Zucchelli 《电子设计技术》2012,19(3):57-58,62
近年来,使用GPU(通用图形处理器)进行科学计算已变得十分普遍。GPU最初设计用于图像密集型视频游戏产业中的图形渲染绘制,但近年来GPU不断发展,现可用于更广泛的用途。研究人员可对其进行程序设计以执行计算,用于数据分析、数据可视化,以及金融和生物建模等应用。 相似文献
18.
复杂轨迹合成孔径雷达后向投影算法图像流GPU成像 总被引:1,自引:0,他引:1
相对于基于傅里叶变换的频域成像算法,后向投影( BP)算法因采用时域逐点相干积累,更适合于复杂轨迹合成孔径雷达( SAR)高精度成像。但BP算法计算量巨大,限制了其应用于SAR大场景大数据量快速成像。图形处理器( GPU)具有强大浮点运算和并行处理能力,为大场景BP算法快速成像实现提供了途径。结合GPU并行处理,提出了一种基于图像流的复杂运动SAR大场景BP快速成像处理方法。该方法借助BP算法中图像像素点相互独立处理的特性,采用图像像素点并行及图像流程处理,设计了孔径与图像缓存调度方案,提高SAR大场景大数据BP算法成像效率。仿真和机载实测数据结果验证了方法的有效性,在有限GPU显存条件下实现了8192×8192大场景快速成像,并且成像加速比相对于传统CPU单线程处理可达300倍以上。 相似文献
19.
20.
为了提高光照不均图像的增强速率,提出了基于GPU平台的同态滤波并行算法.根据同态滤波算法的并行性,利用CUDA软硬件体系架构,实现了同态滤波算法向GPU上的移植.利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率.实验结果表明,GPU实现方案大幅度提升了计算效率. 相似文献