期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张为华臧斌宇王晔钱兴隆朱传琪《计算机学报》2006,29(10):1740-1749

针对目前二维SIMD结构编译技术研究的不足,结合二维SIMD结构中普遍采用的复用数据通路和寄存器少的限制和应用程序的特点,提出了一种解决数据向量复用的算法.该算法先使用数据向量的代表元计算各SIMD指令间数据向量的重用信息,再根据这些信息对SIMD指令进行调度.该算法可以有效缓解应用程序在二维SIMD结构执行时加载数据的压力,有效提高结构受限二维SIMD结构的并行性.实验数据显示,该算法对各种应用程序可获得平均2.97的加速比和平均3.86的SIMD指令级并行度. 相似文献

2.

基于LS MPP的图像并行傅立叶分析技术(2)--算法的实现与性能分析

李俊山李建军焦康叶霞沈绪榜《小型微型计算机系统》2004,25(8):1432-1436

基于 L S MPP的 K元 2 -立方体网络结构 ,设计了一种新颖快速的计算 FFT的 SIMD算法 .文中首先在本文的姊妹篇“基于 L S MPP的图像并行傅立叶分析技术 (1)”的分析与设计的基础上 ,讨论了输入图像像素矩阵及变换结果图像矩阵中元素的排序问题 ,并给出了算法实现中的有关处理策略 .接着较完整详细地给出了在 L S MPP SIMD计算机上实现的一种新颖快速的二维 FFT并行算法和实验结果 .最后对算法的性能进行了分析相似文献

3.

一种基于奔腾SIMD指令的快速背景提取方法 总被引：3，自引：0，他引：3

周西汉刘勃周荷琴袁非牛《计算机工程与应用》2004,40(27):81-83

论文提出一种基于Intel奔腾SIMD指令的快速背景提取方法。在一种改进的混合高斯背景模型中,Jeffrey值的计算和背景模型的更新等存在着很高的内在SIMD并行性,通过将数据按照SSE数据类型组织,实现了混合高斯背景模型的SIMD算法。实验结果表明:嵌入奔腾SIMD指令的方法比传统计算提高75%左右的性能,加速了背景提取的速度,达到了实时处理的要求,具有较大的实际应用价值。相似文献

4.

一种基于SIMD技术的快速并行代数重建算法 总被引：2，自引：0，他引：2

下载免费PDF全文

刘远张定华赵歆波毛海鹏刘晓鹏《中国图象图形学报》2007,12(1):73-77

代数重建算法是解决非完全投影数据重建的有效方法,尤其在对于超出探测器尺寸范围的大型零件的无损检测中已成为最有力的关键技术,但以往算法计算量较大、耗时较长。为了快速地进行代数重建,提出了一种基于Intel处理器单指令多数据(single instruction multiple data,SIMD)技术[2]的快速并行算法,并在充分分析代数重建公式特点的基础上,设计了一套便于并行化运算的数据结构及计算流程,其在运算中可一次性加载多个打包数据,利用MMX(multimedia extension)、SSE(streaming SIMD extension)和SSE2指令完成SIMD方式计算。通过仿真实验证明,该算法在达到同样精度的前提下,不仅提高了重建速度(加速比4倍),解决了传统代数重建算法运算速度慢的瓶颈问题,并且能够较好地重建部分数据缺失的投影图像,该算法对于航空航天大型零部件的无损检测具有重要的理论意义及工程应用价值。相似文献

5.

一种偶数基Cooley-Tukey FFT高性能实现方法

龚彤艳张广婷贾海鹏袁良《计算机科学》2020,47(1):31-39

快速傅里叶变换(Fast Fourier Transform,FFT)是最重要的基础算法之一,在科学计算、信号处理、图像处理等领域都有着广泛的应用。随着这些应用领域对实时性需求的进一步提高,FFT算法面临着越来越高的性能要求。在现有的FFT算法库中,FFT算法的求解速度和计算精度受到一定程度的限制,而且也少有研究者对偶数基Cooley-Tukey FFT的高性能实现提出相应的优化策略并对技术进行深入研究。基于此,文中提出了一套针对偶数基的Cooley-Tukey FFT的优化策略和方法。首先构建一个SIMD(Single Instruction Multiple Data)友好、支持混合基的蝶形网络,然后根据偶数基旋转因子特性最大限度地降低蝶形计算的复杂度,接着通过SIMD汇编优化、汇编指令重排及选择、寄存器分配策略制定、高性能矩阵转置算法等方法来优化应用,最后实现一个高性能的FFT算法库。目前,最流行、应用最广的FFT有FFTW和Intel MKL。实验结果表明,在X86计算平台上,新提出的这套针对偶数基Cooley-Tukey FFT的技术所实现的FFT算法库的性能全面优于MKL和FFTW。所提出的这套高性能算法优化和实现技术体系,可推广到除偶数基以外的其他基的实现和优化上,为进一步的研究开发工作奠定一定的基础,进而突破FFT算法在硬件平台上的性能瓶颈,实现一套针对特定平台的高性能FFT算法库。相似文献

6.

一种共享主存二维SIMD结构资源分配算法的改进与实现

下载免费PDF全文

李初辉王伟肖玮《计算机工程与科学》2008,30(9):99-102

共享主存二维SIMD结构已经广泛应用于多媒体处理加速部件,其数据并行性可以大大提高处理器的运算能力。目前,已有一些针对共享主存二维SIMD结构编译优化方面的研究,这些编译优化技术能有效地提高各种多媒体应用程序的加速比。但是,分析可知,这些优化方法的平均资源利用率只有约50％。本文基于对多媒体应用程序在共享主存二维维SIMD结构上的执行过程分析,根据原有算法并适当修改经典图着色寄存器分配算法,提出了一种改进的资源分的目的。实验结果说明,该算法的改进对于大部分多媒体应用程序的性能有显著的提高。相似文献

7.

二维SIMD结构的低功耗调度

下载免费PDF全文

张倩《计算机工程》2009,35(10):273-275

针对二维SIMD结构,提出一种可以动态关闭空转部件且结合编译器、指令集和体系结构支持的低功耗调度算法,其中包括编译器优化二维SIMD指令,功耗指令发出部件开关信号,系统接收信号并执行。采用对不同功能单元分别调度的方式和部件局部化的方法。在模拟器上的实验结果表明该方法可以节省整个系统约15％的能量消耗。相似文献

8.

基于位宽控制提高SIMD架构并行度的优化算法 总被引：1，自引：0，他引：1

张为华朱嘉华张宏江臧斌宇《计算机学报》2009,32(11)

随着SIMD功能单元作为多媒体加速部件的广泛应用,如何有效利用这一构架优化应用程序成为编译优化研究的热点.目前典型的SIMD结构为同一操作对不同的数据化宽提供了不同的指令版本,随着操作数位宽的增加,对应的SIMD指令可同时完成的操作个数也随之降低.因此,如何有效识别操作数的有效位宽,对提高优化过程中SIMD指令内操作的并行度将产生至关重要的影响.文中针对SIMD优化面临的并行度问题,提出了一种优化算法,该算法在对操作数的有效位进行分析的基础上,进行溢出控制,从而减少操作数对宽位宽数据类型的依赖.实验数据表明,该算法可以有效提高多媒体程序优化的并行度,对多媒体程序获得较好的加速效果. 相似文献

9.

分簇VLIW DSP上支持单双字模式选择的SIMD编译优化

黄胜兵郑启龙郭连伟《计算机应用》2015,35(8):2371-2374

BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。相似文献

10.

基于SIMD指令的柔性物体并行碰撞检测 总被引：2，自引：0，他引：2

唐敏 MANOCHA Dinesh 童若锋《计算机学报》2009,32(10)

复杂场景中柔性物体间的碰撞检测依然难以满足交互设计的要求.为了提高处理速度,文中给出了一种充分利用现代CPU的并行处理能力的碰撞检测算法.算法基于两方面的并行处理:即基于SIMD指令的指令级并行处理和基于多线程的任务级并行处理.算法给出了一种针对SIMD指令特别优化的k-DOP模型--SIMD-DOP,从理论上分析了该包围盒的高效性,并与常规的16-DOP和24-DOP进行了运行效率对比.通过使用SIMD-DOP同时在多核间进行负载均衡,算法获得了优化的并行加速.文中算法已经在一台16核工作站上针对一组复杂测试场景进行了验证. 相似文献

11.

全搜索算法的SSE并行优化

陶志强徐萌徐荣飞《微计算机应用》2011,32(11)

在基于宏块划分的视频编码算法中,运动估计阶段因为其庞大的计算量占用了绝大多数的编码时间.特别是在对高清视频进行编码时,运动估计已经成为提升编码性能的最大瓶颈.本文通过对全搜索运动估计算法进行基于像素的并行化修改和优化,使用SSE指令调用CPU的SIMD单元同时对当前宏块与参考宏块的多个像素进行SAD运算,对运动估计进行了并行化的实现.在相同的硬件环境以及保证编码质量的前提下,相对于传统的全搜索CPU运算获得了2倍以上的编码性能提升. 相似文献

12.

A Novel Approach to Lossy Real-Time Image Compression: Hierarchical Data Reorganization on a Low-Cost Massively Parallel System

《Real》1995,1(5):339-353

This paper discusses an innovative real-time oriented image compression system, based on a simple algorithm designed explicitly to be implemented on a low-cost SIMD computer architecture featuring a much lower power consumption than traditional DSPs or dedicated hardware. For this reason the considered approach is suitable to be integrated on portable systems, where power consumption is a critical design issue.The algorithm, based on a hierarchical decomposition of the input image, has been tested on a special purpose SIMD system, PAPRICA, exploiting its features such as its massive parallelism and its capability to operate on local data as well as to handle hierarchical data structures.According to the proposed approach, the quality of the decompressed image can be traded for a lower power consumption as well as a higher processing speed. A comparison between the discussed algorithm and the standard JPEG compression technique is also presented. 相似文献

13.

微机图象处理系统及其FFT算法 总被引：1，自引：0，他引：1

下载免费PDF全文

陈孝威马光喜《中国图象图形学报》2000,5(2):158-162

该文主要介绍由ＰＣＶＩＳＩＯＮｐｌｕｓ帧捕获器组成的微机图象处理系统的结构和编程原理。计算机在处理数据时,与硬盘交换数据非常费时,为了解决这个问题,该文研究了一个基于ＤＦＴ性质的算法,采用这个算法,不需要与硬盘交换数据就可在的微机的常规内存中实现ＦＦＴ和对图象进行频域处理。从而大大加速了图象处理的速度。采用这种算法在该系统上对Ｘ光片进行了处理,结果表明,该算法是有效和快速的。相似文献

14.

Canny边缘检测算法在飞腾平台上的实现与优化

郭恒亮柴晓楠韩林赫晓慧商建东《计算机工程》2021,47(7):37-43

为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能力,根据FT-M7002平台向量存储器的层次结构特征,分析Canny梯度计算并行算法的访存模式,通过首地址偏移取址解决不连续访存问题,并结合双缓冲方式完成数据传输与数据计算。实验结果表明,在与原始Canny算法具有相同检测精度的情况下,该算法在卷积核大小为3×3、5×5、7×7时整体运行速度提升了1.490~2.112倍,缩小了与主流加速器件在数字图像处理领域的性能差距。相似文献

15.

A high‐performance sorting algorithm for multicore single‐instruction multiple‐data processors

Hiroshi Inoue Takao Moriyama Hideaki Komatsu Toshio Nakatani 《Software》2012,42(6):753-777

Many sorting algorithms have been studied in the past, but there are only a few algorithms that can effectively exploit both single‐instruction multiple‐data (SIMD) instructions and thread‐level parallelism. In this paper, we propose a new high‐performance sorting algorithm, called aligned‐access sort (AA‐sort), that exploits both the SIMD instructions and thread‐level parallelism available on today's multicore processors. Our algorithm consists of two phases, an in‐core sorting phase and an out‐of‐core merging phase. The in‐core sorting phase uses our new sorting algorithm that extends combsort to exploit SIMD instructions. The out‐of‐core algorithm is based on mergesort with our novel vectorized merging algorithm. Both phases can take advantage of SIMD instructions. The key to high performance is eliminating unaligned memory accesses that would reduce the effectiveness of SIMD instructions in both phases. We implemented and evaluated the AA‐sort on PowerPC 970MP and Cell Broadband Engine platforms. In summary, a sequential version of the AA‐sort using SIMD instructions outperformed IBM's optimized sequential sorting library by 1.8 times and bitonic mergesort using SIMD instructions by 3.3 times on PowerPC 970MP when sorting 32 million random 32‐bit integers. Also, a parallel version of AA‐sort demonstrated better scalability with increasing numbers of cores than a parallel version of bitonic mergesort on both platforms. Copyright © 2011 John Wiley & Sons, Ltd. 相似文献

16.

The impact of grain size on the efficiency of embedded SIMD image processing architectures

《Journal of Parallel and Distributed Computing》2004,64(11):1318-1327

Pixel-per-processing element (PPE) ratio—the amount of image data directly mapped to each processing element—has a significant impact on the area and energy efficiency of embedded SIMD architectures for image processing applications. This paper quantitatively evaluates the impact of PPE ratio on system performance and efficiency for focal-plane SIMD image processing architectures by comparing throughput, area efficiency, and energy efficiency for a range of common application kernels using architectural and workload simulation. While the impact of grain size is affected by the mix of executed instructions within an application program, the most efficient PPE ratio often does not occur at PE grain size extremes (i.e., one pixel per processor or one processor per image). In this study, a set of four image processing application tasks is implemented on eight different SIMD configurations. Each configuration has a different PPE ratio and a different amount of local memory. Cycle accurate simulation and analytical technology modeling allows assessment of execution performance, area efficiency, and energy efficiency for each configuration. Results show the highest area and energy efficiency are achieved at PPE ratios between 16 and 256. Using these evaluation techniques (application grain size retargeting combined with area and energy technology modeling), a new class of efficient, embedded SIMD architectures for image processing can be designed. 相似文献