首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
处理器阵列的容错重构技术是片上网络多核、众核高性能体系结构的可靠性技术之一。现有的最大逻辑阵列并行重构技术仅对单条逻辑列的构造实现了并行化,而对多条逻辑列的同步并行仍未见可行算法。依据处理器阵列的潜在并行性,在分治策略的基础上,提出了一种阵列分块的并行重构算法。算法对处理器阵列实施横向分块划分,对每个阵列块进行并行重构,并对所得逻辑子阵列进行归并,实现了多条逻辑列的同步并行重构。与现有的并行算法相比,新算法同样能够生成最大逻辑列,并且减少了通信开销与计算中的数据冗余,有效提高了运行速度。实验结果表明,在物理阵列大小为64×64的处理器阵列上,运行速度比现有并行算法提高39.55%,并且具有良好的可扩展性。  相似文献   

2.
为挖掘可重构处理器的内在并行性,需要编译器通过分析程序的并行性来决定可重构处理器硬件最好的执行模式。为此,提出一种基于可重构处理器的并行优化算法。将有向无环图的并行计算部分映射到可重构处理器上,对任务实现3个不同层次的并行性(指令级并行、循环级并行、线程级并行)。测试结果表明,该算法使得可重构处理器在处理任务时比未用并行优化算法的性能提升1.2倍左右。  相似文献   

3.
提出一种基于YHFT-QDSP的并行图像匹配算法,采用数据级并行方法实现并行的特征提取和特征点匹配,充分开发了多核处理器的多级并行性。实现和评测了SIFT、SURF、PCA-SIFT的并行算法。实验结果表明,并行图像匹配算法对各种不同图像形变具有良好的适应性,具有接近串行算法的图像匹配能力,平均加速比达3.2。  相似文献   

4.
奇异值分解(SVD)广泛应用于数字信号处理等领域.为提高SVD效率,Brent等提出一种由SVD处理器组成的阵列,应用并行JACOBI算法实现SVD.SVD处理器一般采用CORDIC位并行结构实现.本文比较CORDIC位并行结构和位串行结构,分析了位串行结构在硬件资源以及时钟频率上的优势,采用CORDIC位串行结构设计了SVD处理器,并结合位串行结构的特点对其进行了优化.仿真实验验证了该设计的正确性;CORDIC结构的对比实验表明,与位并行结构相比,位串行设计以一定的处理时间为代价,可以节约大量的硬件资源,适用于硬件资源紧缺的非实时场合.  相似文献   

5.
可重构多处理器阵列上的容错技术可用来重构含有故障单元的处理器阵列,以便获得最大可用的目标阵列。现有的研究成果主要侧重于重构算法的构造,还没有涉及对重构后目标阵列的同步通讯性能的研究。提出了一种改善目标阵列同步通讯性能的电路优化算法,用来降低目标阵列行与行之间通讯的延时,使得相邻两行处理器的通讯尽可能达到同步。实验结果表明,提出的算法对不同大小、不同故障率的阵列都有相应的同步通讯性能的改善。  相似文献   

6.
基于流水总线的可重构线性阵列系统(LARPBS)是一种建立在光总线上的并行计算模型,许多研究工作者已经在该模型上设计出了一些高效的并行算法。文章提出了一种基于LARPBS模型上Vnliant并行归并的实现算法,利用该法对长度为N的序列进行排序,最坏情况下可以使用N个处理器在O(logNloglogN)时间完成。  相似文献   

7.
奇偶归约法是用来求解三对角方程组的一种算法,在串行求解方程组时没有太好的特点,但其本身却具有极大的并行性,为并行求解方程组提供了可能,提出了对此算法的改造方法,使之成为基于机群系统的求解三角块方程组的并行算法,该算法可以较好地将方程组求解工作分配到各处理机,同时,通过对算法的合理改进,又大大减少了处理机之间的通信时间.分析了算法的复杂度,给出了在"曙光TC-1700"并行计算机上的数值试验结果,试验结果表明,该算法是一种可行的并行算法.  相似文献   

8.
针对宽带线型调频(WLFM)信号空间谱估计(special spectrum estimation)运算量大的弊端,研究了模糊函数域-空域处理算法的实时实现.在分析了算法内在并行性的基础上,提出了一种任务级的并行处理算法.给出了该算法在多数字信号处理器(DSP)并行处理系统上的算法映射.数据实验结果表明,基于多DSP并行处理系统的模糊函数域-空域并行算法具有较高的实时性能.  相似文献   

9.
当目标处理器个数大于2时,调度任意结构并行任务图并获取最优解的问题是NP完全难题。表调度算法作为一类代表性的启发式任务调度算法具有调度性能较好而时间复杂度较低的优点。但当任务图的规模较大时表调度算法的耗时也很可观,无疑并行表调度算法是一种好的解决方法。本文在串行算法LBP的基础上提出了一个新的表调度并行算法PLBP,该算法在保证与串行算法同样调度性能的前提下,时间复杂度有较大的改善。同时,与已有的表调度并行算法相比较,PLBP算法有更小的时间复杂度。  相似文献   

10.
基于流水光总线的可重构线性阵列系统(LARPBS)是一种建立在光总线上的并行计算模型。本文提出了一种基于LARPBS模型的快速排序并行算法,该算法使用n个处理器,对关 键字位数固定的n个记录可以在O(1)时间完成排序;对于关键字位数不固定的n个记录,可以在O(d)时间完成排序,这里d为关键字的最大位数。  相似文献   

11.
嵌入式零树小波压缩算法是图像压缩技术中有效的压缩算法,但其压缩时间较长.对该算法进行了研究,并在多核机群系统下实现了该算法的并行算法,提高了算法的性能.实现了MPI和MPI+OpenMP两种并行算法,并将串行算法、MPI并行算法与MPI+OpenMP并行算法进行比较.结果显示,随着数据量的增多,MPI并行算法和MPI+OpenMP并行算法相对于串行算法的运行效率都有明显提高,其中MPI+OpenMP并行算法的效率更好.  相似文献   

12.
Explicit Data Graph Execution(EDGE)ISA是一种专门为类数据流驱动的分片式众核处理器而设计的指令集体系结构.相较于传统的采用控制流驱动的处理器,EDGE结构以超块(Hyperblock)而不是单个指令作为其执行单位,在超块内部实现数据流执行,超块之间按照推测序保持控制流执行,有利于挖掘指令级并行性.但是,EDGE编译器按照程序的串行执行顺序组织超块,超块间和超块内部受限于数据依赖,削弱了整个程序运行时的潜在数据级并行性和线程级并行性,不利于发挥EDGE分片式结构的优势.本文通过分析EDGE编译器超块组织的特点,结合EDGE结构特有的执行模型,提出一种普适性的超块组织框架来模拟EDGE结构上多线程运行的效果,进一步挖掘EDGE结构运行串行单线程程序时的指令级并行性.本文选用TRIPS微处理器作为EDGE结构的实例处理器,利用矩阵乘法等三个实验验证了我们所提出的框架的可行性,实验结果表明这些应用在TRIPS上获得了较好的性能提升.  相似文献   

13.
使用SOPC Builder自定制组件的方法,设计出JPEG2000图像压缩算法的IP核。通过对JPEG2000压缩原理中并行性的深入分析,利用这种并行性提出了一种针对压缩过程中EBCOT算法编码的硬件加速实现的设计方案。在DE2开发平台上的测试表明,该文设计的JPEG2000IP核压缩速度明显比串行结构的同类处理器速度要快。  相似文献   

14.
求解全源最短路径的Floyd算法是许多实际应用基础上的关键构建块,由于其时间复杂度较高,串行Floyd算法不适用于大规模输入图计算,针对不同平台的并行Floyd算法设计可为解决现实问题提供有效帮助.针对Floyd算法与国产自主研发处理器匹配滞后的问题,首次提出基于神威平台的Floyd并行算法的实现和优化.根据SW26010处理器主-从核架构的特点,采用主从加速编程模型进行并行实现,并分析了影响该算法性能的关键因素,通过算法优化、数组划分和双缓冲技术进行优化,逐步提升算法性能.测试结果表明,与主核上串行算法相比,基于神威平台的Floyd并行算法在单个SW26010处理器上可以获得106倍的最高加速.  相似文献   

15.
针对粗粒度可重构处理器的特点,提出一种二维离散余弦变换的设计方法,该方法在硬件资源受限的条件下,有效地挖掘了算法的并行性,结果证明算法在速度和资源利用率方面均达到了较好的状态,可满足实时图像编解码的要求.  相似文献   

16.
面向数据驱动处理器阵列的自动综合   总被引:1,自引:0,他引:1  
本文提出了一种数据驱动处理器阵列结构,该结构能有效平衡存储和计算,适合用于在FPGA上实现高性能的算法加速,同时提出了一个面向该结构的自动综合框架,通过该框架可以将常规循环有效地映射到数据驱动处理器阵列上。实验结果表明了该自动综合框架的有效性,且生成的设计性能优于通用处理器。  相似文献   

17.
陈宏建  陈崚  李开荣  陈莉莉 《计算机工程》2004,30(23):31-33,110
在介绍带有宽总线网络的可重构计算阵列(RAPWBN)的基本结构及其二进制值的前缀和操作的基础上,提出了 RAPWBN 阵列上的整数求和算法,并由此得到了 RAPWBN 阵列上的两种快速高效的矩阵乘法运算并行算法。在具有 N3个处理器和 N2条行总线的 RAPWBN 阵列上,若总线带宽ω>logN 字节,矩阵乘法可以在 O(1)时间完成;在具有 N2个处理器和 N 条行总线的 RAPWBN 阵列上,矩阵乘法可以在 O(N)时间完成。它们的效率都为 O(N3),达到了最优。  相似文献   

18.
本文提出了一种平滑性好、计算量小、并行性高的对一组离散数据点二次分段拟合的并行算法,该算法已在YH机上得以实现。  相似文献   

19.
陈俊朴 《计算机工程》2009,35(10):33-36
网络处理器具有并行体系结构,而其高级语言往往具有串行语义。对串行程序进行并行化编译要求引入同步,而同步的优劣又影响生成代码的执行效率。针对网络处理器上的程序,提出一个对同步进行优化的程序划分算法以增加程序的并行性。实验数据表明,在一些有代表性的网络应用上,该算法可提高程序的并行性,并提升性能。  相似文献   

20.
拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号