首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
为了避免PCIe传输过程中PIO写延时、主机与嵌入式处理系统交互次数过多等问题对于传输带宽的影响,设计了一种基于命令缓冲机制的直接存储访问(DMA)控制器以提高传输带宽利用率。采用FPGA端内部设置命令缓冲区的方式,使得DMA控制器可以缓存PC端的数据传输请求,FPGA根据自身需求动态地访问PC端存储空间,增强了传输灵活性;同时,提出一种动态拼接的DMA调度方法,通过合并相邻存储区访问请求的方式,进一步减少主机与硬件的交互次数和中断产生次数。系统传输速率测试实验中,DMA写最高速率可达1631 MB/s,DMA读最高速率可达1582 MB/s,带宽最大值可达PCIe总线理论带宽值的85.4%;与传统PIO方式的DMA传输方法相比,DMA读带宽提升58%,DMA写带宽提升36%。实验结果表明,本设计能够有效提升DMA传输效率,明显优于PIO方式。  相似文献   

2.
吕广秋  李伟  陈韬  南龙梅 《计算机工程》2020,46(5):167-173,180
在密码SoC等数据密集型应用中,数据传输速度成为制约密码处理性能提升的瓶颈。结合密码SoC的数据流处理特点,提出一种面向密码SoC的高性能DMA优化设计方法。对特定模块的DMA传输开辟专用通道,利用并行读写数据提高特定模块DMA传输的总线带宽利用率。添加特殊工作模式用于自主控制重复任务传输以提升传输的带宽利用率。在此基础上,采用多通道优先级动态调整技术实现多任务下效率较高的自适应传输。仿真结果表明,该DMA在55 nm工艺下的最高频率达910 MHz,总线利用率和协处理器利用率的平均值分别高达91%和54%,相对通用DMA,其对密码SoC的ZUC、SNOW、SM3、SM4和AES算法的性能分别提升216%、222%、123%、69%和221%。  相似文献   

3.
基于PCIe总线的多路实时传输系统设计   总被引:1,自引:0,他引:1  
针对多路图像数据的传输及处理带宽需求,使用Virtex-6 FPGA设计实现了基于PCIe总线的多路实时传输系统。该系统主要包括仲裁控制多设备对DDR3的访问,采用PCIe Bus Master DMA方式实现与PC之间的高速传输,以及对全双工传输过程中存在的拥堵问题进行优化。实验结果表明,该实时传输系统最高的传输速率可以达到单工写1 632 MB/s,读1 557 MB/s,全双工写1 478 MB/s,读1 439 MB/s,并且性能稳定,完全满足多路图像采集后的高速传输处理需求。  相似文献   

4.
密码SoC中嵌入式链式DMA的研究与设计   总被引:1,自引:0,他引:1  
为了提高密码SoC中密码运算模块与其他功能部件之间数据传输的效率,提出了一种适合密码运算的嵌入式链式DMA传输方式。分析了CPU传输、Block DMA传输和链式DMA传输3种数据传输方式的特点;设计了嵌入式链式DMA的硬件架构,给出了其工作流程;为嵌入式链式DMA设计了主从复合接口,使其具有控制总线、发起总线传输的功能;使用65 nm CMOS工艺标准单元库对嵌入式链式DMA模块进行了ASIC实现;搭建了仿真验证平台。实验结果表明,嵌入式链式DMA可以明显提升密码SoC数据传输效率,满足了功能和性能的需求。  相似文献   

5.
随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过利用加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,本文基于新的国产处理器-国产加速器异构系统提出了一个新的HPL性能模型,设计了一种全新的多线程细粒度异构HPL算法.我们完成了一个轻量级跨平台异构加速框架HPCX用来实现跨平台的HPL算法.我们的性能模型能够准确的预测类似异构系统的HPL性能,我们的多线程细粒度异构HPL算法在NVIDIA GPU平台上性能超过目前NVIDIA平台上性能最好的NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512节点的规模上,我们的新HPL算法实现了2.3PFLOPS实测峰值性能和71.1%的浮点效率.  相似文献   

6.
针对当前高速数据采集系统对速率和精准度等方面越来越高的要求,介绍了一种基于DMA传输的PCI接口数据采集卡,重点阐述了利用新型驱动开发模型WDF实现中断和DMA传输技术相结合来采集LVDS信号的驱动程序开发过程,并将DMA与普通传输模式进行对比分析,实验结果表明,该方法下的数据传输速率可达到80MB/s,经过反复测试证实,该套设备稳定可靠,完全满足当前需求.  相似文献   

7.
该文章提出一种新的传输技术——基于AMBA(Advanced Microcontroller Bus Architecture)总线的多请求DMAC(Direct Memory Access Controller)设计方法。该DMAC支持CPU通过APB总线来进行寄存器配置,通过AHB总线进行内存数据搬运,支持跨时钟域传输,支持链表传输模式,提高了DMAC系统的通用性,采用了内部多套请求寄存器以及内置轮询权重仲裁器的方式实现了多请求轮询传输模式,提高了DMA系统在面对多个传输请求时的灵活性,通过对比正常传输模式节省大量传输时间,实现了49%的效率提升。设计基于UVM(Universal Verification Methodology)验证平台,提出通用scoreboard设计方法快速定位DMA传输过程中数据比对出错位置,实现100%功能覆盖率。  相似文献   

8.
当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(High Performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的异构超级计算机系统,提出一套新的CPU与加速器计算任务分配方式,提出平衡点理论指导HPL性能优化.为了优化HPL程序,提出了使用CPU与加速器协同工作的look-ahead算法和行交换连续流水算法,实现了加速器、CPU、网络等部件的高度并行.此外,为带有加速器的系统设计了新的panel分解和行交换的实现方法,提高加速器的利用率.在每个节点带有4个GPU的系统上,单节点HPL效率达到79.51%,14884节点效率达到62.22%.  相似文献   

9.
使用直接内存存取(DMA)方式接收报文时,必须先向DMA控制器指定需要接收的字节。当DMA控制器接收到指定字节后,产生DMA传输中断。但是在实际应用时,串口接收报文的字节往往是不固定的。针对DMA必须接收固定长度的数据才产生传输中断的不足,设计了外部中断与定时器相结合的方法来解决这一问题。该方法兼顾了DMA传输不需要CPU干预的优点,又弥补了其不能传输不定长数据的缺陷。外部中断由一个与串口RXD引脚相连接的外部引脚产生。该中断产生的EVENT事件与定时器的输入事件相关联。设置定时器为Retrigger模式,接收到EVENT事件后清零定时器的累计时间;而当定时器一定时间内接收不到EVENT事件后就会超时产生中断,在超时中断服务程序中进行报文处理。由于使用了定时器超时中断进行报文处理,实现了不定长报文的接收和处理,满足了串口通常传输不定长报文的需求。  相似文献   

10.
本文采用Altera公司的Stratix系列FPGA实现了一个三端口非透明型SDRAM控制器,该控制器面向用户具有多个端口,通过轮换优先级的设计保证了多个端口平均分配SDRAM的带宽且不会降低传输速率。将访问SDRAM空间虚拟成一个简单的访问三口RAM的操作,采用乒乓的DMA传输机制大大提高了数据传输的带宽和效率。  相似文献   

11.
当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(high performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的...  相似文献   

12.

卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题. 随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求. 针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法. 该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算. 整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行. 通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销. 同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案. 最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍. 同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能. 其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%.

  相似文献   

13.
HPL(High Performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,本文尝试为HPL的优化工作提供一种新的解决方案:Hetero-HPL.在Hetero-HPL中,进程不再要求与(协)处理器一一对应,因此HPL算法在单节点独立运行情况下可以完全避免进程间数据传输开销,算法各个重要步骤有能力完全利用物理节点的所有资源,如内存容量,CPU核心,协处理器,PCI-e总线等.Hetero-HPL并不引入冗余计算量及通信量,并在任意设备数量下妥善应对锁页内存分配限制,确保多设备负载均衡和设备内的高效的大规模同质运算.在实验平台上,Hetero-HPL效率可以达到平台峰值性能的76.5%(其中矩阵乘函数效率为84%);进一步的实验表明,Hetero-HPL在多节点联机运行情况下也是一种可行的方案.  相似文献   

14.
高性能计算机系统的性能评价历来是本领域所关注的重要问题.TOP500排名所采用的标准测试HPL(High Performance Linpack)并不能真实的反映系统各方面的性能,尤其是存储访问方面.HPC Challenge基准测试则着重于各种存储访问模型,在HPL的基础之上又整合了多个有代表性的核心测试程序,很有可能在未来取代现在TOP500采用的的HPL测试.本文首先简单介绍HPC Challenge诞生的背景,解释基准测试的基本概念和原理,从存储访问模型的角度对各项测试进行了描述,并根据实际的测试结果进行比较和分析.最后给出结论以及将来的工作.  相似文献   

15.
针对LTE终端通信协议栈的处理过程中Cache缓存方式效率差,提出一种可以提高处理速度降低延时的数据缓存方式。通过利用便签式存储器(Scratch-Pad Memory,SPM)和直接内存存取方式(Direct Memory Access,DMA)的性能优势,将协议栈处理的过程中需要与处理器频繁交互的数据缓存到SPM中,实现在SPM中完成数据的包头压缩/解压、加密/解密和重组等协议功能处理,并通过DMA方式实现SPM与主存之间的数据搬运,减少处理器对大块连续数据的搬运,提高处理效率。该方式避免了CPU在通过Cache缓存方式进行数据交互容易发生缓存不命中的问题,从而提高了协议栈的数据处理效率。经过理论分析及实验对比,结果表明,在LTE协议栈处理过程中,采用SPM与DMA结合的数据缓存机制,相比Cache缓存方式可以使整体性能至少提升12.65%。  相似文献   

16.
孙乔  孙家昶  马文静  赵玉文 《软件学报》2021,32(8):2329-2340
HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工作提供一种解决方案:Hetero-HPL.在Hetero-HPL中...  相似文献   

17.
为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能力,根据FT-M7002平台向量存储器的层次结构特征,分析Canny梯度计算并行算法的访存模式,通过首地址偏移取址解决不连续访存问题,并结合双缓冲方式完成数据传输与数据计算。实验结果表明,在与原始Canny算法具有相同检测精度的情况下,该算法在卷积核大小为3×3、5×5、7×7时整体运行速度提升了1.490~2.112倍,缩小了与主流加速器件在数字图像处理领域的性能差距。  相似文献   

18.
矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95%以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50%左右.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号