首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能领域的推广应用,对面向飞腾多核处理器的高性能卷积实现提出了强烈需求.针对飞腾多核处理器的体系结构特征与Wingorad快速卷积算法的计算特点,提出了一种高性能并行Winograd快速卷积算法.该算法不依赖通用矩阵乘库函数,由卷积核转换、输入特征图转换、逐元素乘、输出特征图逆变换等4个部分构成,融合设计了4个部分的数据操作,并设计了与之配套的数据布局、多级并行数据转换算法与多级并行矩阵乘算法,实现访存性能以及算法整体性能的提升.在两款飞腾多核处理器上的测试结果显示,与开源库ACL和NNPACK中的Winograd快速卷积实现相比,该算法分别能获得1.05~16.11倍与1.66~16.90倍的性能加速;集成到开源框架Mxnet后,该算法使得VGG16网络的前向计算获得了3.01~6.79倍的性能加速.  相似文献   

2.
随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。  相似文献   

3.
Cache空间的不公平使用和争用直接影响系统的整体性能,现有Linux操作系统的默认调度算法不能感知程序的行为,包括访问cache的失效次数,不了解线程之间访存模式和频度上可能存在的差异,因而无法做出更加合理的调度.本文提出并在Linux环境下实现了一种Cache感知的调度算法CAS,通过监测每个任务每千条指令的共享cache失效次数,把cache失效次数相近的任务聚合到同一个核上,使得cache失效次数差异较大的任务运行在不同的核上,避免了cache失效次数都很大的任务在不同的核上同时运行,从而减小了cache空间的不公平使用和争用.实验表明,CAS算法在大多数情况下,减少了整个负载的共享cache失效次数,提高系统的平均吞吐量约5%左右.  相似文献   

4.
深度强化学习使用深度神经网络在解决复杂决策任务上取得显著进步.然而,其推理成本明显增加,导致实用性降低,减少推理代价为该技术落地的重要挑战.本文研究发现,任务中并非所有状态都是难以决策的.受此启发,本文提出状态自适应推理框架,保证策略质量并显著降低策略推理成本.本文设计了动态策略训练算法:首先,为加速简单状态下的推理,生成不同大小的子策略网络.然后,训练元策略以根据状态难易动态选择合适的子策略.为进一步降低元策略推理成本,本文共享子策略与元策略网络的部分参数,并基于扩展的马尔可夫决策过程训练元策略.最后在gym平台上进行的实验表明,自适应推理框架在保证策略质量的前提下浮点数计算量少3.4倍.  相似文献   

5.
在计算机体系结构领域,非对称多核处理器将成为未来的主流.对于非对称多核处理器上的虚拟处理器调度问题,现有研究缺乏理论分析,且没有考虑虚拟处理器的同步特性.针对该问题,文中首先建立非线性规划模型,分析得出全面考虑虚拟处理器同步特性、核心非对称性以及核心负载的调度原则.然后,基于调度原则提出一个集成调度算法,该算法定义了效用因子、比例系数、比例资源的概念,结合虚拟处理器的同步特性和核心的非对称性对资源和负载进行全面度量;同时通过运行队列分解降低调度开销.提出的算法是第一个在非对称多核处理器上利用虚拟处理器同步特性的调度算法.实际平台上的实验表明:该算法实现了公平调度,并且性能比其他同类算法提高19%~48%.  相似文献   

6.
随着神经网络的广泛应用,它自身的安全问题也成为了一个重要的研究课题。将神经网络部署到神经网络处理器上运行是提高能效比的有效方法,但同时也引入了一些新的安全问题,比如侧信道信息泄露,本文以多核CNN处理器为基础,利用时间和内存侧信道信息,提出了一种针对多核CNN处理器的用户算法信息窃取攻击方法,经过试验证明了攻击的有效性,并针对多核神经网络处理器在时间和内存侧信道方面的脆弱性,提出了有效的防御手段,对如何保护神经网络处理器的安全提供了一定的参考意义。  相似文献   

7.
冯华  卢凯  王小平 《计算机科学》2013,40(9):159-162,189
多核处理器具有良好的性能功耗比,因此其在实时嵌入式系统中的应用是一种趋势.然而,现有的软件结构下,多核处理器的多核特性对实时性能的提高没有帮助;甚至,多核处理器核间的资源共享使影响程序执行时间的因素变得复杂,实时任务的最坏执行时间(Worst Case Execution Time,WCET)变得更为不可预测和难以控制.基于国产飞腾处理器研究了基于多核处理器的实时系统构建和实时性能优化,提出了“基于独立实时域的实时优化方法”;通过虚拟化技术把处理器分为“实时域”和“非实时域”,实时任务和非实时任务运行在不同的核心上,充分利用多核处理器各个核心,高效调度实时任务和非实时任务运行.  相似文献   

8.
要想充分利用并行工作的处理器的威力,软件必须能够处理并发性问题。本文介绍如何通过LabVIEW图形化开发平台有效优化多核处理器环境下的信号处理性能。  相似文献   

9.
赵婉芳  陈莉莉 《软件》2023,(2):123-125
嵌入式设备发展需求提升,面向多核处理器系统开发的嵌入式实时操作系统成为研究重点。分析了基于多核处理器芯片操作系统2种体系结构、典型的自旋锁算法及全局任务调动机制等关键技术,指出目前多核RTOS系统软件设计与开发中存在的重难点以及未来发展方向。  相似文献   

10.
一种面向多核处理器并行系统的启发式任务分配算法   总被引:2,自引:0,他引:2  
多核处理器使得并行系统的结构更加复杂并且其中任务个数大大增加,为了在这类系统中高效地进行任务分配,建立了任务分配模型,并提出了一种包含两轮操作的启发式任务分配算法,分别完成进程到处理节点和进程内线程到处理器核的分配.每轮操作经过带回溯的多次迭代处理,最终得到任务到处理器核的分配方案.与穷举查找法和遗传算法的对比测试表明该算法能在较短时间内求得近优解,并且当线程个数增大时,算法的求解时间远小于遗传算法.  相似文献   

11.
在非对称多核处理器上进行任务调度时,现有的操作系统调度器没有考虑其非对称性.针对单一指令集非对称多核处理器上的操作系统调度问题,首先建立线性规划模型,分析各种因素,得出行为匹配、减少迁移和负载均衡的调度原则.然后,基于调度原则提出一种综合性调度算法.该算法包括两个部分:1) 集成负载表征,提出集成行为的概念,全面衡量任务的整体性和阶段性行为;2) 基于集成行为的调度算法,有效开发非对称多核处理器的特性,能够保证各核心负载均衡,同时可以避免不必要的任务迁移.另外,该算法通过参数调整机制实现了算法的通用性.该算法是一种综合处理任务的整体性和阶段性行为,并具备通用性的调度算法.实际平台上的实验结果表明,该算法可通用于多种环境,且性能比其他对应算法提高6%~22%.  相似文献   

12.
基于多核网络处理器的UTM设计   总被引:1,自引:0,他引:1  
网络的攻击方式从简单的网络层攻击升级到应用层的混合型攻击,网络安全的需求也在发生变化,用户需要能够防御混合型威胁的安全设备.针对上述网络混合成胁盛行的现状,提出了一种基于多核网络处理器的统一威胁管理(UTM)的设计思想,介绍了UTM的硬件结构设计、多核网络处理器的结构以及UTM软件的体系结构设计,能较好地适应网络环境对高性能以及应用层数据处理的需求.  相似文献   

13.
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。  相似文献   

14.
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。  相似文献   

15.
16.
为多核平台开发一种有效的编程方法已经成为并行软件研究的一个重要目标.在嵌入式多核平台上进行了OpenMP并行程序的有效的实施运行.针对嵌入式具有有限内存资源的特点,提出了通过扩展OpenMP自定义制导语句tiling来提高并行程序在嵌入式多核平台上的运行效率.扩展后的OpenMP并行程序支持循环分片,从而能够充分利用层...  相似文献   

17.
针对多核多线程处理器中乱序访存影响计算实时性的问题,在对典型访存队列进行研究的基础上提出了一种新的访存队列构建模型及其硬件结构.该模型采用窗口优化算法控制最差情况下的访存延迟,保证访存的实时性,同时又利用优化的乱序调度策略减少访存延迟.实验证明,该访存队列可控制最大访存延迟,与顺序访存相比,存储器具备更高的带宽,与传统的乱序访存相比较,可以充分满足计算的实时性需求,而存储器有效带宽基本不受影响,解决了多核多线程处理器承担实时流计算的基础难题.  相似文献   

18.
肖红  吴迪 《微计算机信息》2007,23(15):208-209
网络处理器通常由多个异构的处理和内存单元通过片上网络连接构成,其目标应用需要在Gbit/s到几十Gbit/s的网络环境中以线速处理数据包。基于网络处理器的应用有实时、资源受限和异构的特点。组件技术对于复杂的嵌入式系统是一种十分有前途的方法。本文以一种典型的网络处理器为例,说明了在基于网络处理器的系统中应用组件技术时,对组件框架的要求,讨论了组件组合框架和运行时框架,并定义了组件框架服务。利用提出的组件框架,可以实现软件性能工程。  相似文献   

19.
刘宇  李康  马佩军  史江义 《计算机工程》2010,36(14):215-217
提出一种用于多核网络处理器数据通道处理的高速MAC接口数据交换控制结构。利用主动请求机制控制数据包的接收,通过多线程分配策略实现对接收数据的并行处理,维护数据包的到达顺序,实现高速数据传输。仿真与验证结果表明,接收控制器模块能在85 MHz工作时钟下达到2.56 Gb/s的数据吞吐率,满足网络处理器OC-48的线速处理要求。  相似文献   

20.
为了解决基于并行总线结构的抗恶劣环境计算机通用性差的问题,提出了一种基于国产多核处理器的可重构计算机的设计方法,该方法包括了基于国产多核处理器的可重构计算机的主要设计思路和实现过程;在该方法中通过采用国产多核处理器提高了计算机性能,采用FPGA实现可重构设计,通过可重构设计在硬件完成生产后可以对计算机的功能重新构建,提高了计算机的通用性;目前,该方法应经投入应用,在应用过程中取得了良好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号