期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《计算机应用与软件》2015,(11)

面向异构并行系统的高时效性任务调度问题开展研究,着重考虑能耗因素对于调度方案的影响。首先在问题分析中,给出任务与资源的形式化描述。随后提出异构并行系统任务调度的决策变量和优化目标,并构建约束模型。基于典型调度过程,将原问题分解为序列生成算法设计问题和指派控制算法设计问题。提出用于任务排序的三种策略,以及用于任务分配的调度算法。在仿真实验中,将所提算法进行组合,在不同场景下进行对比测试。实验结果表明,所提方法能够在保证任务执行率的前提下,通过优化调度方案减少系统的能量开销。相似文献

2.

支持QoS的异构并行交换结构研究

下载免费PDF全文

任涛兰巨龙扈红超《计算机工程》2011,37(8):88-90

不同类型的交换结构具有不同的交换性能。为此,提出一种支持QoS的异构并行交换结构(HPSA),该结构支持3种类型的业务：保障带宽(GB)业务,保障时延(GD)业务和保障丢包(GL)业务。各业务通过HPSA的不同类型平面被交换,从而实现对各类业务的QoS支持。仿真结果表明,HPSA中的GB业务带宽性能、GD业务时延性能及GL业务丢包率性能,均优于它们在基于iSLIP算法的IQ交换结构和基本PPS结构中的性能。相似文献

3.

DLPF：基于异构体系结构的并行深度学习编程框架

下载免费PDF全文

王岳青窦勇吕启李宝峰李腾《计算机研究与发展》2016,53(6):1202-1210

深度学习在机器学习领域扮演着十分重要的角色,已被广泛应用于各种领域,具有十分巨大的研究和应用前景.然而,深度学习也面临3方面的挑战：1)现有深度学习工具使用便捷性不高,尽管深度学习领域工具越来越多,然而大多使用过程过于繁杂,不便使用;2)深度学习模型灵活性不高,限制了深度学习模型发展的多样性;3)深度学习训练时间较长,超参数搜索空间大,从而导致超参数寻优比较困难.针对这些挑战,设计了一种基于深度学习的并行编程框架,该框架设计了统一的模块库,能可视化地进行深度学习模型构建,提高了编程便捷性;同时在异构平台对算法模块进行加速优化,较大程度减少训练时间,进而提高超参数寻优效率.实验结果表明,该编程框架可以灵活构建多种模型,并且对多种应用取得了较高的分类精度.通过超参数寻优实验,可以便捷地获得最优超参数组合,从而推断各种超参数与不同应用的联系. 相似文献

4.

异构平台上性能自适应FFT框架

下载免费PDF全文

李焱张云泉《计算机研究与发展》2014,51(3):637-649

快速傅里叶变换(fast Fourier transform, FFT)在科学和工程界中具有着广泛的应用,尤其是在信号处理、图像处理以及求解偏微分方程领域.基于图形处理器(graphic processing unit, GPU)和加速处理器(accelerated processing unit, APU)的异构平台,提出了自适应性能优化的大规模并行FFT(massively parallel FFT, MPFFT)框架.MPFFT框架采用了安装时和运行时2层自适应策略.安装时借助代码产生器可以生成被GPU程序内核(kernel)调用的任意长度的代码模板库(codelet);运行时根据自动调优技术使代码产生器生成高度优化的GPU计算代码.实验结果表明：MPFFT在APU平台上,一维、二维以及三维FFT相对于AMD clAmdFft 1.6取得的平均加速比分别为3.45,15.20以及4.47,在AMD HD7970 GPU上平均加速比分别为1.75,3.01和1.69.在NVIDIA Tesla C2050 GPU上取得的整体性能都达到了CUFFT 4.1的93%,最大加速比能够达到1.28. 相似文献

5.

基于异构平台的BH算法高效并行实现

李婵怡王武冯仰德谢力《计算机应用研究》2016,33(8)

针对多核CPU和众核加速器或协处理器异构平台的架构特征进行了研究,以MPI和OpenMP混合编程模型实现了N体问题BH算法的并行,采用了正交递归二分法（ORB）使进程之间负载均衡,并对程序进行了并行优化和MIC加速。优化和加速后的程序性能提升到原版本的3.4倍以上,其中MIC加速后性能提升到加速前的1.7倍。程序具有较好的扩展性,计算粒子规模达到上亿时,可扩展到32个节点共4480核心（640个CPU核心和3840个MIC核心）相似文献

6.

MIMD模型上并行推理的一种实现机制

陈华平陈国良《小型微型计算机系统》1996,(4)

推理机制是人工智能及逻辑程序设计的关键技术。本文主要讨论了ＭＩＭＤ共享存储器模型上并行正向推理的一种实现机制，并利用队栈结构来实现本地任务的求解及与其它处理器之间的任务调度，同时给出了两种动态的负载平衡调度算法。相似文献

7.

异构系统功耗感知的并行循环调度方法

下载免费PDF全文

王桂彬杨学军徐新海林一松李鑫《软件学报》2011,22(9):2222-2234

以类OpenMP的并行程序为研究对象,在满足性能约束的条件下,结合异构系统并行循环调度和处理器动态电压调节技术优化系统功耗.首先建立了异构系统功耗感知的并行循环调度问题基本模型;然后,通过分析方法给出异构系统并行循环调度的能耗下界,该下界可用于评估功耗优化方法的实际效率;进而将异构系统并行循环调度问题归纳为整数规划问题,在此基础上,提出了处理器内循环再调度方法进一步降低功耗.最后,以CPU-GPU异构系统为平台评测了10个典型kernel程序.实验结果表明,该方法可以有效降低系统功耗,提高系统效能. 相似文献

8.

基于“神威太湖之光”的Caffe分布式扩展研究

朱传家刘鑫方佳瑞《计算机应用与软件》2020,37(1):15-20

随着深度学习的快速发展,其规模越来越大,需要的计算越来越复杂。分布式扩展技术可以有效提高大规模数据的处理能力。基于神威太湖之光超算平台对深度学习框架Caffe进行分布式扩展研究,对比同步方式下参数服务器分布式扩展方法和去中心化的分布式扩展方法。实验表明,同步方式下,去中心化的分布式扩展方法相比参数服务器分布式扩展方法在通信效率方面具有明显的优势,对特定的模型通信性能提高可达98倍。相似文献

9.

面向异构多核处理器的并行代价模型

黄品丰赵荣彩姚远赵捷《计算机应用》2013,33(6):1544-1547

现有的并行代价模型大多是面向共享存储或分布存储结构设计的,不完全适合异构多核处理器。为解决这个问题,提出了面向异构多核处理器的并行代价模型,通过定量刻画计算核心运算能力、存储访问延迟和数据传输开销对循环并行执行时间的影响,提高加速并行循环识别的准确性。实验结果表明,提出的并行代价模型能有效识别加速并行循环,将其识别结果作为后端生成并行代码的依据,可有效提高并行程序在异构多核处理器上的性能。相似文献

10.

基于事件的异构平台并行程序性能可视化研究

顾慧郑晓薇申安来逯文晖《计算机工程与设计》2010,31(24)

为了便于用户快速、直观地了解到机群系统中并行应用程序的性能情况,将Linux计算机群与Windows控制显示平台相结合,提出了一种基于事件的异构平台并行程序性能可视化方法.该方法以MPI作为底层编程环境,在高层使用MPE技术,依据动态性能检测方式获取程序执行过程信息;设计C#语言及Jumpshot日志图形化分析集成工具实现并行程序性能可视化.实验结果表明,该方法可准确,直观地反映程序性能信息,有助于程序员简便、有效地对并行程序进行量化分析,对提高机群系统的可用性、改善程序性能及效率等方面具有较高的实用价值. 相似文献

11.

面向边缘智能计算的异构并行计算平台综述

下载免费PDF全文

万朵胡谋法肖山竹张焱《计算机工程与应用》2023,59(1):15-25

边缘智能计算对硬件资源的需求复杂多元,传统计算平台难以为继,异构并行计算平台成为边缘智能算法落地的关键途径之一。以深度学习算法和边缘计算为牵引,对异构并行计算平台展开研究。一方面,阐述了传统计算平台适配实现边缘智能计算的优缺点,指出边缘端应用场景中传统计算平台算力与功耗矛盾突出等局限性,并以指令模型、通讯机制和存储体系三个关键技术为线索梳理技术发展脉络。另一方面,从运算速度、功耗等角度重点对比分析了近年来典型异构平台较新的代表性产品,然后针对不同应用场景和约束条件给出了异构平台的选择建议：优先选择CPU+X组合的异构平台。功耗要求严格约束下的应用建议优先选择CPU+FPGA组合;功能迭代更新快的场景建议优先选择CPU+GPU组合;算法成熟且对实时性和功耗均具有高要求的应用优先选择ASIC计算平台。提出了异构并行计算平台在指令模型统一、通讯机制轻量化、存储体系灵活性以及开发生态完备化四个方面的问题与挑战,期望能为该领域研究人员带来一定的启发。相似文献

12.

深度学习加速技术研究

下载免费PDF全文

杨旭瑜张铮张为华《计算机系统应用》2016,25(9):1-9

深度学习是近年来机器学习的研究热点,并已广泛应用于不同领域. 但由于训练模型复杂和训练集规模庞大等原因导致的深度学习性能问题已成为其发展的一大阻碍. 近年来计算机硬件的快速发展,尤其是处理器核数的不断增加和整体运算能力的快速提高,给深度学习加速提供了硬件基础,然而其训练算法并行度低和内存开销巨大等问题使得加速研究工作困难重重. 首先介绍了深度学习的背景和训练算法,对当前主要的深度学习加速研究工作进行归纳总结. 在此基础上,对经典的深度学习模型进行性能测试,分析了深度学习及并行算法的性能问题. 最后,对深度学习的未来发展进行了展望. 相似文献

13.

基于预测与分解策略的大规模炼油过程生产调度算法

下载免费PDF全文

陈远东丁进良《控制理论与应用》2023,40(5):833-846

炼油生产调度为混合整数规划问题,随着规模的增大,其求解时间随问题规模呈指数增加,使得大规模长周期炼油生产调度问题难以在合理的时间内求解.针对该问题,本文提出了一种基于生产任务预测与分解策略的炼油生产调度算法,该算法能在短时间内获得大规模调度问题的满意解.所提算法将原问题沿时间轴分解为若干个调度时长相同的单时间段子问题,并设计了基于深度学习的单时间段生产任务(组分油产量)预测模型,用于协调子问题的求解.其中,生产任务预测模型通过易于获得的小规模问题的全局最优调度方案训练得到.最后,通过与商业求解器Cplex以及现有算法的对比,实验结果表明了所提算法的有效性. 相似文献

14.

基于深度强化学习种群优化的演化式分拣调度算法

曾德天曾增日詹俊《计算机应用研究》2022,39(3):739-743+757

机械制造中的产线分拣作业具有问题与数据的双重复杂性,为了对分拣操作进行优化以提高生产效率,设计了一套分拣作业的数据表示方法与一种基于种群优化的演化式算法,同时整理并公开了一个真实的工业数据集。数据表示方法通过借鉴词袋模型对原始作业数据进行抽象表示;演化式算法使用深度强化学习初始化遗传算法中的种群,同时引入了精英保留策略以提高算法的优化能力。最后,将提出的算法与其他算法在真实的工业数据集与旅行商问题数据集上进行了对比。结果表明,该算法能找到更优的分拣顺序与访问路径,验证了算法的有效性。相似文献

15.

基于多目标遗传算法的单指令集异构多核系统静态任务调度

徐远超张志敏蒋毅飞《小型微型计算机系统》2012,(10):2237-2242

与同构多核处理器相比,单指令集异构多核处理器能够更好的匹配程序行为的多样性,从而具有更好的性能功耗比.异构多核处理器的能效优势依赖于操作系统合理而有效的调度,追求性能与功耗的统一,是典型的多目标优化问题.提出将多目标优化遗传算法应用于寻找异构多核环境下最优的静态任务调度方案,提出表征任务相对顺序的染色体编码结构,使种群初始化时的有效个体所占比例变为100%.提出使用先序关系矩阵来确定任务的执行顺序,克服了高度值方法存在的严重不足.仿真结果表明,先序关系矩阵方法能扩大搜索范围,在种群规模足够大时,可以找到高度值方法漏掉的部分最优解. 相似文献

16.

下载免费PDF全文

Han Lin Ming-Fan Li Cheng-Fan Jia Jun-Nan Liu Hong An 《计算机科学技术学报》2019,34(5):1096-1108

Processor specialization has become the development trend of modern processor industry. It is quite possible that this will still be the main-stream in the next decades of semiconductor era. As the diversity of heterogeneous systems grows, organizing computation efficiently on systems with multiple kinds of heterogeneous processors is a challenging problem and will be a normality. In this paper, we analyze some state-of-the-art task scheduling algorithms of heterogeneous computing systems and propose a Degree of Node First (DONF) algorithm for task scheduling of fine-grained parallel programs on heterogeneous systems. The major innovations of DONF include:1) simplifying task priority calculation for directed acyclic graph (DAG) based fine-grained parallel programs which not only reduces the complexity of task selection but also enables the algorithm to solve the scheduling problem for dynamic DAGs; 2) building a novel communication model in the processor selection phase that makes the task scheduling much more efficient. They are achieved by exploring finegrained parallelism via a dataflow program execution model, and validated through experimental results with a selected set of benchmarks. The results on synthesized and real-world application DAGs show a very good performance. The proposed DONF algorithm significantly outperforms all the evaluated state-of-the-art heuristic algorithms in terms of scheduling length ratio (SLR) and efficiency. 相似文献

17.

异构系统中基于可用性的粒子群任务调度算法

李大普陈光喜李肯立《计算机工程与科学》2012,34(6):44-49

任务调度技术是并行分布式系统中的关键技术之一,对系统的性能起着重要作用,但通常情况下大型系统的任务调度问题属于NP问题。而现代启发式生物进化算法是找出很多NP问题近似解的有效方法。本文将粒子群算法应用于基于可用性的网格系统调度中,提出了一种调度算法,对算法的性能进行了理论分析和模拟实验。结果表明:和最近文献中的基于可用性的调度算法SSAC相比,所提出的新算法在保证系统资源具有同样的可用性条件下,能够产生更好的调度长度。相似文献

18.

面向深度学习的SoC架构设计与仿真

崔浩然李涵冯煜晶吴萌王超陶冠良张志敏《计算机工程与科学》2019,41(1):14-23

互联网时代信息量的爆炸式增长、深度学习的普及使传统通用计算无法适应大规模、高并发的计算需求。异构计算能够为深度学习释放更强的计算能力,达到更高的性能要求,并可应用于更广阔的计算场景。针对深度学习算法,设计仿真了一款完整的异构计算SoC架构。首先,通过对常用深度学习算法,如GoogleNet、LSTM、SSD,进行计算特征分析,将其归纳为有限个共性算子类,并用图表及结构框图的形式进行展示,同时生成最小算子级别伪指令流。其次,根据提取的算法特征,进行面向深度学习的硬件加速AI IP核设计,构建异构计算SoC架构。最后,通过仿真建模平台进行实验验证,SoC系统的性能功耗比大于1.5TOPS/W,可通过GoogleNet算法对10路1 080p 30fps视频逐帧处理,且每帧端到端的处理时间不超过30ms。相似文献

19.

R. Kunis G. Rünger 《Concurrency and Computation》2011,23(8):827-849

Programming with parallel tasks leads to task graphs with dependencies representing a parallel program. Scheduling algorithms are employed to find an efficient execution order of the parallel tasks. A large variety of scheduling algorithms exist, including layer‐based scheduling algorithms for homogeneous target platforms that build consecutive layers of independent parallel tasks and schedule each layer separately. Although these scheduling algorithms provide good results in terms of scheduling algorithm runtime and schedule execution time, the resulting schedules leave room for optimization. This article proposes an optimization for arbitrary layer‐based scheduling algorithms, which is called Move‐blocks algorithm. Given a layer‐based schedule of the parallel tasks, this algorithm moves blocks of parallel tasks into preceding layers in order to reduce the overall execution time of a task‐based application. Suitable blocks of parallel tasks are identified by the algorithm Find‐blocks, which is employed together with the Move‐blocks algorithm. The algorithm Move‐blocks is applied to four well‐known scheduling algorithms. A detailed evaluation for a wide range of test cases is given. Copyright © 2010 John Wiley & Sons, Ltd. 相似文献

20.

染缸排产建模及滑动时间窗启发式调度算法

隗千千董兴业王焕政《计算机应用》2020,40(1):292-298

针对染缸排产问题约束复杂、任务规模大、排产效率要求高的特点,为了提高问题模型和算法在实际场景中的适用性,建立了染缸排产增量调度模型,提出了滑动时间窗启发式调度（STWS）算法。该算法以最小化延误代价、洗缸成本、染缸切换成本为优化目标,使用启发式调度规则,按照优先级顺序调度产品;对于每个产品的调度,先用动态拼缸算法和拆缸算法进行批次划分,然后调用批次最佳排序算法调度批次。使用某染纱企业车间实际生产数据仿真调度,所提算法可在10 s内完成月度计划的调度。相对于人工排产方式,所提算法提高了排产效率,显著优化了三个目标,在增量调度中洗缸成本和染缸切换成本也有明显优化。实验结果表明所提算法具有很好的调度能力。相似文献