期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王占立马胜许邦建杨柳《计算机研究与发展》2014,(Z1)

针对通用矩阵乘(GEneralized matrix multiplication,GEMM)核心算法,提出了一种支持阻塞分段传输的直接存储访问控制器(direct memory access,DMA)结构.当有多个核进行核内到核外的数据传输时,阻塞分段传输机制可以替代软件锁同步的方式自动检测这些事务的状态,并在所有事务结束后启动分段传输事务.在NC-VERILOG仿真平台上的仿真结果表明,与软件锁同步方式相比,阻塞分段传输结构有2方面的优势:1)对单纯的数据传输,使用阻塞分段传输结构启动分段传输可以至少提前50拍;2)对GEMM核心算法,使用阻塞分段传输结构比使用软件锁同步的运行时间减少10 000拍以上. 相似文献

2.

一种Trace驱动的多核SMP集群并行性能模拟方法

翁玉芬徐传福车永刚方建滨王正华《计算机工程与科学》2009,31(Z1)

基于新型多核SMP集群的层次化性能模型,本文在BigSim并行性能模拟器基础上实现了一个Trace驱动的多核SMP集群并行性能模拟器Sim-MSC。在一个InfiniBand多核SMP集群的宿主机平台上采用jacobi3D程序进行了测试,结果表明Sim-MSC能够模拟MPI消息传递并行应用程序在多核SMP集群上的执行特征,精确预测系统和应用性能。相似文献

3.

域一致性新型锁同步机制的实现

余洋匡碧英沈金山卢德平《微计算机信息》2005,(36)

域一致性新型锁同步机制的实现将软件分布式共享存储系统所使用的基于域一致性协议锁机制以新的方式加以实现.它充分利用SMP结构所具有的特点,以多级方式实现锁同步机制,在结点内部使用了共享空间来实现锁的进程间信息的传递,让锁的获得、释放所需消息总量及消息传送次数大大减少,提高了锁的实现效率,进而程序的执行速度获得了提高. 相似文献

4.

域一致性新型锁同步机制的实现

余洋匡碧英沈金山卢德平《微计算机信息》2005,(21):141-143

域一致性新型锁同步机制的实现将软件分布式共享存储系统所使用的基于域一致性协议锁机制以新的方式加以实现.它充分利用SMP结构所具有的特点,以多级方式实现锁同步机制,在结点内部使用了共享空间来实现锁的进程间信息的传递,让锁的获得、释放所需消息总量及消息传送次数大大减少,提高了锁的实现效率,进而程序的执行速度获得了提高. 相似文献

5.

多核集群系统上的混合编程模型研究

张军万剑怡《计算机与现代化》2009,(5)

对采用多核处理器作为SMP集群系统的计算节点的系统上的一种混合编程模型-MPI+OpenMP混合编程模型进行了深入的研究.建立了两个矩阵乘的混合并行算法,在多核集群平台上与纯MPI算法分别进行了实验,并进行了性能方面的比较.试验表明,混合编程具有更好的性能. 相似文献

6.

域一致性新型锁同步机制的实现

余洋匡碧英沈金山卢德平《微计算机信息》2005,(11)

域一致性新型锁同步机制的实现将软件分布式共享存储系统所使用的基于域一致性协议锁机制以新的方式加以实现。它充分利用SMP结构所具有的特点,以多级方式实现锁同步机制,在结点内部使用了共享空间来实现锁的进程间信息的传递,让锁的获得、释放所需消息总量及消息传送次数大大减少,提高了锁的实现效率,进而程序的执行速度获得了提高。相似文献

7.

域一致性新型锁同步机制的实现

余洋匡碧英沈金山卢德平《微计算机信息》2005,(26)

域一致性新型锁同步机制的实现将软件分布式共享存储系统所使用的基于域一致性协议锁机制以新的方式加以实现。它充分利用 SMP 结构所具有的特点, 以多级方式实现锁同步机制, 在结点内部使用了共享空间来实现锁的进程间信息的传递, 让锁的获得、释放所需消息总量及消息传送次数大大减少, 提高了锁的实现效率, 进而程序的执行速度获得了提高。相似文献

8.

基于NiosⅡ软核的工业以太网精确时钟同步的实现

郑鸣付蔚《计算机应用与软件》2009,26(3)

介绍了基于NiosⅡ嵌入式软核处理器的工业以太网设备间精确时钟同步的设计与实现.利用Altera公司的Nios Ⅱ处理器,添加片内外设和存储器以及与片外存储器和外设相连的接口,通过SOPC(可编程片上系统)技术嵌入到FPGA芯片中形成Nios Ⅱ处理器系统硬件平台;软件部分移植uC/OS-Ⅱ作为操作系统,Lwip(轻量级TCP/IP协议)处理网络协议,在应用层上实现状态转换、同步报文处理和精确时钟算法.测试结果表明时钟同步精度高,并且最终在一个工业以太网实验平台上进行了长期的实际运行,系统稳定性良好. 相似文献

9.

一种采用消隐技术的锁无关栈算法

张连法杨东升秦承刚《小型微型计算机系统》2013,34(6)

随着对实时系统的实时性和系统服务要求的不断提高,基于多核/多处理器硬件平台的实时系统成为发展趋势.相应的高性能实时操作系统需具有更高的硬实时性和可靠性,并避免优先级逆转、死锁.相比阻塞同步,非阻塞同步在提高实时系统性能、确定性和容错性等方面具有优势,有利于实现上述要求.设计锁无关数据结构是实现非阻塞同步的方法之一.文章介绍了锁无关算法的基本结构,提出一种采用消隐技术的锁无关栈算法及证明锁无关算法正确性的理论方法,并证明了该锁无关栈算法的正确性.实验结果表明,该算法提高了访问共享数据的执行速度,并避免了死锁、优先级逆转、低容错性等缺点. 相似文献

10.

一种基于VFD多核系统的硬实时任务节能调度算法

吴小东韩建军王天江《计算机研究与发展》2012,49(5):1018-1027

由于芯片功耗不断增加,节能已成为一个亟待解决的重要问题.基于全局异步局域同步(GALS)及电压频率域(VFD)技术的多核处理器计算平台,提出周期性硬实时任务节能调度算法.首先将给定任务集中的实时任务按最差匹配递减(WFD)策略映射到各个计算核上,使各计算核的利用率相对更加均衡,然后利用静态电压?频率调整策略,将每一个VFD内各计算核的共享运行频率降至此VFD中负载最重的计算核的利用率以回收并利用空闲时间节能.在静态策略的基础上提出空闲时间重分配(SR)策略,在保证实时任务可调度的前提下,通过进行任务迁移来平衡VFD内各计算核上的空闲时间分布,以进一步降低VFD的共享运行频率,从而降低能耗.实验表明提出的节能算法可取得较好的节能效果. 相似文献

11.

基于OpenMP/MPI并行编程模型的N体问题的优化实现

祝永志续士强禹继国《计算机工程与应用》2016,52(5):16-21

多核集群的层次化并行编程模型一直是高性能计算的研究热点。以SMP集群为例,从硬件上可分为节点间和节点内的两层架构。阐述了层次化并行编程的实现技术,针对N体问题算法进行了基于Hybrid并行编程模型的并行化研究。提出了一种块同步MPI/OpenMP细粒度N体问题的优化算法。基于曙光TC5000A集群,将该算法与传统的N体并行算法进行了执行时间与加速比的比较,得出了几句总结性具体论述。相似文献

12.

多核平台下XEN虚拟机动态调度算法研究 总被引：1，自引：0，他引：1

黄漾《计算技术与自动化》2014,(3):84-87

虚拟机调度算法对并行任务的执行效率考虑不够充分。现代处理器平台具备了多个可用的计算核心,使多个虚拟机并发执行成为了现实。针对多核平台下的并行虚拟机调度优化问题,提出一种基于任务特征虚拟机CON-Credit调度算法。该算法在调度并行任务时,使用动态方式对计算机核心进行分配,采用传统的虚拟机调度算法为执行普通任务的虚拟机进行分配;采用定制的同步算法给执行并行任务的虚拟机分进分配。相关实验显示,CON-Credit调度算法能显著提高并行任务的执行效率。相似文献

13.

面向并发程序中锁机制的智能化推荐方法

张杨董士程《计算机应用》2021,41(6):1597-1603

软件开发人员在并发编程中面临着各种Java锁的选择。针对如何选择合适的锁机制进而提高程序性能的问题,提出了一种帮助并发程序开发人员选择锁机制的推荐方法LockRec。首先,采用程序静态分析技术,对并发程序中锁机制的使用进行分析并确定影响程序性能的程序特征属性;然后,使用改进的随机森林算法构建锁机制推荐模型,以帮助开发人员在同步锁、可重入锁、读写锁、邮戳锁这四种锁之中进行选择。分别选取了四种现有的机器学习数据集对LockRec进行了实验,所提方法的推荐准确率均值可达95.1%;此外使用真实并发程序对LockRec的推荐结果进行分析。实验结果表明LockRec可以有效提高并发程序的执行效率。相似文献

14.

Lock Coarsening: Eliminating Lock Overhead in Automatically Parallelized Object-Based Programs

Pedro C. Diniz Martin C. Rinard 《Journal of Parallel and Distributed Computing》1998,49(2):858

Atomic operations are a key primitive in parallel computing systems. The standard implementation mechanism for atomic operations uses mutual exclusion locks. In an object-based programming system, the natural granularity is to give each object its own lock. Each operation can then make its execution atomic by acquiring and releasing the lock for the object that it accesses. But this fine lock granularity may have high synchronization overhead because it maximizes the number of executed acquire and release constructs. To achieve good performance it may be necessary to reduce the overhead by coarsening the granularity at which the computation locks objects.In this article we describe a static analysis technique—lock coarsening—designed to automatically increase the lock granularity in object-based programs with atomic operations. We have implemented this technique in the context of a parallelizing compiler for irregular, object-based programs and used it to improve the generated parallel code. Experiments with two automatically parallelized applications show these algorithms to be effective in reducing the lock overhead to negligible levels. The results also show, however, that an overly aggressive lock coarsening algorithm may harm the overall parallel performance by serializing sections of the parallel computation. A successful compiler must therefore negotiate a trade-off between reducing lock overhead and increasing the serialization. 相似文献

15.

基于SMP集群的三维网格多粒度混合并行编程模型 总被引：2，自引：0，他引：2

于方郑晓薇孙晓鹏《计算机应用与软件》2009,26(3)

为提高大规模三维网格并行算法的执行效率,针对SMP集群分布/共享两级内存层次结构的特点,介绍适用于SMP集群混合编程的不同实现方法.对三维网格模型最短路径问题的并行求解提出了多粒度混合并行编程模型,给出了实现该问题的MPI+OpenMP混合并行算法,并在SMP集群上同粗粒度MPI(Message Passing Interface)并行算法做了性能比较.结果表明,采用该多粒度混合并行编程模型具有更好的加速比和运行效率. 相似文献

16.

一种基于SMP的并行逐次超松弛迭代法

胡长军魏硕张纪林王珏《计算机研究与发展》2007,44(10):1688-1693

逐次超松弛迭代方法被广泛应用于油藏数值模拟中压力方程的求解.其并行实现是提高模拟速度的重要途径.传统并行方案大都只是在一次迭代内进行数据划分,而没有进一步将数据划分与迭代空间划分相结合,故针对SOR算法和SMP（symmetric multi-processors）系统的特点,以OpenMP为并行化实现工具,提出了基于SMP的并行逐次超松弛迭代方法（parallelSOR）.方法通过改变不同迭代步内数据点的更新次序,使不同区域内的数据点可以并行执行多次迭代.总结出针对三维油藏区域在数据空间划分和迭代空间合并上相对较优的策略,分析了迭代过程中网格块的生长形状.与传统的并行策略相比,该方法具有可减小同步开销、改进数据局部性、cache命中率高等优点.实验结果表明,该方法具有较高的加速比和效率. 相似文献

17.

Effcient Handling of Lock Hand-off in DSM Multiprocessors with Buffering Coherence Controllers

下载免费PDF全文

Benjamín Sahelices Agustín de Dios Pablo Ibáez Víctor Vials-Yúfera José María Llabería 《计算机科学技术学报》2012,27(1):75-91

Synchronization in parallel programs is a major performance bottleneck in multiprocessor systems. Shared data is protected by locks and a lot of time is spent on the competition arising at the lock hand-off. In order to be serialized, requests to the same cache line can either be bounced (NACKed) or buffered in the coherence controller. In this paper, we focus mainly on systems whose coherence controllers buffer requests. In a lock hand-off, a burst of requests to the same line arrive at the coherence controller. During lock hand-off only the requests from the winning processor contribute to progress of the computation, since the winning processor is the only one that will advance the work. This key observation leads us to propose a hardware mechanism we call request bypassing, which allows requests from the winning processor to bypass the requests buffered in the coherence controller keeping the lock line. We present an inexpensive implementation of request bypassing that reduces the time spent on all the execution phases of a critical section (acquiring the lock, accessing shared data, and releasing the lock) and which, as a consequence, speeds up the whole parallel computation. This mechanism requires neither compiler or programmer support nor ISA or coherence protocol changes. By simulating a 32-processor system, we show that using request bypassing does not degrade but rather improves performance in three applications with low synchronization rates, while in those having a large amount of synchronization activity (the remaining four), we see reductions in execution time and in lock stall time ranging from 14% to 39% and from 52% to 71%, respectively. We compare request bypassing with a previously proposed technique called read combining and with a system that bounces requests, observing a significantly lower execution time with the bypassing scheme. Finally, we analyze the sensitivity of our results to some key hardware and software parameters. 相似文献

18.

An Adaptive Algorithm for Mining Association Rules on Shared-Memory Parallel Machines

David W. Cheung Kan Hu Shaowei Xia 《Distributed and Parallel Databases》2001,9(2):99-132

Mining association rules from large databases is very costly. We propose to develop parallel algorithms for this task on shared-memory multiprocessor (SMP). All proposed parallel algorithms for other paradigms follow the conventional level-wise approach: they need as many iterations as the length of the maximum large itemset. To make matter worse, they impose a synchronization in every iteration which would cause serious I/O contention on shared-memory parallel system. An adaptive asynchronous parallel mining algorithm APM has been proposed for SMP. All processors generate candidates dynamically and count itemset supports independently without synchronization. Two optimization techniques have been proposed for the reduction of database scanning and the number of candidates. The algorithm APM has been implemented on a Sun Enterprise 4000 shared-memory multiprocessor with 12 nodes. The experiments show that the optimizations have very good effects and APM has a substantial lead in performance over other proposed level-wise algorithms. 相似文献

19.

基于SMP的Linux系统并行性分析 总被引：1，自引：0，他引：1

董昱由建宏《测控技术》2008,27(2):69-70,72

分析了SMP的体系结构特征,Linux操作系统对SMP进程调度的实现和多线程机制对并行计算的支持,认为基于SMP的Linux系统能很好地缩短任务的执行周期,真正实现了系统的并行运行. 相似文献

20.

GEL: Grid execution language

《Journal of Parallel and Distributed Computing》2005,65(7):857-869

相似文献