期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴萍陈意云张健《软件学报》2005,16(10):1708-1716

同步操作是并发Java程序非常大的一部分开销.在现有程序分析方法的基础上,提出了一种精确而有效的冗余同步操作的静态删除方法.该方法分为基本处理和线程间时序分析两个阶段,充分考虑了控制流结构和线程交互时序对同步删除的影响.构造了一个Java编译器JTool,并在其上实现了同步删除算法.对于确定的单线程程序,同步删除率达到100%;对于多线程程序,同步删除率高于现有的分析工具. 相似文献

2.

细粒度多线程处理器中前瞻性数据加载的设计与实现

孙彩霞尹远王永文窦强郑倩冰《计算机研究与发展》2011,(z1):313-316

细粒度多线程是一种典型的线程级并行性开发技术,通过每周期的线程切换来实现高吞吐率执行.设计并实现了一种细粒度多线程处理器中的前瞻性数据加载机制,该机制预测LOAD操作在数据cache命中,不立即进行线程切换,而是继续执行后续指令,并通过数据旁路解决相关性问题.实验结果表明前瞻性数据加载能明显提高访存性能,在一种配置下,... 相似文献

3.

基于线程集成的系统设计方法

蒋书波刘仲辉程明霄《计算机工程与设计》2008,29(6):1380-1383

实现嵌入式系统任务的并行性是改善系统性能的基本手段.通过分析影响嵌入式系统性能的主要因素,采用了基于线程概念的嵌入式系统并行设计方法,利用指令级并行来改善系统性能.主要论述了线程集成的实现方法,通过编译技术在指令级代码中融合多个线程,从而实现任务的并行性,并将该方法应用于仪器仪表显示模块的设计. 相似文献

4.

一种基于记录标记的数据库同步算法磁

李立亚《计算机与数字工程》2015,(6)

数据库中的数据需要多点保存,以降低数据丢失的风险。异构数据库的同步,不同的场景往往采用不同的算法,以满足实际需求。论文针对两个异构数据库的同步需求,提出一种基于记录标记的数据库同步方法,把同步信息放在表中的标记列中,实现同步标记和业务记录的绑定;设计了数据操作算法,结合同步标记,可以达到行级的数据同步粒度。该算法简单可靠、易于实现、有很高的性能,能实现一定的双数据库热备功能。该算法在应用层实现,应用可以全面掌控数据同步操作,同步需要同步的业务数据,灵活性高,适合两个异构数据库间的数据同步。相似文献

5.

Prophet推测多线程系统设计与实现

李钟赵银亮杜延宁《计算机科学》2011,38(2):296-301

推测多线程技术通过推测执行的方式开发应用程序的线程级并行性,以提高程序执行性能。该技术一般通过执行模型来检测运行时可能的线程推测错误情况,并采取合适的机制恢复程序正确运行。描述的Prophet是一种基于硬件实现的推测多线程执行模型。重点描述了Prophet执行模型针对执行模型设计的关键问题的解决方案,包括Prophet的线程状态控制和多版本的Cach。系统,Prophet的多版本Cache系统提供了推测数据缓存功能,并使用基于总线监听的Cache协议实现了数据依赖违规检测。还给出了使用Olden基准程序对Prophet执行模型进行功能和性能测试的结果,并分析说明了Prophet系统可以有效地开发应用程序的线程级并行性。相似文献

6.

Win32中使用关键区对象实现线程间同步的方法

张春旺《电脑开发与应用》2003,16(3):46-47

<正> 在Win32程序设计中,为了实现多个线程对某一共享资源的正确访问,常常需要多个线程协调运行,这就是线程间的同步。win32提供了几种同步对象,如事件对象、互斥对象、关键区对象等,这里,仅简单探讨使用关键区对象实现线程间同步的方法。关键区对象是Win32提供的一种对共享资源进行互斥访问的同步对象,它类似于互斥对象,但其仅适用于单个进程中相似文献

7.

针对子程序结构的线程级推测并行性分析 总被引：3，自引：0，他引：3

梁博安虹王莉王耀彬《小型微型计算机系统》2009,30(2)

线程级推测技术为开发更多的线程级并行性,充分利用多核加速传统上难以手工或自动并行化的串行程序提供可行的技术途径.然而,这种技术的性能严重地依赖于线程划分方案.有研究表明,仅推测执行循环所产生的并行性是不够的.但推测执行子程序结构比循环结构要难.本文提出寻找适于推测并行执行的子程序结构的基本判定依据;通过运行由Simplescalar工具集改造得到的动态剖析工具ProRV、ProFun和SPEC CPU2000基准测试程序,我们对子程序结构线程化推测执行的适合性进行详细分析,给出具有指导意义的实验分析方法和实验数据.我们发现:①无返回值的子程序结构占据程序整体执行时间的大约40%;返回稀疏整型的子程序结构占据了程序整体执行时间的大约10%,对其返回值的预测成功率在70%左右.对于其他返回值类型的子程序结构,由于对其返回值的预测成功率过低,我们认为不适合作为线程划分的对象.②简单的last-value的值预测方案对于返回值的预测是简单而且足够有效的.③访存数据依赖普遍存在于子程序与其后继代码之间,显式同步机制对于针对子程序结构的线程级推测是必要的. 相似文献

8.

面向SCMP的多线程前瞻控制分析与设计 总被引：1，自引：0，他引：1

下载免费PDF全文

鲁建壮王志英张春元《计算机工程与科学》2006,28(10):128-130

单芯片多处理器一直是处理器微体系结构发展的一个热点。对于通用串行应用程序,高效的线程控制方法是实现线程级前瞻、挖据线程级并行性的一个重要组成部分。本文结合一个具体的SCMP模型即Griffon,提出并实现了一种简单、高效的分布式线程控制方法。该方法易于实现,可扩展性强。实验结果表明,线程的控制可以在数个周期内实现
,能够满足片内并行处理的要求相似文献

9.

SpMT WaveCache:开发数据流计算机中的推测多线程 总被引：1，自引：0，他引：1

裴颂文吴百锋《计算机学报》2009,32(7)

推测多线程技术(Speculative Multithreading,SpMT)是通过推测地执行多个线程来开发线程级并行性,提高超标量处理器性能.通过增加额外的硬件单元,比如线程同步单元(Thread Synchronization Unit,TSU)、线程上下文表(Thread Context Table,TCT)和线程内存历史表(Thread Memory History,TMH),扩展了事务性内存系统,提高了基于波标量指令集系统结构(WaveScalar ISA)实现的WaveCache模拟器的性能.同时,还提出了一种新的两级线程级事务提交机制.最后,采用了6个来自SPEC、Media和Mibench测试程序集的真实测试程序.评估了推测多线程WaveCache(SpMT WaveCaehe)的性能.实验表明,SpMT WaveCache比超标量系统结构提高了2～3倍的性能,是一种有效的开发动态数据流计算机性能的方法. 相似文献

10.

EDGE结构上一种通过超块重组加速单线程应用的方法

魏学超安虹毛梦捷《小型微型计算机系统》2012,(10):2249-2254

Explicit Data Graph Execution(EDGE)ISA是一种专门为类数据流驱动的分片式众核处理器而设计的指令集体系结构.相较于传统的采用控制流驱动的处理器,EDGE结构以超块(Hyperblock)而不是单个指令作为其执行单位,在超块内部实现数据流执行,超块之间按照推测序保持控制流执行,有利于挖掘指令级并行性.但是,EDGE编译器按照程序的串行执行顺序组织超块,超块间和超块内部受限于数据依赖,削弱了整个程序运行时的潜在数据级并行性和线程级并行性,不利于发挥EDGE分片式结构的优势.本文通过分析EDGE编译器超块组织的特点,结合EDGE结构特有的执行模型,提出一种普适性的超块组织框架来模拟EDGE结构上多线程运行的效果,进一步挖掘EDGE结构运行串行单线程程序时的指令级并行性.本文选用TRIPS微处理器作为EDGE结构的实例处理器,利用矩阵乘法等三个实验验证了我们所提出的框架的可行性,实验结果表明这些应用在TRIPS上获得了较好的性能提升. 相似文献

11.

一种拟态存储元数据随机性问题解决方法

杨珂张帆郭威赵博穆清《计算机工程》2022,48(2):140-146+155

拟态存储作为网络空间拟态防御技术在分布式存储领域的工程实现,能够有效提高存储系统的安全性。由于元数据节点中存在随机性的算法和逻辑,使得执行体状态可能不一致,从而导致整个拟态存储系统无法正常运转。为解决该问题,提出一种元数据再同步方法。在系统中引入状态监视模块和映射同步机制,状态监视模块及时检测执行体状态不一致的情况并进行反馈,映射同步机制建立客户端指令和裁决器输出结果之间的映射关系,使得同步过程在不影响拟态存储系统正常工作的同时符合分布式存储系统最终的一致性要求。在拟态存储工程样机上进行功能和性能测试,结果表明,该方法能够以较小的性能开销来有效解决元数据执行体状态不一致的问题,提升拟态存储系统的稳定性,重复执行再同步机制可使同步成功率达到100%。相似文献

12.

LoRa物理层同步及解调性能研究

花敏《计算机应用研究》2023,40(7)

针对现有的基于FFT的同步算法误差较大的问题,提出了一种优化的LoRa物理层前导码同步方法。首先,根据Chirp信号的时频转换特性,分别采用差分算法和插值算法对前导信号的归一化的小数频偏和小数时延进行估计,在此基础上采用基于FFT同步的联合估计算法对整数频偏和整数时延进行估计;之后,从理论上分析残余的同步误差对LoRa信号解调性能的影响。仿真结果表明,所提出的同步方案可以在相应信噪比极限下满足解调性能要求。相似文献

13.

Rollback overhead reduction methods for time warp distributed simulation

《Simulation Practice and Theory》1998,6(8):689-702

Parallel discrete event simulation is a useful technique to improve performance of sequential discrete event simulation. We consider the time warp algorithm for asynchronous distributed discrete event simulation. Time warp is an optimistic synchronization mechanism for asynchronous distributed systems that allows a system to violate the synchronization constraint and, in this case, make the system rollback to a correct state. We focus on the kernel of the time warp algorithm, that is the rollback operation, and we propose some techniques to reduce the overhead due to this operation. In particular, we propose a method to reduce the overhead involved in state saving operation, two methods to reduce the overhead of a single rollback operation and a method to reduce the overall number of rollbacks. These methods have been implemented in a distributed simulation environment on a distributed memory system. Some experimental results show the effectiveness of the proposed techniques. 相似文献

14.

Real-Time Multimedia Synchronization based on Delay Offset and Playout Rate Adjustment

《Real》1996,2(3):163-170

We investigate here an efficient and flexible multimedia synchronization method that can be applied to intramedia and intermedia synchronization in a consistent manner. Because the synchronization requirements can vary widely according to the multimedia application in use, it is necessary to control the individual synchronization (delay sensitivity, error tolerance etc.) for each media separately. In addition, the synchronization method should handle the performance variations in the underlying network and systems. We propose an adaptive synchronization scheme based on the delay offset and playout rate adjustment that can match the application's varying synchronization requirements effectively. The model, algorithm and operation of the proposed method are presented in this paper. 相似文献

15.

Design and implementation of an efficient integer count sort in CUDA GPUs

Vasileios Kolonias Artemios G. Voyiatzis George Goulas Efthymios Housos 《Concurrency and Computation》2011,23(18):2365-2381

We describe experience on design and implementation of an efficient count sort algorithm on Compute Unified Device Architecture graphics processing units. The novelty of this work is twofold. At first, we propose a count sort algorithm for integers that needs no synchronization at its last step and thus, offers superior performance. At second, this work contributes ad hoc techniques for optimizing the performance of the algorithm on Compute Unified Device Architecture‐enabled graphics processing units. Copyright © 2011 John Wiley & Sons, Ltd. 相似文献

16.

An Experimental Analysis of Parallel Sorting Algorithms

G. E. Blelloch C. E. Leiserson B. M. Maggs C. G. Plaxton S. J. Smith M. Zagha 《Theory of Computing Systems》1998,31(2):135-167

We have developed a methodology for predicting the performance of parallel algorithms on real parallel machines. The methodology consists of two steps. First, we characterize a machine by enumerating the primitive operations that it is capable of performing along with the cost of each operation. Next, we analyze an algorithm by making a precise count of the number of times the algorithm performs each type of operation. We have used this methodology to evaluate many of the parallel sorting algorithms proposed in the literature. Of these, we selected the three most promising, Batcher's bitonic sort, a parallel radix sort, and a sample sort similar to Reif and Valiant's flashsort, and implemented them on the connection Machine model CM-2. This paper analyzes the three algorithms in detail and discusses the issues that led us to our particular implementations. On the CM-2 the predicted performance of the algorithms closely matches the observed performance, and hence our methodology can be used to tune the algorithms for optimal performance. Although our programs were designed for the CM-2, our conclusions about the merits of the three algorithms apply to other parallel machines as well. Received April 1996, and in final form June 1996. 相似文献

17.

基于TPSN的时间同步改进算法

下载免费PDF全文

张白桦《计算机工程》2010,36(9):109-110

对TPSN同步算法进行改进,以达到进一步提高同步精度的目的。提出2种改进算法,一种是对多个同步信息数据求平均值的方法,以克服信息噪声的影响,另一种是使用线性回归的方法,主要是考虑到时间漂移的影响。实验表明,在不改变原有同步机制的情况下,2种改进算法都能提高同步精度。相似文献

18.

一种新的基于划分的结构连接算法 总被引：2，自引：0，他引：2

下载免费PDF全文

任家东尹晓鹏郭晓丹《计算机工程》2007,33(6):95-97

有效的结构连接是XML查询处理的关键。目前,大部分结构连接算法由于需要临时排序、建立索引或存在数据复制及I/O问题,大大降低了执行效率。该文在分析比较现有结构连接算法的基础上,提出了一种新的基于划分的结构连接算法。该算法不需要排序或建立索引,通过栈的机制解决了数据复制问题,并充分考虑内存缓冲提高了I/O性能。实验分析表明该算法具有良好的查询性能。相似文献

19.

基于基数排序的集成服务优先队列算法

刘晨亮许家栋李前进《计算机工程与应用》2004,40(27):14-16

传统的服务质量(QoS)算法分为差别服务和集成服务两种,前者提供相对的服务质量保证,而后者则可以提供绝对的服务质量保证,二者最终都可以归结为优先队列算法。在核心路由器中QoS对优先队列的要求比较高,差别服务需要提供OC-768(40Gbps)线速、很大的有效排队长度和较小的最小时延。集成服务除了上述要求还需要很大的优先级数目。受到基数排序算法的启发,论文设计了一种基于基数排序的适用于集成服务的优先队列算法,具有以下特点:(1)带宽可以达到OC-768线速,优先级数目和有效排队长度不受限制,最小时延可以接受。(2)结构比较简单,不需要非常复杂的电路设计。相似文献

20.

面向众核系统的层次化栅栏同步机制

臧照虎李晨王耀华陈小文郭阳《计算机工程与科学》2022,44(11):1901-1908

同步操作在保证多核处理器线程的数据一致性和正确性等方面起着重要作用。随着处理器内核数量的不断增加,同步操作的开销也越来越大。栅栏同步是并行应用中多核同步的重要方法之一。软件同步方法通常需要数千个周期才能完成多个内核之间的同步,这种高延迟和串行化同步会导致多核程序性能的显著下降。相比于软件栅栏同步方法,硬件栅栏能够实现较低的同步延迟,然而传统集中式硬件栅栏的可扩展性有限,难以适应众核处理器系统的同步需求。面向众核处理器提出了一种层次化硬件栅栏机制——HSync,它由本地栅栏单元和全局栅栏单元组成,二者协调配合,以实现低硬件开销的快速同步。实验结果表明,与传统的集中式硬件栅栏相比,层次化硬件栅栏机制将众核处理器系统性能提高了1.13倍,同时网络流量减少了74%。相似文献