期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种支持事务内I/O操作的事务存储系统结构 总被引：1，自引：1，他引：0

刘轶李明修张昕李鹤焦林钱德沛《电子学报》2009,37(2):248-252

本文提出了一种支持事务内I/O操作的硬件事务存储系统结构.该系统基于多核处理器结构和已有的cache一致性机制,通过增加事务缓冲区和相关硬软件,实现对事务的支持.事务内I/O操作的实现基于事务提交锁的部分提交以及事务线程的阻塞/唤醒机制,解决了事务内I/O操作所面临的回滚、事务迁移和缓冲区溢出等问题.系统在模拟器中实现,并利用5个测试程序对系统的性能进行了评价分析,结果表明事务程序在系统中的性能相对于锁程序得到提升. 相似文献

2.

关于JVSTM无锁提交算法的研究

孙景蒋玉明《数字技术与应用》2013,(12):120-121

软件事务存储（software Transaction Memory）思想提出的初衷是用来作为并发控制的一个无锁机制。由于早期的STM实施面临着效率的诸多限制,并且不久之后一种无阻塞的思想出现了,它能够有效解决效率问题,简化STM的实施,因此,现在大多数活跃的STM都是采用了阻塞的设计方法,利用锁机制来保证事务提交操作的原子性。该方法在实际应用中有着更加优越的性能表现,当然部分由于它更加简单。然而当我们将阻塞方法应用到多核系统中,特别当事务写操作频繁的时候,该方法将会暴露出可拓展方面的天生缺陷。相似文献

3.

基于低代码思想的可视化并行计算框架设计

杨冬亮焦淼韩源冬《信息技术与信息化》2023,(12):21-24

先进装备的新型信息处理平台采用高性能多核处理器为核心的一体化架构,来满足高性能和智能化需求。为了支撑密集计算任务,需要并行计算框架来解决多核同步、负载均衡、任务调度、数据分发等并行计算应用难题。然而,现有的并行计算框架多为基于Linux的开源框架,不支持国产多核处理器;同时,基于并行计算框架的编程方式与传统的以控制算法为中心的结构化编程思路不同,对于习惯了C/C++编写串行程序的用户,基于并行计算框架编程面临许多难题。针对上述问题,在解决国产多核处理器操作系统并行计算框架适配问题的同时,基于低代码设计思想,研究简化并行计算框架编程方法、提升并行应用编程效率的技术途径,通过可视化组件配置与代码自动生成的方式,真正地降低并行编程难度,充分发挥国产多核处理器的并行计算效能。相似文献

4.

基于并行计算模型的并行微粒群算法的性能分析

王元元曾建潮谭瑛《微电子学与计算机》2007,24(9):25-28

将微粒群算法与并行计算模型相结合,基于三种不同的并行计算模型(带中央控制器的并行计算模型、环形结构带缓存区的并行计算模型、BSP并行计算模型),设计出相应的并行微粒群算法,并对并行算法性能进行详细分析。大量实验表明:子种群之间的通讯周期是个重要的可变参数,当选取合适时,能提高解的质量以及算法的收敛性和最优性。相似文献

5.

基于OpenMP编程模型的多线程程序性能分析

李梅《电子设计工程》2014,(23):42-44

并行化程序的出现大大提高了应用程序的执行效率,多核程序设计时需要对程序的性能进行考虑。本文重点讨论OpenMP编程模型中多核多线程程序在并行化开销、负载均衡、线程同步开销方面对程序性能的影响。相似文献

6.

格子Boltzmann并行程序的优化与性能分析

赵鹏张丹丹汪鲁兵田振夫钱跃竑《微电子学与计算机》2008,25(10)

基于现代计算机的多级存储结构,采用消息传递并行编程模型对格子Boltzmann并行程序进行了Cache优化.实验结果表明,优化后的程序能够减少80%的Cache缺失,性能提高20%,而且经过预处理的并行程序性能也有很大提高. 相似文献

7.

基于CSS模板的职位信息并行抽取系统设计

薛安荣王丹黄祖卫《电子科技》2016,29(10):93

针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法。该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取。使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase。实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效率和采集的职位信息量上都有明显的提高。相似文献

8.

复杂网格模型仿射变换的GPU加速计算

钟庆华顺刚《光电技术应用》2011,26(1):59-62

为提高计算速度,复杂网格模型操作处理中的仿射变换计算被移植到具有可编程能力的GPU上实现.在并行计算中,每个线程计算一个顶点的k邻域权重值和坐标变换,多个线程同时执行.经过对线程结构安排、设备存储器分配等的优化,充分发挥GPU并行运算性能.实验结果表明,GPU加速计算对大规模网格顶点仿射变换的处理得到了较好的加速效果. 相似文献

9.

面向CUDA程序的性能预测框架

下载免费PDF全文

曲海成于思淼刘万军王鑫源《电子学报》2020,48(4):654-661

为对CUDA并行程序内核性能进行分析和预测，从而指导并行程序设计及性能优化，提出一种性能预测框架.1）从GPU编程模型和设备架构细节入手，以线程束为研究单位，通过整合与GPU程序用时密切相关的软硬件基本特征，定义了并行空间闲置度、流处理器线程束负载、并行效应因子等高层次性能相关特征.2）基于上述特征，框架针对线程负载均衡型GPU程序，评估内核函数在不同问题规模以及执行配置下的执行时间.3）依据性能评估原理提出了内核函数执行配置参数的优化策略.验证实验结果表明，该框架在两种典型情境下对现有程序性能的平均预测准确率分别达到89%和94%，客观归纳了高层次特征与程序性能间的相关关系，且能定性分析并行算法性能水平. 相似文献

10.

多核软件的几个关键问题及其研究进展 总被引：4，自引：2，他引：2

下载免费PDF全文

杨际祥谭国真王荣生《电子学报》2010,38(9):2140-2146

提高应用程序开发产能同时获得并行性能收益是多核大众化并行计算研究的核心目标.采用应用驱动和自顶向下的研究思想着重综述了影响该目标的三个关键问题.首先,对当前的多核应用驱动研究做了比较,并对多核应用研究现状做了综述.其次,对当前的多核编程模型在产能编程和性能使能编程方面的研究思想做了比较研究.然后,综述了多核算法以及多核计算模型的研究现状.最后分析了多核软件未来的研究问题. 相似文献

11.

Scalable Programming Models for Massively Multicore Processors

McCool M.D. 《Proceedings of the IEEE. Institute of Electrical and Electronics Engineers》2008,96(5):816-831

Including multiple cores on a single chip has become the dominant mechanism for scaling processor performance. Exponential growth in the number of cores on a single processor is expected to lead in a short time to mainstream computers with hundreds of cores. Scalable implementations of parallel algorithms will be necessary in order to achieve improved single-application performance on such processors. In addition, memory access will continue to be an important limiting factor on achieving performance, and heterogeneous systems may make use of cores with varying capabilities and performance characteristics. An appropriate programming model can address scalability and can expose data locality while making it possible to migrate application code between processors with different parallel architectures and variable numbers and kinds of cores. We survey and evaluate a range of multicore processor architectures and programming models with a focus on GPUs and the Cell BE processor. These processors have a large number of cores and are available to consumers today, but the scalable programming models developed for them are also applicable to current and future multicore CPUs. 相似文献

12.

MPI＋OpenMP混合编程模型在大规模三对角线性方程组求解中的应用

郑汉垣刘智翔封卫兵张武《微电子学与计算机》2011,28(8)

分布式共享存储系统的特点是每个节点内是共享存储的,而节点间是分布式存储.为了更好地利用这种多级体系结构,讨论了MPI＋OpenMP混合编程模型的性能及实现方法,建立了大规模三对角线性方程组的MPI＋OpenMP混合并行算法,并在上海大学高性能计算集群上与单纯MPI算法进行了性能方面的比较.结果表明,MPI＋OpenMP混合并行算法具有更好的加速比和扩展性. 相似文献

13.

基于SMP集群的MPI+OpenMP混合编程模型及有效实现 总被引：12，自引：1，他引：11

赵永华迟学斌《微电子学与计算机》2005,22(10):7-11

SMP集群混合了两个内存模型：每个节点是一个共享存储的多处理器，而节点间使用分布存储。这一多级体系结构引起了编程模型和性能方面的问题。文章讨论了MPI＋OpenMP混合编程模型的性能和不同的实现方法，提出了多粒度MPI＋OpenMP混合编程方法。建立了对称三对角特征问题的多粒度混合并行算法．并在深腾6800超级计算机上同纯MPI算法作了性能方面的比较。结果表明，该混合并行算法具有更好的扩展性和加速比。相似文献

14.

面向任务的TBB多核集群混合并行编程模型

顾慧郑晓薇张建强吴华平《微电子学与计算机》2011,28(2):91-93,97

构建了一种适用于多核集群的混合并行编程模型.该模型融合了共享内存的面向任务的TBB编程和基于消息传递的MPI编程两种模式.结合两者的优势,实现进程到处理节点和进程内线程到处理器核的两级并行.相对于单一编程方式下的程序性能,采用这种混合并行编程模型的算法不但可以减少程序执行时间,获得更好的加速比和执行效率,而且明显地提高了集群性能. 相似文献

15.

A comparison of shared and nonshared memory models of parallelcomputation

Anderson R.J. Snyder L. 《Proceedings of the IEEE. Institute of Electrical and Electronics Engineers》1991,79(4):480-487

Four algorithms are analyzed in the shared and nonshared (distributed) memory models of parallel computation. The analysis shows that the shared memory model predicts optimality for algorithms and programming styles that cannot be realized on any physical parallel computers. Programs based on these techniques are inferior to programs written in the nonshared memory model. The unit cost charged for a reference to shared memory is argued to be the source of the shared memory model's inaccuracy. The implications of these observations are discussed 相似文献

16.

Java共享内存并行编程

林天峰《太赫兹科学与电子信息学报》2005,3(1):77-80

为了提高Java并行编程的效率,使用现成的编程接口无疑是最有效的方法。本文介绍了类OpenMP接口的一种Java共享内存编程接口-JOMP,包括它提供的指令、运行库函数等,并通过具体例子说明了这些指令和库函数的用法。相似文献

17.

并行应用程序调度策略研究

下载免费PDF全文

李爱玲王璐彭云峰《电子器件》2012,35(4):453-456

为了提高并行应用程序在异构平台上的执行效率,从范例、粒度角度对并行组件分类并设计相应模型,从而实现串行、消息并行或内存并行共享,粗、精、中粒度均可的各类范例的运行,同时也可针对组件的编程语言对范例进行编程。基于对组件范例、粒度的描述及资源使用的信息,进一步提出了组件调度策略,经测试表明组件模型和调度策略改善了并行应用程序的执行,提高了异构平台资源的利用率。相似文献

18.

Recent advances in memory consistency models for hardware sharedmemory systems

Adve S.V. Pai V.S. Ranganathan P. 《Proceedings of the IEEE. Institute of Electrical and Electronics Engineers》1999,87(3):445-455

The memory consistency model of a shared memory system determines the order in which memory operations will appear to execute to the programmer. The memory consistency model for a system typically involves a tradeoff between performance and programmability. The paper provides an overview of recent advances in hardware optimizations; compiler optimizations, and programming environments relevant to memory consistency models of hardware distributed shared memory systems. We discuss recent hardware and compiler optimizations that exploit the observation that it is sufficient to only appear as if the ordering rules of the consistency model are obeyed. These optimizations substantially improve the performance of the strictest consistency model, making it more attractive for its programmability. Recent concurrent programming languages and environments, on the other hand, support more relaxed consistency models. We discuss several such environments, including POSIX threads, Java, and OpenMP 相似文献

19.

Protocoles simples pour ľimplémentation répartie des sémaphores

Michel Raynal 《电信纪事》1993,48(5-6):260-267

Advent of distributed memory parallel machines has made feasible implementation of the shared virtual memory concept in a distributed context. This paper presents a complementary aspect of such an approach, namely protocols that implement a basic centralized synchronization tool: the semaphore. Provided with implementations of shared virtual memory and semaphore concepts, a programmer can use the very classical programming model based on processes and shared variables, and then execute her program either on a shared memory multiprocessor or on a distributed memory parallel machine. 相似文献

20.

A 98 mm² die size 3.3-V 64-Mb flash memory with FN-NORtype four-level cell

Ohkawa M. Sugawara H. Sudo N. Tsukiji M. Nakagawa K. Kawata M. Oyama K.-i. Takeshima T. Ohya S. 《Solid-State Circuits, IEEE Journal of》1996,31(11):1584-1589

In order to realize high-capacity and low-cost flash memory, we have developed a 64-Mb flash memory with multilevel cell operation scheme. The 64-Mb flash memory has been achieved in a 98 mm² die size by using four-level per cell operation scheme, NOR type cell array, and 0.4-μm CMOS technology. Using an FN type program/erase cell allows a single 3.3 V supply voltage. In order to establish fast programming operation using Fowler-Nordheim (FN)-NOR type memory cell, we have developed a highly parallel multilevel programming technology. The drain voltage controlled multilevel programming (DCMP) scheme, the parallel multilevel verify (PMV) circuit, and the compact multilevel sense-amplifier (CMS) have been implemented to achieve 128 b parallel programming and 6.3 μs/Byte programming speed 相似文献