期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈芳园张冬松王志英《计算机工程与科学》2011,33(12):27-36

多核技术成为当今处理器发展的重要方向,异构多核处理器由于可将不同类型的计算任务分配到不同类型的处理器核上并行处理,从而为不同需求的应用提供更加灵活、高效的处理机制而成为当今研究的热点.本文从体系结构的角度探讨了异构多核处理器设计中的关键点,从内核结构、互连方式、存储系统、操作系统支持、测试与验证、动态电压调节等方面分析... 相似文献

2.

多核处理器的结构设计研究 总被引：2，自引：1，他引：2

下载免费PDF全文

何军王飙《计算机工程》2007,33(16):208-210

围绕如何进行多核处理器的结构设计，提高处理器性能这一问题，结合传统多处理机设计原理对多核处理器结构设计进行了研究，并对当前主要商业多核处理器进行了研究，揭示了其发展趋势，探索了未来多核处理器设计的发展方向。相似文献

3.

一种适应多核处理器核间通信机制的设计

李静梅王军锋张岐《电脑学习》2011,1(4)

随着单芯片上集成处理器内核数量的增加,在支持多核处理器的应用程序方面,核间通信变得更加重要.通过分析多核运行任务特点,根据处理核上运行任务功能的不同,将处理核分成两类:控制核和计算核.根据对核的分类,提出了一种新的核间通信模型,该模型提供了三种不同的通信通道.运用这三条通道,把应用程序的I/O部分从计算核迁移到控制核来提高多核的利用率,实验结果表明该方式有效提高核间协作以及核间通信的效率,提升处理器的利用率. 相似文献

4.

多核处理器技术软仿真技术研究

王永堃《电脑编程技巧与维护》2012,(2):85-86

分析了多核处理器软件仿真技术的复杂性。通过可视化编程,随时查看各个核心内部的工作状态,可以对多核处理器的工作原理有一个清晰的了解。相似文献

5.

针对SW26010众核处理器的单精度矩阵乘算法

武铮许乐安虹金旭文可《小型微型计算机系统》2023,(4):673-681

矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%. 相似文献

6.

申威众核处理器的并行NSGA-II算法

下载免费PDF全文

沈焕学郑凯刘垚王肃刘艳赵瑞祥周谦豪《计算机工程与应用》2018,54(17):35-40

非支配排序遗传算法（NSGA-II）在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算“神威·太湖之光”的申威众核处理器平台设计了并行NSGA-II算法（PNSGA-II）,实现了算法基于主核的一级并行和基于主/从核的二级并行。在典型测试函数集上的实验表明,在不影响解的质量前提下,PNSGA-II算法不仅大大加快了执行速度,同时算法的收敛速度也更快。相似文献

7.

多核处理器构架的高速JPEG解码算法

章承科《单片机与嵌入式系统应用》2006,(1):44-47

实现基于多核处理器构架的JPEG解码算法;通过将JPEG算法并行化,在多个处理器核上并行处理,并针对多核处理器构架进行内存读取等方面的优化,可极大地提高JPEG解码算法的解码速度。实测表明,在4核集成的多核处理器上,JPEG图像的平均解码周期为单核处理器上的28％左右。相似文献

8.

多核处理器并行编程模型的研究与设计 总被引：2，自引：0，他引：2

曹折波李青《计算机工程与设计》2010,31(13)

为了在多核处理器上充分利用多核资源以提升程序性能,研究了多核处理器的体系结构和多核环境下可能影响并行程序性能的因素,实现了基于任务的并行编程模型.该模型提供了单任务数据并行和多任务并行两种并行处理方式,其中单任务数据并行使用cache块技术划分数据集,多任务并行使用任务密取的任务调度策略.用该模型实现了计算斐波那契数列的递归算法,实验结果表明,使用该模型编写多核并行程序可以达到较高的相对于串行计算的加速比. 相似文献

9.

容错处理器阵列的多逻辑列并行重构算法

章子凯武继刚姜文超刘竹松《计算机工程与科学》2018,40(1):24-33

处理器阵列的容错重构技术是片上网络多核、众核高性能体系结构的可靠性技术之一。现有的最大逻辑阵列并行重构技术仅对单条逻辑列的构造实现了并行化,而对多条逻辑列的同步并行仍未见可行算法。依据处理器阵列的潜在并行性,在分治策略的基础上,提出了一种阵列分块的并行重构算法。算法对处理器阵列实施横向分块划分,对每个阵列块进行并行重构,并对所得逻辑子阵列进行归并,实现了多条逻辑列的同步并行重构。与现有的并行算法相比,新算法同样能够生成最大逻辑列,并且减少了通信开销与计算中的数据冗余,有效提高了运行速度。实验结果表明,在物理阵列大小为64×64的处理器阵列上,运行速度比现有并行算法提高39.55%,并且具有良好的可扩展性。相似文献

10.

面向申威众核处理器的并行SaNSDE算法

康上钱雪忠甘霖《计算机科学与探索》2021,15(10):2015-2024

演化算法作为解决大规模优化问题的重要方法,被广泛应用于机器学习、过程控制、工程优化、管理科学和社会科学等领域.然而在求解高维度、高计算密度问题时,程序性能很难得到保证.在高性能计算机上实现并行化是问题的一个热门解决方案.针对申威众核处理器的硬件特征,提出了采用二级并行策略的自适应邻域搜索的差分进化算法(SaNSDE).... 相似文献

11.

多核微机基于OpenMP的并行计算

蔡佳佳李名世郑锋《微机发展》2007,17(10):87-91

随着四核微机走向市场和八十核处理器在实验室研制成功,多核正引领软件研发发生基础性变化。开发人员需要在代码中添加线程来利用系统所提供的多个内核,从而提升PC应用软件的功能和性能。文中探讨在多核微机上进行并行计算的实现技术。介绍了共享存储系统并行编程接口OpenMP的模型、指令和库函数,以及Intel C 编译器9.1和Microsoft Visual Studio 2005等对OpenMP的支持;着重探讨了二维离散快速傅里叶变换并行算法的设计、实现与优化技术;展望了高性能并行计算软构件库的开发前景。相似文献

12.

多核处理器机群Memory层次化并行计算模型研究 总被引：7，自引：0，他引：7

涂碧波邹铭詹剑锋赵晓芳樊建平《计算机学报》2008,31(11)

多核处理器机群点对点通信同时具有memory纵向层次化特征和横向层次化的新特征.纵向层次化特征揭示了对不同大小和步长的消息进行点对点通信时消息通信中间件对其性能的影响;横向层次化的新特征由intra-CMPi、nter-CMP和inter-node消息通信性能的显著差异引起,目前缺少有效的分析模型.文中提出一种新的memory层次化并行计算模型,对多核处理器机群memory横向、纵向层次化特征进行了统一的抽象.在对多核处理器机群点对点通信和集合通信的开销进行模型分析和实际测试中,新模型的精确性优于现有的未引入memory横向层次化特征的模型. 相似文献

13.

并行计算在多核平台上的实现与应用研究

秦书茂叶海建《计算机系统应用》2013,22(12):177-179

多核CPU在当前已成为PC机的常规配置,为了充分发挥PC机的性能,以提高应用软件的运行速度,本文针对如何在多核CPU上实现并行计算进行了研究,将其应用到薄层水流流速参数的虚拟正态边界模型计算中．经实例测试验证,采用双核、四核并行计算的模型求解速度分别是单核情况下的1．4倍、2．4倍,核心数越多,倍数越大．相似文献

14.

BLAS 库在多核处理器上的性能测试与分析

陈少虎张云泉张先轶程豪《软件学报》2010,21(Z1):214-223

BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS 的多核并行性能已经变得比与体系结构相关的单核性能更加重要.实验以流行于高性能计算的Xeon、Opteron 系列多核X86 处理器为例,全面测试了GotoBLAS、Atlas、MKL 和ACML 四种主流的BLAS 库的所有1,2,3 级函数,并覆盖了不同计算规模和多核并行方面的测试.通过测试结果,分析源代码、BLAS 库资料和论文的方式,分析BLAS 有效的优化和并行方法,以及它们所适合的平台.为BLAS 的优化、使用,甚至高性能处理器的发展上提供有益的建议.实验结果表明,比起一个逻辑处理强大但是复杂的处理器,一个cache 更大、性能更好,内存带宽更宽、延迟更小,主频更高的处理器往往能在高性能计算中取得更好的性能.同时,X86 平台上的状况对其他体系结构也有巨大的借鉴意义. 相似文献

15.

多核平台PAML并行算法研究

杨菊吴卓锋王刚刘晓光《计算机工程与科学》2013,35(9):15

PAML是一款利用最大似然法进行系统发育分析的软件包,被广泛使用.然而,由于模型复杂、参数众多,PAML的计算过程非常耗时.对PAML中最重要的codeml程序进行了并行算法研究,通过算法分析和程序Profiling确定程序瓶颈.在此基础上,利用现代CPU的多核并行能力和SIMD并行机制优化程序瓶颈,从而提高了程序整体的运行速度.实际数据集和人工数据集上的实验表明并行算法有效提高了codeml的计算速度,加速比最高达7.94倍. 相似文献

16.

SW26010众核任务并行调度系统及其嵌套并行算法应用

孙乔黎雷生赵海涛赵慧吴长茂《软件学报》2021,32(8):2352-2364

任务并行是并行程序设计的基础设计模式.但由于算法本身的复杂性及目标平台的特殊性,设计实现高效率的任务并行程序对程序员来说往往充满挑战.基于新兴的SW26010众核CPU,提出了支持任务嵌套并行模式的通用运行时框架SWAN.SWAN对任务并行程序的实现提供了高层次的抽象,使程序员能够专注于算法逻辑本身而提高开发效率.在性... 相似文献

17.

面向飞腾多核处理器的Winograd快速卷积算法优化

王庆林李东升梅松竹赖志权窦勇《计算机研究与发展》2020,57(6):1140-1151

随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能领域的推广应用,对面向飞腾多核处理器的高性能卷积实现提出了强烈需求.针对飞腾多核处理器的体系结构特征与Wingorad快速卷积算法的计算特点,提出了一种高性能并行Winograd快速卷积算法.该算法不依赖通用矩阵乘库函数,由卷积核转换、输入特征图转换、逐元素乘、输出特征图逆变换等4个部分构成,融合设计了4个部分的数据操作,并设计了与之配套的数据布局、多级并行数据转换算法与多级并行矩阵乘算法,实现访存性能以及算法整体性能的提升.在两款飞腾多核处理器上的测试结果显示,与开源库ACL和NNPACK中的Winograd快速卷积实现相比,该算法分别能获得1.05~16.11倍与1.66~16.90倍的性能加速;集成到开源框架Mxnet后,该算法使得VGG16网络的前向计算获得了3.01~6.79倍的性能加速. 相似文献

18.

多核图像处理并行设计范式的研究与应用 总被引：1，自引：0，他引：1

下载免费PDF全文

王成良谢克家刘昕《计算机工程》2011,37(14):220-222

多核计算环境下采用图像处理并行算法可提高图像处理的速度,但已有的并行设计只针对边缘检测、图像投影等特定算法进行,没有形成通用的并行算法设计范式。为此,在研究图像处理算法可并行处理机制和多核架构特点的基础上,提出分析、建模、映射、调试和性能评价及测试发布等5个设计步骤的基于多核计算环境的图像处理算法并行设计范式,以图像傅里叶变换并行算法设计为例在单核、双核、四核、八核计算环境下验证了该并行范式的有效性。实验结果表明,该范式在图像处理并行设计方面可扩展图像处理的应用空间。相似文献

19.

并行帧缓存设备:基于多核CPU的Xorg并行显示优化

高珑戴华东杨沙洲丁滟《软件学报》2020,31(10):3309-3320

Xorg图形服务器软件在帧缓存设备上采用单线程绘制模式,难以发挥多核CPU的性能.针对多核CPU上的帧缓存设备,设计了带有互斥操作的任务队列,并按照屏幕划分的方法,实现了Xorg的矩形填充操作在帧缓存设备上基于私有任务队列的多线程并行化,并实现了主从线程负载均衡.x11perf测试结果表明,该算法在一台4核商用台式机上的加速比可以达到2.06. 相似文献

20.

一种面向多核处理器并行系统的启发式任务分配算法 总被引：2，自引：0，他引：2

刘轶张昕李鹤钱德沛《计算机研究与发展》2009,46(6):1058-1064

多核处理器使得并行系统的结构更加复杂并且其中任务个数大大增加,为了在这类系统中高效地进行任务分配,建立了任务分配模型,并提出了一种包含两轮操作的启发式任务分配算法,分别完成进程到处理节点和进程内线程到处理器核的分配.每轮操作经过带回溯的多次迭代处理,最终得到任务到处理器核的分配方案.与穷举查找法和遗传算法的对比测试表明该算法能在较短时间内求得近优解,并且当线程个数增大时,算法的求解时间远小于遗传算法. 相似文献