期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈书明陈胜刚尹亚明《计算机研究与发展》2012,49(1):83-92

层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务计算开销的新元素,构建了层次化片上多核处理器的Amdahl加速比扩展模型.基于该扩展模型,就层次化片上多核处理器的加速比与超节点配置的关系问题展开研究.模拟分析发现,要获得良好的加速比性能,层次化片上多核处理器需要在超节点数目与超节点的大小(超节点内核的个数)之间作仔细的权衡;对于给定核数目的层次化片上多核处理器,使系统性能最优的超节点大小往往出现在中间某个值而不是最大或者最小,并且该值随着系统规模的变化会发生相应的变化. 相似文献

2.

多核处理器并行计算模型研究

李静梅张岐王军锋《电脑学习》2011,(3):9-12,20

针对并行计算机体系结构中没有通用的计算模型这一问题,分析了一些现有的典型计算模型,在同步性、通信方式、参数方面进行比较,以LogGP模型为基础提出一种改进的mzLogGP模型。利用MPI并行算法对满足节点计算资源非独占、网络存在拥塞条件下的并行程序进行分析与测试,通过增加memory层次化层数和网络拥塞指数这两个参数,计算其计算开销和通信开销,将实测时间与预测时间进行比较,可知随节点数的增加系统误差不断减小,说明该新模型能改善并行应用在多核处理器集群平台上运行的性能,具有较好的可扩展性。相似文献

3.

多核处理器并行计算模型研究

李静梅张岐王军锋《电脑学习》2011,1(5)

针对并行计算机体系结构中没有通用的计算模型这一问题,分析了一些现有的典型计算模型,在同步性、通信方式、参数方面进行比较,以LogGP模型为基础提出一种改进的mzLogGP模型。利用MPI并行算法对满足节点计算资源非独占、网络存在拥塞条件下的并行程序进行分析与测试,通过增加memory层次化层数和网络拥塞指数这两个参数,计算其计算开销和通信开销,将实测时间与预测时间进行比较,可知随节点数的增加系统误差不断减小,说明该新模型能改善并行应用在多核处理器集群平台上运行的性能,具有较好的可扩展性。相似文献

4.

多核机群下MPI程序优化技术的研究

王洁衷璐洁曾宇《计算机科学与探索》2011,38(10)

多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间.国内外学者提出了许多多核机群下MPI程序的优化方法和技术.测试了3个不同多核机群的通信性能,并分别在Intel与AMD多核机群下实验评估了几种具有普遍意义的优化技术:混合MPI/Op)MP、优化MPI运行时参数以及优化MPI进程摆放,同时对实验结果和优化性能进行了分析. 相似文献

5.

多核机群下MPI程序优化技术的研究

王洁衷璐洁曾宇《计算机科学》2011,38(10):281-284

多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间。国内外学者提出了许多多核机群下MPI程序的优化方法和技术。测试了3个不同多核机群的通信性能,并分别在Intel与 AMD多核机群下实验评估了几种具有普遍意义的优化技术:混合MPI/OpcnMP、优化MPI运行时参数以及优化 MPI进程摆放,同时对实验结果和优化性能进行了分析。相似文献

6.

嵌入式异构多核处理器核间的通信性能评估与优化

罗殊彦朱怡安曾诚《计算机科学》2018,45(Z6):262-265, 274

随着嵌入式技术的不断发展,越来越多的平台采用异构多核处理器(Heterogeneous Multi-Processor Unit,HMPU)进行高性能计算,但多核处理器的核间通信效率严格地制约着系统的高性能计算能力。针对HMPU的核间通信性能难以量化的问题,提出了基于通信粒度、通信缓存和消息传输机制的阶段评价模型,并通过实验验证了这3个影响因子对不同阶段的核间通信性能的影响。此外,由于嵌入式系统环境多变、资源有限,使得静态通信策略对系统性能优化具有局限性。针对该问题,提出了基于系统内存约束、时间约束和性能目标的动态通信策略优化模型(Dynamic Communication Strategy Optimization Model,DCSOM)。通过实验证明:在数据量较小、通信周期较长的异构多核处理器中,DCSOM更具优越性。相似文献

7.

面向层次化NoC的混合并行编程模型 总被引：1，自引：0，他引：1

下载免费PDF全文

曹祥易伟潘红兵高明伦李丽《计算机工程》2010,36(13):278-280

为更好发挥多核处理器的硬件性能,针对层次化的片上网络架构,提出MPI/OpenMP混合并行编程模型。运用基于MPI的任务级并行模型实现片内簇间的高效通信,采用OpenMP模型实现簇内四核的通信、同步和数据交换。实验结果表明,与单一并行编程模型相比,混合并行编程模型加速比提高了20%~50%。相似文献

8.

一种基于数据访问特征的层次化缓存优化设计

李崇民王海霞张熙汪东升《计算机学报》2011,34(11):2064-2072

随着片上可集成的处理器核数增加,多核处理器的片上通信延迟不断增大,目录存储开销也随之线性增长.层次化缓存结构将片上缓存递归划分为多级区域,并将数据复制到各级区域内以减小片上通信延迟,同时通过多级目录结构降低了目录存储开销.文中通过对数据访问特征进行分析,提出一种新型改进层次化缓存结构(EHCD),将从片外读入的数据直接... 相似文献

9.

低压电力线通信点对点通信性能测试系统设计与实现

张亚梅王晓辉刘萌董海涛《电子技术应用》2010,36(5)

介绍了在低压电力线信道环境下点对点载波通信模块的通信性能测试系统的设计。测试系统结构简单,实用性强,能够实现点对点通信误码率测试、有效通信速率测试,并且能够根据测试结果综合评价通信模块的性能,既能够横向比较不同厂家的载波通信模块的通信性能,还可以纵向比较同一厂家不同类型的载波通信单元的通信性能,通用性强。相似文献

10.

多核机群主节点并发发送数据的可分负载调度

钟诚蔡德霞杨锋《计算机研究与发展》2014,(6)

对于节点计算、通信与存储能力不同、节点由多个多核处理器(多个片上多处理器)组成且共享L3cache的机群系统,采取计算与传输重叠模式,提出了主节点以多进程方式并发发送数据给从节点的可分负载调度模型.该调度模型自适应节点具有不同的计算、通信和存储能力,动态计算、确定调度轮数和每轮调度分配给各从节点的负载块规模,以平衡各节点的计算负载、减少节点之间的通信开销,缩短任务调度长度.依据各节点中的L3cache,L2cache和L1cache的可用存储容量,提出了对节点主存中接收到的负载块进行多级缓存划分的数据分配方法,以确保分配给节点中各个多核处理器、各个内核的负载平衡.基于提出的多核机群节点间可分负载调度模型和节点内多级存储数据分配方法,设计实现了节点拥有多个多核处理器的异构机群上通信和存储高效的k-选择并行算法.在曙光TC5000A多核机群系统上,测试了主节点并行与串行发送数据给从节点的任务调度方式、各级缓存利用率、每个核心执行不同数目的线程对并行算法运行性能的影响.实验结果表明:基于主节点并发发送数据给从节点的调度模型设计的k-选择并行算法,其运行性能优于基于主节点串行发送数据给从节点的调度模型设计的k-选择并行算法;L3cache和L2cache利用率大小对算法运行性能影响较大;当L3cache,L2cache和L1cache利用率取其优化组合值、每个核心运行3个线程时,算法所需的运行时间最短. 相似文献

11.

多核平台下应用程序的动态优化

下载免费PDF全文

沈立王志英肖侬《计算机科学与探索》2010,4(4):338-344

动态优化是计算系统虚拟化的重要支撑技术之一。与虚拟化技术一样,多核时代的到来同样给动态优化机制的发展带来了新的机遇。通过对Dynamo、Pin、Jrpm等典型动态优化和插桩系统的分析总结出传统动态优化机制在多核平台下面临的问题与挑战,探讨了多核平台下可能的动态优化系统框架以及必须解决的关键问题。相似文献

12.

一种多核指令集仿真器构建技术

下载免费PDF全文

罗汉青梁利平叶甜春《计算机应用研究》2013,30(10):3035-3037

为了提高指令集仿真器的速度并降低多核构造的复杂度, 提出了一种多核指令集仿真器的快速搭建技术。该技术结合了解释型、编译型以及混合仿真策略的优点, 通过预解码技术、可扩展单核结构、单核结构中的cache和TLB模拟机制以及多核调度机制的相互配合, 以实现多核的快速搭建。该技术已经成功应用于基于中国科学院微电子所自主研发的IME-Diamond多核DSP的四核仿真器ISD的搭建。复杂度分析与实验结果表明, 该技术复杂度低且能够提高仿真速度。相似文献

13.

多核处理器及其对系统结构设计的影响 总被引：3，自引：0，他引：3

下载免费PDF全文

谢向辉胡苏太李宏亮《计算机科学与探索》2008,2(6):641-650

多核技术成为当今处理器技术发展的重要方向,已经是计算机系统设计者必须直面的现实。从计算机系统结构的角度探讨了同构与异构、通用与多用等多核处理器的类型,分析了典型多核处理器的微结构、工艺等结构特点,讨论了多核处理器对计算机系统结构设计带来的挑战。相似文献

14.

基于多核优化的网络流量监测指标评价系统

李国芳刘宇东孙玮《计算机与数字工程》2015,(2):226-231

针对网络流量监测系统传输数据量速度过快时,存在的数据丢包、传输停止、响应错误等性能问题,提出了一套针对网络流量监测系统的评价指标,将系统的吞吐量作为核心指标,通过评价指标来对系统的优化性能进行评估;选取了网络协议解析类系统进行多核优化研究,以GTP-AS系统作为具体目标进行优化之后,根据系统的性能瓶颈提出了一套多核平台优化策略,并且通过实验证明,当核心处理器的计算核心数量增加到七个时,完成多核优化的网络协议解析系统的吞吐量能够达到优化之前的391.73%,有效提高了系统性能。相似文献

15.

基于多核架构的大图像实时浏览技术 总被引：1，自引：0，他引：1

下载免费PDF全文

杨鑫许端清赵磊《中国图象图形学报》2011,16(2):152-160

近年来,随着数据获取设备的不断提高,越来越多的高精度大图像出现在医学、遥感、气象、考古等领域中。这些大图像给使用者带来更多细节信息的同时,也给计算机交互式的显示带来巨大的挑战。设计了一个可扩展的并行工作管道,根据所提出的基于预测的数据管理方法,可以使图像显示和数据导入同步并行的进行;然后,我们基于CUDA（compute unified device architecture）架构,设计针对大图像的放大缩小算法,利用GPU快速的对所显示的图片进行放大缩小处理。我们的算法不需要任何预处理操作,对大图像的浏览操作获得很好的实时性和稳定性,大大提高了浏览的效率。相似文献

16.

多核处理器YHFT-QDSP的调试系统 总被引：3，自引：1，他引：2

扈啸李杰陈莉丽陈书明《计算机工程与科学》2008,30(9):116-118

YHFT-QDSP是一款多核处理器。为满足其并发调试和实时调试的需要,在原有单核调试系统的基础上设计实现了多核同步调试系统和片上实时追踪系统（片上Trace）。多核同步调试提供了命令广播和断点同步触发等并发程序协同调试的功能;片上Trace通过专用硬件记录程序执行路径和数据读写等信息实现非入侵实时调试。本文从原理、结构和
软硬件实现等方面介绍了该调试系统。相似文献

17.

多核对分区操作系统影响研究

赵纯龙翔王雷《微型机与应用》2012,31(2):53-55,59

分区操作系统是综合化航空电子领域中的核心技术。随着单核性能极限的到来,处理器结构向着多核发展。将两者结合起来,在多核分区操作系统的基础上研究分析多核处理器结构为分区操作系统带来的影响。经分析实验数据得出多核处理器结构在多核处理器中共享Cache结构和内核中临界资源并发访问两方面对分区操作系统产生影响。相似文献

18.

基于多核平台的多线程动态优化框架

徐帆沈立王志英《计算机工程与科学》2011,33(5):48-53

动态优化是计算系统虚拟化的重要支撑技术之一.本文通过对DynamoRIO、Jrpm等单核平台上典型动态优化系统的分析,总结出传统动态优化机制在多核平台下面临的问题与挑战,据此提出一种面向多核平台的多线程动态优化框架,分析其组织结构和工作原理,并通过实验验证了该框架的可行性. 相似文献

19.

基于异构网络处理平台的可配置并行路由查表算法研究

严锦立吕高锋唐路李韬孙志刚《软件学报》2016,27(S2):18-24

基于通用多核的网络转发性能难以满足高速网络流量线速处理的需求.软硬件结合的异构网络处理平台以其较高的性能和灵活性在网络处理领域得到广泛应用,但是如何基于异构平台实现高效的路由查表算法仍需进行深入研究,多核资源利用率低、共享冲突严重和访存次数多的问题是制约传统路由查表算法在异构网络处理平台实现性能提升的主要问题.为此,基于异构网络处理平台（network processing platform,简称NPP)提出一种可配置并行路由查表机制（configurable parallel lookup,简称CPL).CPL中的多线程并行查找和路由表的多副本存储技术在提高多核资源利用率的同时,实现了零冲突访问路由表项.此外,考虑到不同场景下路由前缀分布的差异,CPL支持通过配置对多级路由表的组织结构进行调整,从而有效地减少了路由表访问次数.最后在NPP上,对CPL和传统的查表算法进行性能测试和对比,验证了CPL的可用性和高效性. 相似文献

20.

基于多核计算平台和高速缓存感知的Haar小波变换算法 总被引：1，自引：1，他引：0

张加万施翠翠《计算机应用》2009,29(8)

针对目前多核计算平台的普及性以及多核平台的强大计算能力,通过充分利用高速缓存的工作原理以及多线程程序设计的优势,提出了一种在多核平台上高速缓存优化的并行Haar小波计算算法.通过测定算法运行过程中高速缓存缺失率以及算法在不同多核计算平台上的运算性能,反映了该算法极大地降低了缺失率和减少了计算时间.如在数据规模8192条件下缺失率从95%降低到8.37%,计算时间从4.35s减至0.89s.由此证明了该计算方法具有高速且可移植的特性. 相似文献