期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

何裕南安虹郭锐梁博《计算机科学》2007,34(1):248-254

CPU设计正在由仅开发指令级并行性的单线程单核结构转向利用线程级并行性的多线程多核结构，但至今还没有一个可移植性好并被广泛使用的开源多核处理器模拟器，限制了在这样的结构上开展高质量的研究工作。我们开发了一个多核处理器体系结构模拟器OpenCMP，用于支持当前和未来对多线程多核处理器体系结构关键技术的研究。该模拟器适当地抽象了多核处理器结构，为主流的多核处理器结构研究提供一个可扩展、灵活的模拟工具框架，包括支持对乱序、顺序的处理器核和同时多线程处理器核的模拟，以便对更大的多核设计空间进行比较性研究。本文以支持事务存储模型的多核处理器结构模拟器为例，详细描述了如何通过抽象多核结构和事务存储模型的最基本特性和组成部分，扩展单核处理器模拟器SimpleScalar，设计与实现一个多核处理器模拟器。初步研究表明，与现有的多核处理器模拟器相比，该模拟器能够较好地支持对事务存储模型和基于事务存储模型的多核处理器体系结构的研究．相似文献

2.

CMT模拟器的设计与实现

下载免费PDF全文

杨华崔刚吴智博刘宏伟《计算机工程》2007,33(19):251-252

片上多线程(CMT)是未来高性能处理器的发展方向，而软件模拟是处理器体系结构研究和设计中不可或缺的技术手段。该文基于SimpleScalar工具集设计并实现了CMT节拍级模拟器——OpenSimCMT，对CMT体系结构的设计和评测提供支持。OpenSimCMT特点如下：(1)支持同时多线程(SMT)和片上多处理器(CMP)的模拟；(2)架构开放，配置灵活，可根据具体研究目标随时进行扩展，添加新的模拟内容及相关统计；(3)功能全面，对线程间资源竞争与共享、各功能单元、流水段、分支预测、多级cache等全方位模拟，模拟结果准确。相似文献

3.

VLIW体系结构微处理器的控制流分析与其模拟软件设计 总被引：1，自引：0，他引：1

霍玉梅王沁《小型微型计算机系统》2001,22(5):513-516

本文在研究超长指令字（VLIW）体系结构的基础上,总结了VLIW体系结构的指令结构特征、处理器结构特征和执行特征,通过比较VLIW体系结构微处理器模拟器的两种设计方案,选定以结构为基础设计模拟器的方案,并解决了模拟的设计难点－串并行冲突的问题。相似文献

4.

计算机体系结构软件模拟技术 总被引：3，自引：0，他引：3

喻之斌金海邹南海《软件学报》2008,19(4):1051-1068

在现代处理器或计算机系统设计中,体系结构软件模拟技术已成为一个不可缺少的环节.与不使用模拟技术的计算机系统或处理器设计方法相比,软件模拟技术可以极大地降低设计成本和缩短设计周期.然而,由于开发计算机体系结构软件模拟器通常十分困难,模拟器运行标准性能测试程序的时间很长以及模拟结果精度差等3个主要问题,限制了体系结构软件模拟技术在计算机系统设计中的有效性.许多研究人员已经提出了各种各样的方法和技术来解决这些问题,但是,到目前为止,这些问题还并未得到根本性解决.同时,未来体系结构模拟技术的新挑战已经开始显现.研究了体系结构软件模拟技术的由来和历史,对现有的技术和方法进行了分类和比较,对未来的挑战也进行了分析,指出了该领域今后的发展方向,以帮助计算机体系结构设计师或研究人员选择、开发体系结构模拟器或对该技术进行研究.基于这些调查分析,正在使用较为先进的技术开发一个适合于安腾系列架构的体系结构模拟器SimIPF. 相似文献

5.

新型网络模拟器NS-3研究 总被引：2，自引：0，他引：2

张登银张保峰《计算机技术与发展》2009,19(11):80-84

网络模拟器是现代通信网络领域的重要研究工具。文中追踪国际上最新研究进展，从现有网络模拟领域需要解决的问题出发，通过对现有主流网络模拟器进行简要的对比分析，揭示了NS-3产生的技术背景和设计目标，然后详细分析了NS-3的主要技术特点和系统功能。并从内核和组件两个层面剖析NS-3的体系结构，着重分析了NS-3中网络节点（Node）和数据分组（Packet）这两个主要网络模块的组成和作用。论文无论是对网络模拟器本身还是网络技术的研究，均具有较好的理论指导意义和应用参考价值。相似文献

6.

采用动态译码缓存的高速指令集模拟器

下载免费PDF全文

桑胜田王进祥赵新曙《计算机工程》2006,32(18):248-250

指令集模拟器是计算机体系结构研究和SoC软硬件协同设计的重要工具，模拟器的性能和灵活性是影响设计和验证效率的重要因素。解释型指令集模拟器具有很好的灵活性，在操作系统等涉及到自修改代码的模拟中具有不可替代的作用。该文给出了一个高性能解释型指令集模拟器的设计，它具有很高的模拟精度和很好的灵活性；同时指令集模拟器采用了动态译码缓存等优化技术，使其具有很高的模拟性能。以ARM7指令集模拟器为实例，所提出的优化技术同样适用于其它现心RISC体系结构。相似文献

7.

Perceptron-Based 分支预测SimpleScalar中的实现

叶新栋唐志强涂时亮《计算机系统应用》2010,19(1):51-54

SimpIeScaIar是目前国际上常用的一种超标量处理器的性能模拟器。首先分析了SimpleScaIar模拟器的内部体系结构,并在此基础上深入剖析了其分支预测部件的实现机制。针对SimpIeScaIar模拟器分支预测部件只支持基于计数器预测器的局限性,通过深入研究Perceptron-based分支预测器的实现机制,提出并设计了如何在SimpleScaIar模拟器中实现Perceptron-based分支预测器的方案。对超标量处理器的性能模拟和研究有着实际的意义。相似文献

8.

用于计算机体系结构教学的哈佛体系结构模拟器

张前贤等《中国信息技术教育》2014,(5):108-111

已有的计算机体系结构教学模拟器主要是面向冯诺依曼体系结构。针对缺乏面向哈佛体系结构模拟器这一问题,本文提出并设计了基于开源软件包Multimedia Logic（MML）[1]哈佛体系结构模拟器。该模拟器不仅具有软件的易动态运行、易修改、易二次开发的优点,同时还实现了硬件结构的逻辑门级映射[2],从而在课程教学和实验设计方面对哈佛体系结构教学提供了很好的支持。相似文献

9.

系统级体结构仿真器的研究与实现

陆岚王克祥等《小型微型计算机系统》2002,23(1):14-17

系统级体系结构仿真器是可以作为一个虚拟目标机器运行的软件系统，它可以实现对单（多）处理器、内存系统、Cache和外部设备等子系统的功能模拟，在体系结构设计和操作系统开发等工程中，体系结构仿真器有着广泛的应用。本文介绍了一个基于MISC CPU和SPARC体系结构的系统仿真器FMCS。相似文献

10.

Multi_MINT:一个基于MINT的多核处理器模拟器

陈虎罗伟良干芸芸《计算机工程与科学》2011,33(12):37

多处理器模拟器是设计、分析和优化多核处理器体系结构的主要工具。本文提出的Multi_MINT分为前端和后端两个部分,其中前端采用MINT来模拟MIPS处理器指令,后端包括Cache、互联结构、存储器控制器等部件,从而构成了一个完整多核处理器模拟器系统。本文主要介绍了Multi_MINT的总体结构,后端主要硬件部件的模拟框架,以及模拟器设计和实现中的一些细节问题,最后通过一个实例说明了Multi_MINT在性能评测方面的作用。相似文献

11.

Performance assessment of multithreaded quicksort algorithm on simultaneous multithreaded architecture

Basel A. Mahafzah 《The Journal of supercomputing》2013,66(1):339-363

Sorting huge amounts of datasets have become essential in many computer applications, such as search engines, database and web-based applications, in order to improve searching performance. Moreover, due to the witnessed prevalence of the commercial Simultaneous Multithreaded architecture (SMT), parallel programming using multithreading becomes a dire need for efficiently using all available hardware resources for one application. In this paper, one of the efficient and quick algorithms, the Quicksort, is applied as a parallel multithreaded algorithm on SMT architecture, where virtual parallelization has been achieved using the POSIX threads (Pthreads) library. The proposed algorithm is evaluated and compared with its sequential counterpart. The obtained analytical and experimental results reveal that multithreading is a viable technique for implementing the parallel Quicksort algorithm efficiently on SMT architecture, where it has been shown both analytically and experimentally that the parallel multithreaded Quicksort algorithm outperforms the sequential Quicksort algorithm in terms of various performance metrics including; time complexity and speedup. 相似文献

12.

同时多线程处理器上的动态分支预测器设计方案研究

任建安虹路放梁博《计算机科学》2006,33(3):239-243

同时多线程处理器（SMT）每个周期能够从多个线程中发射指令执行,从而大大地提高了超标量微处理器的指令吞吐量,但多个线程的同时执行也带来了许多硬件资源的共享冲突问题.其中,多个线程共享分支预测硬件的方案会对分支预测精度产生较大的影响.研究SMT处理器中分支处理方案对于处理器整体性能的影响,对于指导SMT处理器的设计是十分重要的.本文利用SMT处理器模拟器,针对各线程运行独立应用的SMT结构实验评估了几种著名的分支预测方案;给出了在单线程和多线程情况下,分支预测方案对分支预测精度和处理器整体性能的影响的分析;总结出在这样的SMT结构中,各线程拥有独立的预测器是一种较好的选择,并且由于各独立预测器可以采用小而简单的结构,所以不会带来太多的硬件开销. 相似文献

13.

龙芯2号同时多线程处理器的软硬件接口设计 总被引：1，自引：0，他引：1

李祖松许先超胡伟武唐志敏《软件学报》2007,18(7):1806-1817

随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术,而多线程处理器的软硬件接口也就成为急需解决的问题.在分析同时多线程的软件需求的基础上,提出龙芯2号同时多线程处理器的软硬件接口协同设计解决方案,给出相应的操作系统实现方案.同时,在Linux 2.4.20的基础上实现了龙芯2号同时多线程处理器相应的操作系统.通过运行SPEC CPU2000等测试程序进行性能评测,充分说明实现软硬件接口的龙芯2号同时多线程处理器极大地提高了多进程负载的性能.分析和设计方案不仅适用于同时多线程处理器,而且对于片内多核处理器的设计也有借鉴作用. 相似文献

14.

Increasing data reuse of sparse algebra codes on simultaneous multithreading architectures

J. C. Pichel D. B. Heras J. C. Cabaleiro F. F. Rivera 《Concurrency and Computation》2009,21(15):1838-1856

In this paper the problem of the locality of sparse algebra codes on simultaneous multithreading (SMT) architectures is studied. In these kind of architectures many hardware structures are dynamically shared among the running threads. This puts a lot of stress on the memory hierarchy, and a poor locality, both inter‐thread and intra‐thread, may become a major bottleneck in the performance of a code. This behavior is even more pronounced when the code is irregular, which is the case of sparse matrix ones. Therefore, techniques that increase the locality of irregular codes on SMT architectures are important to achieve high performance. This paper proposes a data reordering technique specially tuned for these kind of architectures and codes. It is based on a locality model developed by the authors in previous works. The technique has been tested, first, using a simulator of a SMT architecture, and subsequently, on a real architecture as Intel's Hyper‐Threading. Important reductions in the number of cache misses have been achieved, even when the number of running threads grows. When applying the locality improvement technique, we also decrease the total execution time and improve the scalability of the code. Copyright © 2009 John Wiley & Sons, Ltd. 相似文献

15.

一种基于IA-64的并行架构的研究

下载免费PDF全文

邓晴莺张民选蒋江《计算机工程与科学》2008,30(7):82-85

同时多线程（SMT）能在同一时钟周期执行不同线程的指令,同时开发了指令级并行（ILP）和线程级并行（TLP）。显式并行指令计算（EPIC）关注于编译器和硬件的相互协作。在本文中,我们设计和实现了一套并行环境,其中包括并行编译器OpenUH和基于IA-64的同时多线程体系结构EDSMT,并通过NAS并行测试程序作出了性能评测。相似文献

16.

低功耗SMT体系结构研究 总被引：3，自引：3，他引：3

赵荣彩唐志敏《计算机工程与设计》2002,23(8):7-12,17

由于应用程序中ILP和TLP的不足或不均衡性，使得超标量和多处理的性能和资源用率受到了挑战；而同时多线程（SMT）处理器则是一种能够充分利用资源，动态进行TLP到ILP转换的能量有效结构。文章围绕高性能、低功耗这两个目标讨论和探究了WMT体系结构的基本思想、设计技术、低功耗考虑了以及编译器和操作系统设计应注意和对待的新问题。相似文献

17.

超标量处理器中引入SMT技术的性能分析研究

下载免费PDF全文

史莉雯樊晓桠黄小平《计算机工程与应用》2009,45(5):13-15

同时多线程（SMT）是一种允许多个独立的线程每周期发射多条指令的技术,这种技术充分利用了可能存在的指令级并行和线程级并行,提高了有限资源的利用率。文章以西北工业大学航空微电子中心自主研发的32位超标量处理器“龙腾R2”为基础,引入SMT技术,在基本不改变内部结构大小、不增加执行功能部件、仅做一些必要修改的前提条件下进行研究。通过仿真不同的线程数和各种线程组合,进行性能分析。尽管存在制约性能提升的一些因素,引入SMT技术后依然获得了最高约50%的性能增加。相似文献

18.

Adaptive dynamic thread scheduling for simultaneous multithreaded architectures with a detector thread

《Journal of Parallel and Distributed Computing》2006,66(10):1304-1321

Simultaneous multithreading (SMT) is an architectural technique that improves resource utilization by allowing instructions from multiple threads to coexist in a processor and share resources. However, earlier studies have shown that the performance of an SMT architecture begins to saturate as the number of coexisting threads increases beyond four. We show that no single fetch policy can be the best solution during the entire execution time and that a significant performance improvement can be attained by dynamically switching the fetch policies. We propose an implementation method which includes an extremely lightweight thread to control fetch policies (a detector thread) and a processor architecture to run the detector thread without impact on the user application threads. We evaluate various heuristics for the detector thread to determine the best fetch policies. We show that, with eight threads running on our simulated SMT, the proposed approach can outperform fixed scheduling mechanisms by up to 30%. 相似文献

19.

ARP:同时多线程处理器中共享Cache自适应运行时划分机制 总被引：1，自引：1，他引：0

隋秀峰吴俊敏陈国良《计算机研究与发展》2008,45(7)

同时多线程是一种延迟容忍的体系结构,采用共享的二级Cache,在每个周期内可以执行多个线程的多条指令,这就会增加对存储层次的压力,文中主要研究了SMT处理器中多个并发执行的线程之间共享Cache的划分问题,尤其是Cache共享中的公平性问题以及它和吞吐量之间的关系,传统的LRU策略会根据线程的需要隐式地划分共享Cache,给具有较高需求的线程分配较多的Cache空间,对Cache的管理具有不公平性,从而会引起线程饿死、优先级反转等问题,实现了一种自适应、运行时划分机制(ARP)来管理共享Cache.ARP采用公平性作为划分的度量,并且使用动态划分算法来优化公平性,该算法具有易于实现,所需剖析较少的特点,硬件上使用经典的监控器来收集每个线程的栈距离信息,其存储开销不到0.25%.实验结果显示,与基于LRU的Cache划分相比,ARP可以将一个2路SMT处理器的公平性提高2.26倍,而将吞吐量平均提高14.75%. 相似文献