期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Dawning Nebulae: A PetaFLOPS Supercomputer with a Heterogeneous Structure

Ning-Hui Sun Jing Xing Zhi-Gang Huo Guang-Ming Tan Jin Xiong Bo Li Can Ma 《计算机科学技术学报》2011,26(3):352-362

Dawning Nebulae is a heterogeneous system composed of 9280 multi-core x86 CPUs and 4640 NVIDIA Fermi GPUs. With a Linpack performance of 1.271 petaFLOPS, it was ranked the second in the TOP500 List released in June 2010. In this paper, key issues in the system design of Dawning Nebulae are introduced. System tuning methodologies aiming at petaFLOPS Linpack result are presented, including algorithmic optimization and communication improvement. The design of its file I/O subsystem, including HVFS and the underlying DCFS3, is also described. Performance evaluations show that the Linpack efficiency of each node reaches 69.89%, and 1024-node aggregate read and write bandwidths exceed 100 GB/s and 70GB/s respectively. The success of Dawning Nebulae has demonstrated the viability of CPU/GPU heterogeneous structure for future designs of supercomputers. 相似文献

2.

曙光超级机上面向连接的机群通信协议

崔伟马捷《计算机工程》2004,30(23):37-39

面向连接的简单机群通信协议BCL-SCOP为底层通信协议提供面向连接的协议接口,在目前的机群底层通信协议上实现高速可靠的数据传输,为应用程序提供简单高效的数据收发协议,并对底层协议透明,用户程序与底层协议无关能够方便地移植。应用程序对底层协议的透明使面向连接的协议接口能支持不同机制的协议,以及多协议的并行或高可用的通信。在曙光超级服务器的底层通信协议BCL上实现的BCL-SCOP协议具有较高的性能。相似文献

3.

曙光2000超级计算机系统软件的设计 总被引：7，自引：3，他引：7

孙凝晖徐志伟《计算机学报》2000,23(1):9-20

曙光２０００超级计算机系统采用可扩展机群体系结构,是通用的超级并行计算机,可支持科学与工程计算、网络服务和数据处理应用。该文介绍了曙光２０００系统软件设计采用担ＳＵＭＡ技术路线,即在通信软件、可扩展文件系统和服务器取信的设计上体现可管理性,在单一系统映像、集成化并行环境和傻瓜界面的设计上体现好用性。文章详细阐述了系统软件的设计和关键技术,包括通信系统、ＣＯＳＭＯＳ可扩展文件系统、管理软件和用刻界面相似文献

4.

用PC机群组构并行超级计算机 总被引：14，自引：1，他引：13

黎康保陶文正许丽华黎文楼《计算机工程》2000,26(9):1-3

美国由高等院校,大型实验室和研究部门共同研究ＰＣ群机Ｂｅｏｗｕｉｉｆ超级计算机。这一创举,说明级级计算机可以用大众化的ＰＣ机集群完成,这对我国是一个挑战和机遇,这里对Ｂｅｏｗｔｌｆ作了一些研究的基础上,论述了ＰＣ机的结构组成原理,操作系统平台和并行计算程序设计,并行通信程序设计等问题。相似文献

5.

Ballistic Missile Defense: A Supercomputer Challenge

《Computer》1980,13(11):37-46

Incredibly complex ballistic missile defense computational problems have been a rich source of technological advance. The BMD challenge will stimulate supercomputer development through the 1980's. 相似文献

6.

A Microprocessor-based Hypercube Supercomputer 总被引：1，自引：0，他引：1

Hayes J.P. Mudge T. Stout Q.F. Colley S. Palmer J. 《Micro, IEEE》1986,6(5):6-17

Each node in the NCUBE/ten parallel processor is organized around a custom, VAX-like, 32-bit CPU chip. With 1024 nodes, the NCUBE/ten provides a throughput of 500 MELOPS. 相似文献

7.

图形超级计算机的可编程HIPPI接口

下载免费PDF全文

RajK.Singh StephenG.Tell ShaunJ.Bharrat DavidBecker VernonL.Chi刘玉军黄朝辉《计算机工程与科学》1995,17(2):15-20

随着网络接近Ｇｂ／ｓ的性能，超级计算机的主机接口正在成为通讯的瓶颈。为图形级计算机ＰｉｘｅｌＰｌａｎｅｓ５设计的高性能主机接口—网络接口部件（ＮＩＵ），通过数据调度硬件与嵌入式处理器之间的平衡取得了高性能和可编程性。本文对ＮＩＵ的硬件、软件、固件及接口性能进行了分析和总结。相似文献

8.

高阶精度CFD应用在天河2系统上的异构并行模拟与性能优化

王勇献张理论车永刚徐传福刘巍程兴华《计算机研究与发展》2015,(4):833-842

在当前主流的众核异构高性能计算机平台上开展超大规模计算流体力学（computational fluid dynamics ,CFD）应用的高效并行数值模拟仍然面临着一系列挑战性技术问题,也是该领域的热点研究问题之一．面向天河2高性能异构并行计算平台,针对高阶精度C FD流场数值模拟程序的高效并行进行了探索,重点讨论了C FD应用特点与众核异构高性能计算机平台特征相适应的性能优化策略,从任务分解、并行度挖掘、多线程优化、SIMD向量化、CPU与加速器协同优化等方面,提出一系列性能提升技术．通过在天河2高性能异构并行计算平台上进行了多个算例的数值模拟,模拟的最大C FD规模达到1228亿个网格点,共使用约59万C P U＋M IC处理器核,测试结果表明移植优化后的程序性能提高2．6倍左右,且具有良好的可扩展性．相似文献

9.

A Supercomputer Workstation for VLSI CAD

Fiebrich R.-D. 《Design & Test of Computers, IEEE》1986,3(3):31-37

This article describes a VLSI CAD workstation with a massively parallel computer the connection machine, as hardware accelerator. The connection machine offers workstation users general-purpose acceleration capabilities and high interactivity. Workstation software includes a novel CAD-system kernel and tools operating on the connection machine. The system kernel, designed to permit efficient interfaces to existing tools and tool environments, also includes more advanced design tools (procedural tools, for example) providing a suitable basis for knowledge-based tool development. 相似文献

10.

The TianHe-1A Supercomputer: Its Hardware and Software 总被引：4，自引：0，他引：4

下载免费PDF全文

杨学军廖湘科卢凯胡庆丰宋君强苏金树《计算机科学技术学报》2011,26(3):344-351

This paper presents an overview of TianHe-1A (TH-1A) supercomputer, which is built by National University of Defense Technology of China (NUDT). TH-1A adopts a hybrid architecture by integrating CPUs and GPUs, and its interconnect network is a proprietary high-speed communication network. The theoretical peak performance of TH-1A is 4700 TFlops, and its LINPACK test result is 2566 TFlops. It was ranked the No. 1 on the TOP500 List released in November, 2010. TH-1A is now deployed in National Supercomputer Center in Tianjin and provides high performance computing services. TH-1A has played an important role in many applications, such as oil exploration, weather forecast, bio-medical research. 相似文献

11.

Editorial: Dawning of a New Age for Longitudinal Cohort Data

Richard Suzman Sarah Harper 《Journal of population ageing》2013,6(1-2):1-4

相似文献

12.

英特尔CEO保罗·欧德宁：摩尔定律将继续有效

《办公自动化》2009,(12):24-24

美国加利福尼亚州圣克拉拉市--英特尔公司与日本电气公司(NEC)达成协议,决定携手开发面向未来的高性能超级计算机技术,以帮助高性能计算系统的性能获得更进一步的提升. 相似文献

13.

基于曙光4000A的BLAST并行算法 总被引：1，自引：0，他引：1

谭光明徐琳周幼英冯圣中孙凝晖《计算机工程》2006,32(10):45-46,49

对BLAST启发式算法的实现做了优化：引入批处理的概念、并对整个库文件建立哈希表,实现了I／O延迟掩藏,提高了整个比对过程的速度,同时降低了内存消耗。优化的算法有利于并行化的实现：在并行系统中,将库文件广播到各个计算节点,由节点在局部分别建立哈希表。然后将查询文件分割发送到各个计算节点并行比对。计算结果可以在节点直接输出,不需要主结点收集,减少了通信开销。相似文献

14.

曙光4000A中网格路由器的实现 总被引：3，自引：0，他引：3

杨卫兵孙凝晖陈明宇孙小涓《计算机研究与发展》2005,42(6):1013-1018

网格技术的发展带来了机群系统体系结构和使用环境的变化,这些变化在系统上引入了一些新的问题,包括安全、可控、高效的服务接入和细粒度的访问控制.传统的服务接入系统中,有些在身份认证强度上、有些在访问控制和服务分发的粒度上不能满足网格环境下使用高性能计算机的需求.讨论了一种服务接入部件——网格路由器,力图解决这些问题. 相似文献

15.

Supercomputer performance evaluation: Status and directions

Joanne L. Martin Dieter Mueller-Wichards 《The Journal of supercomputing》1987,1(1):87-104

Despite the increasing application of supercomputers to important problems in a wide spectrum of scientific disciplines, the process of measuring, evaluating, and predicting their performance is imprecise at best. To advance the science of supercomputer performance evaluation, measurements must be made in the context of defined models of architectures and applications. We present an overview of current practice in supercomputer performance evaluation, describe methods for characterizing applications and architectures, and point toward some approaches for accomplishing their pairing.Work performed while on sabbatical at IBM T J Watson Research Center 相似文献

16.

高性能计算机曙光4000A的网格使能特征 总被引：1，自引：0，他引：1

孟丹孙凝晖徐志伟《计算机研究与发展》2004,41(12):2079-2087

网格计算的理想是实现基于Internet的资源共享和协同工作,是Internel．继WWW后的又一个发展浪潮．高性能计算机(超级服务器)是网格中主要的共享资源提供者,而网格也必将成为高性能计算机的主要应用环境．因此网格成为推动高性能计算机发展的一个重要因素,高性能计算机研制中必须考虑网格的需求,并提供必要的支持．曙光4000A是由中国科学院计算技术研究所最新研制的面向网格的高性能计算机,该系统的研制得到国家“八六三”高技术研究发展计划的支持,并作为中国国家网格的主节点部署在上海超级计算中心．详细论述了曙光4000A系统中主要的网格使能特征,这些特征从体系结构、系统硬件和软件方面对网格提供了支持,是从高性能计算机研制角度对网格使能技术进行的积极探索和尝试．相似文献

17.

The Blue Gene/L Supercomputer: A Hardware and Software Story

《International journal of parallel programming》2007,35(3):181-206

相似文献

18.

曙光5000A高效能计算节点的设计与实现

下载免费PDF全文

曾宇王洁孙凝晖《计算机工程》2009,35(6):17-19

由于求解问题和系统规模的不断扩大,基于cluster架构的高性能计算机面临扩展性、可靠性、功耗、占地面积、均衡性等诸多挑战。该文针对计算模块、交换管理模块、自适应功率管理、专用FPGA硬件加速部件、高速PCI-E全交换扩展等方面,设计并实现高效能计算节点。基于该节点构建的曙光5000A百万亿次计算机能有效解决计算密度、I／O扩展及带宽瓶颈和能耗等方面的瓶颈。相似文献

19.

曙光5000芯片组系统级功能验证平台

下载免费PDF全文

刘涛王凯李晓民安学军《计算机工程与科学》2009,31(11)

曙光5000芯片组是曙光5000计算单元中的系统控制器,它通过HT接口连接两颗CPU并提供高速网络通信能力。为了确保曙光5000芯片组的功能正确性,我们为其设计了系统级功能验证平台SVP。SVP采用分层结构对系统进行建模,通过对本地计算单元的系统软件行为、硬件平台功能以及远程计算单元的网络行为进行模拟,提供了接近真实系统的验证环境。在曙光5000芯片组的验证过程中,SVP发现并排除了逻辑设计中的大多数功能错误,通过并行验证加速了验证覆盖率的收敛过程。相似文献

20.

太湖之光上利用OpenACC移植和优化GTC-P

王一超林新华蔡林金 Tang William Ethier Stephane 王蓓施忠伟松岗聪《计算机研究与发展》2018,55(4):875-884

神威“太湖之光”是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学应用,算法基于高性能计算领域中被广泛使用的PIC(particle-in-cell)方法.利用神威OpenACC并行编程模型在“太湖之光”上成功移植了GTC-P应用.在移植过程中,鉴于OpenACC编译器尚无法解决的性能瓶颈,提出了3种基于中间代码二次开发的优化方法：1)消除原子操作;2)避免低效的全局访存操作;3)手动添加SIMD intrinsics指令.实验结果表明,在64个从核上相比1个主核,优化后的函数charge和push分别实现了1.6倍和86倍的加速比,同时GTC-P代码整体取得了2.5倍的加速比.优化结果证明了基于中间代码的手动优化对利用神威OpenACC移植的PIC算法在“太湖之光”上的性能提升非常重要. 相似文献