Höchstleistungsrechner-Kompetenzzentrum
Baden-Württemberg



 
<-- Menue Folgeseiten ------------------------->

 

english version

 


Vector Parallel Supercomputer NEC SX-6X am HLRS

Das Höchstleistungsrechenzentrum Stuttgart (HLRS) und NEC haben einen Vertrag über die Installation eines Höchstleistungsrechners am HLRS in den Jahren 2004 / 2005 unterzeichnet. In der Anfangsphase wird ein mittelgroßes SX-6 System installiert, das später zum vollen Produktionssystem erweitert wird.

Grundlegende Architektur

Die Höchstleistungsrechner der SX-Familie basieren auf der bekannten NEC Vektor-Architektur. Der Grundbaustein ist ein Vektorprozessor mit folgenden Eigenschaften:

Taktrate 565 MHz
Parallele Vector Pipes 2*8
Prozessorgeschwindigkeit 9 GFlop/s

Die theoretische Peak Performance der CPU ist wegen einer zusätzlichen Skalareinheit etwas höher als 9 GFlop/s. Bereits die Leistung eines einzelnen Prozessors ist herausragend. Acht dieser Vektorprozessoren sind in ein Shared Memory System integriert. Die wesentlichen Eigenschaften eines solchen Knotens sind:

Knotengeschwindigkeit 72 GFlop/s
Gesamte Hauptsspeicherbandbreite 288 GB/s
Speicherbandbreite pro Prozessor 36 GB/s
Hauptspeichergröße 64 GB

Die wichtigste Eigenschaft ist die extrem hohe Speicherbandbreite. Für jede Gleitpunktoperation kann das System 4 Bytes laden oder speichern. Dies führt zu einer extrem hohen sustained Performance in der Größe von 60% der Peak Performance für einen Einzelprozessor. Der gemeinsame Speicherzugriff erhöht jedoch die Kosten, so dass ein voller Knoten eine sustained Performance von etwa 50% der Peak Performance erreicht.

Die Knoten sind durch den bekannten NEC IXS Crossbar-Switch miteinander verbunden. Jeder Knoten ist an den Switch mit einer Bandbreite von 8GB/s angebunden. Die MPI Kommunikation hat eine Latenz von weniger als 8 µsek.

Die Anfangsinstallation besteht aus 6 Knoten und ist deshalb durch folgende Parameter gekennzeichnet:

Prozessorzahl 48
Peak Performance 434 GFlop/s
Hauptsspeichergröße 384 GB
Gesamte Hauptspeicherbandbreite 1.7 TB/s
Gesamte Kommunikationsbandbreite 48 GB/s

Dieses Zwischensystem wird für Portierungen und Softwareentwicklung eingesetzt. Als sustained Performance ist eine Leistung von ca. 200 - 220 GFlop/s zu erwarten; ein Faktor drei zu den bisherigen Systemen des HLRS.

Das Endsystem wird vom gleichen Architekturtyp sein. Die Leistungszahlen des einzelnen Prozessors werden sich mehr als verdoppeln. Die Anzahl der Knoten des Clusters wird 64 sein mit insgesamt 512 Prozessoren. Dies resultiert in einer gesamten Peak Perfromance von mehr als 11 TFlop/s und einer erwarteten sustained Performance von 3 - 4 TFlop/s.

Gesamtarchitektur

Das Gesamtkonzept besteht aus folgenden Teilen:

  • Compute Cluster: Dies ist ein Cluster von Shared-Memory Vektor-Knoten, das das Arbeitspferd der numerischen Simulation darstellt.
  • Pre-Processing Nodes: Dies sind IA64-basierte 32-Wege Knoten mit einem großen Hauptspeicher im Bereich von 0,5 TB
  • Post-Processing Cluster: Ein Cluster für das Postprocessing wird in das Konzept integriert, um die Rechenlast für die Visualisierung auf eine geeignete Plattform zu transferieren, aber gleichzeitig eine enge Integration des Systems beizubehalten.
  • Gemeinsames Dateisystem: Alle drei Hardwarearchitekturen werden über ein gemeinsames Dateisystem integriert.

Architektur des NEX SC systems

Zeitplan

Der erste Teil des Systems wurde bereits im März 2004 geliefert und ist seit April 2004 in Betrieb. Das Endsystem wird in zwei Phasen, Ende 2004 und Juni 2005, installiert werden. Das System wird dann Mitte 2005 voll betriebsfähig sein.