|
Höchstleistungsrechner-Kompetenzzentrum |
|||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
Vector Parallel Supercomputer NEC SX-6X am HLRSDas Höchstleistungsrechenzentrum Stuttgart (HLRS) und NEC haben einen Vertrag über die Installation eines Höchstleistungsrechners am HLRS in den Jahren 2004 / 2005 unterzeichnet. In der Anfangsphase wird ein mittelgroßes SX-6 System installiert, das später zum vollen Produktionssystem erweitert wird. Grundlegende ArchitekturDie Höchstleistungsrechner der SX-Familie basieren auf der bekannten NEC Vektor-Architektur. Der Grundbaustein ist ein Vektorprozessor mit folgenden Eigenschaften:
Die theoretische Peak Performance der CPU ist wegen einer zusätzlichen Skalareinheit etwas höher als 9 GFlop/s. Bereits die Leistung eines einzelnen Prozessors ist herausragend. Acht dieser Vektorprozessoren sind in ein Shared Memory System integriert. Die wesentlichen Eigenschaften eines solchen Knotens sind:
Die wichtigste Eigenschaft ist die extrem hohe Speicherbandbreite. Für jede Gleitpunktoperation kann das System 4 Bytes laden oder speichern. Dies führt zu einer extrem hohen sustained Performance in der Größe von 60% der Peak Performance für einen Einzelprozessor. Der gemeinsame Speicherzugriff erhöht jedoch die Kosten, so dass ein voller Knoten eine sustained Performance von etwa 50% der Peak Performance erreicht. Die Knoten sind durch den bekannten NEC IXS Crossbar-Switch miteinander verbunden. Jeder Knoten ist an den Switch mit einer Bandbreite von 8GB/s angebunden. Die MPI Kommunikation hat eine Latenz von weniger als 8 µsek. Die Anfangsinstallation besteht aus 6 Knoten und ist deshalb durch folgende Parameter gekennzeichnet:
Dieses Zwischensystem wird für Portierungen und Softwareentwicklung eingesetzt. Als sustained Performance ist eine Leistung von ca. 200 - 220 GFlop/s zu erwarten; ein Faktor drei zu den bisherigen Systemen des HLRS. Das Endsystem wird vom gleichen Architekturtyp sein. Die Leistungszahlen des einzelnen Prozessors werden sich mehr als verdoppeln. Die Anzahl der Knoten des Clusters wird 64 sein mit insgesamt 512 Prozessoren. Dies resultiert in einer gesamten Peak Perfromance von mehr als 11 TFlop/s und einer erwarteten sustained Performance von 3 - 4 TFlop/s. GesamtarchitekturDas Gesamtkonzept besteht aus folgenden Teilen:
ZeitplanDer erste Teil des Systems wurde bereits im März 2004 geliefert und ist seit April 2004 in Betrieb. Das Endsystem wird in zwei Phasen, Ende 2004 und Juni 2005, installiert werden. Das System wird dann Mitte 2005 voll betriebsfähig sein.
| |||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||