Infoseite zur Störung des HPC-Clusters
(infolge des Brandschadens März 2025)

Auf dieser Seite informieren wir Sie über Ursachen, den aktuellen Stand und den Zeitplan für 2026 bis zur vollständigen Wiederherstellung der Betriebsbereitschaft des Lichtenberg II-Hochleistungsrechners.


Was ist passiert?

Ende März 2025 kam es zu einem kleinen Schwelbrand in der Elektrik, die primär die zweite Ausbaustufe von Lichtenberg II (LB2A2) mit Strom versorgt. Das sorgte für ca. 2,5 Wochen für einen Totalausfall sowohl für das gesamte HPC-System als auch für den benachbarten Housing-Bereich.

>>> Die erste Ausbaustufe von Lichtenberg II (LB2A1) und alle GPU-Systeme sind aber weiterhin in Betrieb und voll funktionsfähig.

>>> Update vom 23.01.2026: Die Reparaturarbeiten schreiten planmäßig voran: Zwei Racks der Ausbaustufe 2 werden wieder mit Strom versorgt. Somit stehen 23 % (rund 132 Rechenknoten) mehr zum Rechnen zur Verfügung.

Unser Hauptziel

ist es, so schnell wie möglich alle vorhandenen Rechenkapazitäten wieder verfügbar zu machen.


Ursachen

Mittlerweile liegt der Analysebericht eines externen Gutachters vor und ergab, dass die ältesten Komponenten der Elektrik infolge fehlerhafter und unzureichender Spezifikation überbelastet wurden. Der Bericht empfahl eine Neuberechnung der gesamten Starkstrom-Elektrik des Rechenzentrums. Diese ist nun nahezu abgeschlossen, und die sich daraus ergebenen notwendigen Änderungen werden ab Januar 2026 umgesetzt.


Wie geht es weiter?

  • Vollständige Reparatur der Elektrik für LB2A2 in mehreren Zwischenstufen:
    • 23. Januar 2026: Die erste Teilinbetriebnahme mit min. 20% von LB2A2 ist erfolgt.
      2026-01-20: provisorische Reparatur der 2000A-Schiene erfolgreich
      2026-01-23: 75% der LB2A1-Rechenknoten (96 CPU-Kerne) + 20% der LB2A2-Rechenknoten (104 CPU-Kerne) und alle GPU-Knoten laufen wieder
    • April/Mai: Größere Teilinbetriebnahme mit Ziel min. 50% von LB2A2
    • Ende 2026: Vollständige Inbetriebnahme (100% von LB2A2)
  • Ca. Mai 2026: Inbetriebnahme der nächsten Lichtenberg CPU-Ausbaustufe (LB NHR-1)
  • Ca. Juli 2026: Inbetriebnahme der GPU-Erweiterung für LB NHR-1
  • Im Laufe 2026: Schrittweise Außerbetriebsetzung der ältesten Cluster-Ausbaustufe (LB2A1)


Stolpersteine

Es kam zu Verzögerungen bei der Reparatur der Elektrik für den Lichtenberg-Hochleistungsrechner, die Kooperation und Kommunikation mit dem bisherigen Hersteller der Elektrik lief nicht optimal, und die externe Ermittlung der Brandursache sowie die Neuberechnung kosteten viel Zeit.


Wir sind für Sie da!

Bis wieder ausreichend Rechenressourcen zur Verfügung stehen, unterstützen wir weiterhin gerne die Migration von Projekt-Ressourcen auf andere NHR-Zentren wie z.B. nach Aachen, mit denen wir ein gemeinsames Nutzungskonzept haben. Für weitere Unterstützung, Fragen und Feedback kommen Sie gern . Gerne können Sie auch unsere HPC-Sprechstunden und Einführungs-Kurse direkt nutzen. Des Weiteren informieren wir bis zur vollständigen Reparatur des Clusters durch kontinuierliche Updates auf dieser Webseite und eine monatliche Infomail.


Übersicht aktueller und kommender Lichtenberg Cluster-Ausbaustufen:

LB2A1

  • CPU: ca. 60 000 CPU Cores
  • GPU: 16x Nvidia V100, 40x Nvidia A100

LB2A2

  • CPU ca. 62 000 CPU Cores
  • GPU 8x Nvidia H100, 16x AMD MI300X, 20x Intel PVC Max 1550

LB NHR-1

  • CPU ca. 90 000 CPU Cores
  • GPU 48x Nvidia B200

Grafische Darstellung des Ablaufs der Wiederinbetriebnahme

Timeline Wiederinbetriebnahme Lichtenberg II-Hochleistungsrechner
Timeline Wiederinbetriebnahme Lichtenberg II-Hochleistungsrechner