Auf dieser Seite informieren wir Sie über Ursachen, den aktuellen Stand und den Zeitplan für 2026 bis zur vollständigen Wiederherstellung der Betriebsbereitschaft des Lichtenberg II-Hochleistungsrechners.
Was ist passiert?
Ende März 2025 kam es zu einem kleinen Schwelbrand in der Elektrik, die primär die zweite Ausbaustufe von Lichtenberg II (LB2A2) mit Strom versorgt. Das sorgte für ca. 2,5 Wochen für einen Totalausfall sowohl für das gesamte HPC-System als auch für den benachbarten Housing-Bereich.
>>> Die erste Ausbaustufe von Lichtenberg II (LB2A1) und alle GPU-Systeme sind aber weiterhin in Betrieb und voll funktionsfähig.
>>> Update vom 23.01.2026: Die Reparaturarbeiten schreiten planmäßig voran: Zwei Racks der Ausbaustufe 2 werden wieder mit Strom versorgt. Somit stehen 23 % (rund 132 Rechenknoten) mehr zum Rechnen zur Verfügung.
Unser Hauptziel
ist es, so schnell wie möglich alle vorhandenen Rechenkapazitäten wieder verfügbar zu machen.
Ursachen
Mittlerweile liegt der Analysebericht eines externen Gutachters vor und ergab, dass die ältesten Komponenten der Elektrik infolge fehlerhafter und unzureichender Spezifikation überbelastet wurden. Der Bericht empfahl eine Neuberechnung der gesamten Starkstrom-Elektrik des Rechenzentrums. Diese ist nun nahezu abgeschlossen, und die sich daraus ergebenen notwendigen Änderungen werden ab Januar 2026 umgesetzt.
Wie geht es weiter?
- Vollständige Reparatur der Elektrik für LB2A2 in mehreren Zwischenstufen:
- 23. Januar 2026: Die erste Teilinbetriebnahme mit min. 20% von LB2A2 ist erfolgt.
2026-01-20: provisorische Reparatur der 2000A-Schiene erfolgreich
2026-01-23: 75% der LB2A1-Rechenknoten (96 CPU-Kerne) + 20% der LB2A2-Rechenknoten (104 CPU-Kerne) und alle GPU-Knoten laufen wieder - April/Mai: Größere Teilinbetriebnahme mit Ziel min. 50% von LB2A2
- Ende 2026: Vollständige Inbetriebnahme (100% von LB2A2)
- 23. Januar 2026: Die erste Teilinbetriebnahme mit min. 20% von LB2A2 ist erfolgt.
- Ca. Mai 2026: Inbetriebnahme der nächsten Lichtenberg CPU-Ausbaustufe (LB NHR-1)
- Ca. Juli 2026: Inbetriebnahme der GPU-Erweiterung für LB NHR-1
- Im Laufe 2026: Schrittweise Außerbetriebsetzung der ältesten Cluster-Ausbaustufe (LB2A1)
Stolpersteine
Es kam zu Verzögerungen bei der Reparatur der Elektrik für den Lichtenberg-Hochleistungsrechner, die Kooperation und Kommunikation mit dem bisherigen Hersteller der Elektrik lief nicht optimal, und die externe Ermittlung der Brandursache sowie die Neuberechnung kosteten viel Zeit.
Bei den Wartungsarbeiten zur Vorbeugung weiterer Leckagen an der direkten Wasserkühlung in den Rechenknoten der älteren Ausbaustufe 1 (LB2A1) kam es unerwartet zu weiteren Lecks, die vermutlich eine größere Anzahl von Systemen dauerhaft beschädigt haben. Wir rechnen mit ca. 100 betroffenen Systemen. Es wird derzeit geprüft, ob davon ein paar wiederbelebt werden können. Bleibt es bei der Zahl der dauerhaft beschädigten Systeme, reduziert sich die Anzahl der verfügbaren Rechenkerne von LB2A1 von ~60 000 auf nur noch ~50 000 Cores.
Wir sind für Sie da!
Bis wieder ausreichend Rechenressourcen zur Verfügung stehen, unterstützen wir weiterhin gerne die Migration von Projekt-Ressourcen auf andere NHR-Zentren wie z.B. nach Aachen, mit denen wir ein gemeinsames Nutzungskonzept haben. Für weitere Unterstützung, Fragen und Feedback kommen Sie gern direkt auf uns zu. Gerne können Sie auch unsere HPC-Sprechstunden und Einführungs-Kurse direkt nutzen. Des Weiteren informieren wir bis zur vollständigen Reparatur des Clusters durch kontinuierliche Updates auf dieser Webseite und eine monatliche Infomail.
Übersicht aktueller und kommender Lichtenberg Cluster-Ausbaustufen:
- CPU: ca. 60 000 CPU Cores -> 50 000 CPU Cores
- GPU: 16x Nvidia V100, 40x Nvidia A100
- CPU ca. 62 000 CPU Cores
- GPU 8x Nvidia H100, 16x AMD MI300X, 20x Intel PVC Max 1550
LB NHR-1
- CPU ca. 90 000 CPU Cores
- GPU 48x Nvidia B200
Grafische Darstellung des Ablaufs der Wiederinbetriebnahme