Betrieb mit reduzierter Kapazität

Lichtenberg Cluster nach Ausfall wieder in Teilbetrieb

08.02.2024

Durch einen Kurzschluss war die gesamte elektrische Versorgung des Hochleistungsrechners nicht funktionstüchtig. Mittlerweile ist der Cluster wieder verfügbar, allerdings mit reduzierter Kapazität (~35%).

+++Update 13.03.2024

Durch Aktivierung weiterer Knoten konnte die verfügbare Kapazität auf ca. 35% erweitert werden.

+++Update 08.03.2024

Der Cluster ist jetzt wieder im Teilbetrieb verfügbar (ca. 20% der Kapazität).

Nutzerdaten und Löschung

Da es viele Fragen zum Zustand der Userdaten im Cluster-Filesystem und zur automatischen Löschung gab: wir können noch nicht feststellen, ob Daten im Filesystem Schaden genommen haben. Die automatische Löschung wird jedenfalls vor bzw. während des Hochfahrens ausgesetzt, so dass nicht etwa Daten gelöscht werden, auf die während der Auszeit niemand zugreifen konnte.

+++Update 07.03.2024

Die Gaslöschanlage ist wieder befüllt und einsatzbereit, die Stromschienen wurden nach gründlicher Überprüfung wieder zur Nutzung freigegeben und wir konnten das Speichersystem des Lichtenberg-Clusters fehlerfrei wieder starten.

Über unsere Login-Knoten können Sie jetzt also Daten herunterladen.

Zur Teilinbetriebnahme der Rechenknoten geben wir später weitere Updates.

+++Update vom 23.02.2024:

Durch die Suche von neuen Lieferanten konnte die Wiederbefüllung der Gaslöschanlage beschleunigt werden. Als Termin ist der 6. März in Aussicht gestellt worden.
Für die Elektroarbeiten gehen wir derzeit davon aus, dass die Überprüfung und notwendige Umbauarbeiten für eine Teilinbetriebnahme der Stromversorgung bis Ende der nächsten Woche (1. März) stattfinden können. Beide geplanten Arbeiten sind zwingend notwendig für eine Wiederinbetriebnahme. Sie stehen aber beide noch unter einem gewissen Vorbehalt.

Falls die Überprüfung der Stromschienen & Abgangskästen keine weiteren Mängel oder Schäden findet, können wir ab dem 7. März. anfangen, die vitalen Systeme des Lichtenberg II auf weitere Schäden, wie z.B. Datenschäden zu untersuchen.
Ob noch eine Nutzung des Clusters im Laufe des Freitag, 8. März möglich sein wird, können wir derzeit noch nicht mit Sicherheit zusagen.

+++Update vom 14.02.2024 um 13:42 Uhr:

Angebote von Firmen zur Auffüllung der GLA und zur Überprüfung der Elektrik sind angefordert, kann aber dauern.

Zur Zeit ist keine seriöse Schätzung möglich, wann der HLR wieder in Betrieb gehen kann.

+++Update vom 08.02.2024 um 10:47 Uhr:

Es war kein Fehlalarm, sondern ein Kurzschluss und Kleinbrand an einer Stromschiene/Sicherungskasten. GLA hat gelöscht. Gerade Übergabe und Freimeldung im Gange (wegen Gaslöschung).

+++ Es gab Feueralarm am HLR – eventuell ein Fehlalarm. Gleichzeitig gab es aber auch Ausfälle an vielen Systemen des Clusters. Genaues wird gerade geklärt.

Details

Der Kurzschluss ist in einem sog. Abgangskasten aufgetreten und hat den gesamten Nicht-USV-Bereich in L5|08 inaktiviert.

Die mit der unabhängigen Stromversorgung (USV) geschützten Rechner wie das HPC-Speichersystem und das Housing waren nicht betroffen, weswegen die meisten Systeme im Housing auch vorerst weiterliefen.

Durch den vom Kurzschluss und dem Lichtbogen erzeugten Rauch hat pflichtgemäß die Gaslöschanlage ausgelöst und den Serverraum mit Stickstoff/N2 geflutet.

Dabei entstehen sehr hoher Schalldruck und heftige Luftschwingungen, die alle herkömmlichen magnetischen Festplatten in Mitleidenschaft ziehen – das zur Erklärung, warum trotz USV einige Systeme im Housing beschädigt sein werden.

Nächste Schritte – Housing

Da der Serverraum ohne funktionierende Gaslöschanlage nicht betrieben werden darf, haben wir alle Systeme (Hochleistungsrechner und Housing) abschalten müssen.

Wann die GLA wieder befüllt und einsatzbereit sein wird, können wir im Moment nicht absehen – dann erst darf in L5|08 wieder Rechentechnik betrieben werden.

Nächste Schritte – HLR

Sowohl Stromschiene als auch Niederspannungs-Hauptverteiler (alles in 400 Volt und bis zu 2000 Ampere) müssen erst inspiziert und überprüft werden, bevor sie wieder in Betrieb gehen können.

Auch hier ist noch nicht absehbar, wann das und ggf. notwendig gewordene Reparaturen abgeschlossen sein werden.

Der Ausfall des Hochleistungsrechners wird also leider einige Zeit andauern.

Projekt- und Nutzungsanträge

Alle eingehenden Anträge werden bearbeitet, sobald der Hochleistungsrechner wieder verfügbar ist. Daher erfolgt auch keine Antwort oder Benachrichtigung über den Eingang bzw. die Bearbeitung der Anträge.