Ausfall TURZ-L5|08 nach Brand an Stromschiene [Update 2025-04-14]

Betroffen sind Lichtenberg-HLR sowie Housing

25.03.2025

Aufgrund eines Brandes am Stromschienensystem musste der Serverraum TURZ-L5|08 vom Stromnetz genommen werden. Der Betrieb der Netzwerkinfrastruktur, des Hochleistungsrechners sowie der Server der Institute, Fachgebiete bzw. Einrichtungen im Housingbereich konnte daher nicht mehr aufrechterhalten werden.

Update 2025-04-14

Der Lichtenberg Cluster ist jetzt wieder in einem Teilbetrieb. Alle Queues sind aktiviert, allerdings sind fast nur Knoten der Ausbaustufe 1 (i01) in Betrieb. Die Teile der Stromschiene, die die Ausbaustufe 2 versorgt haben, sind beschädigt, und können nicht genutzt werden.
Bei den Ressourcenanforderungen für Rechenjobs sollte daher berücksichtigt werden, dass momentan nur Computeknoten mit 96 Kernen, sowie GPU Knoten mit V100, A100 und PVC Karten verfügbar sind.

Update 2025-04-11

Die rechtlich vorgeschriebene Abnahme der Stromschienenüberprüfung kann leider erst im Laufe des Montags erfolgen. Ein genauer Termin zur Stromanschaltung kann nur nach erfolgter Abnahme festgelegt werden, die Bekanntgabe erfolgt dann unmittelbar danach hier und über die Mailingliste [HPC-Nutzer].

Update 2025-04-08

Termin bestätigt: Lieferung und Anschluss der Löschgasflaschen erfolgt nun am Dienstag, 15. April.

Der 2000A-Leistungsschalter, der die Haupt-Stromschiene im Serverraum absichert (und beim Kurzschluss ausgelöst hat) ist bereits überprüft und muss nicht ausgetauscht werden.

Mittwoch dieser Woche beginnt die Demontage der betroffenen/beschädigten Segmente der Stromschiene, und die Überprüfung der verbleibenden Segmente mittels Isolationsmessung.

Sollte all das ohne Beanstandungen verlaufen, ist der unten bereits angekündigte voraussichtliche Termin zur Teil-Wiederinbetriebnahme im Laufe der nächsten Woche weiterhin zu halten.

Update 2025-04-01

Wir planen den nächsten temporären Cluster-Datenzugriff am 2. 4. und 8. 4. ungefähr von 9 bis 16 Uhr zu ermöglichen. An diesen Tagen werden die Loginknoten
lcluster1.hrz.tu-darmstadt.de lcluster2.hrz.tu-darmstadt.de
lcluster13.hrz.tu-darmstadt.de lcluster14.hrz.tu-darmstadt.de

verfügbar sein.

Zugriff besteht nur zum Kopieren/Sichern von Dateien (Daten und/oder Code). Rechenjobs können weder abgeschickt noch eingesehen bzw. abgefragt werden, da alle Rechenknoten ausgeschaltet sind.

Update 2025-03-29

Arbeiten an der Stromversorgung sind vom 9.-11.4. geplant. Daher gehen wir unter Vorbehalt von einer Wiederaufnahme des Housings und eines Teilbetriebs des Lichtenberg Hochleistungsrechners in der Woche vom 14.-18.4. aus.

Update 2025-03-26

Wir arbeiten mit unserem Dienstleister für Elektrotechnik mit Hochdruck an einer Lösung zur zeitweisen Stromversorgung der Systeme im Housing und des HLR-Storage, um ein Kopieren von Daten zu ermöglichen.

Dies wird nur während normaler Bürozeiten möglich sein, da bis zur Auffüllung/Ersetzung der Gaslöschanlage eine Brandwache vor Ort notwendig ist.

Zusammen mit der RWTH Aachen planen wir außerdem eine Ausweichmöglichkeit für Rechenjobs auf die dortigen Systeme.

2025-03-25

Eine Wiederinbetriebnahme wird erst nach der Instandsetzung des Stromsystems und der Feuerlöschanlage möglich sein. Die Housingkunden werden im Laufe des Vormittags separat informiert – der Serverraum ist freigegeben und Zugang zu Ihren Systemen möglich.

Wenn Sie vom Ausfall betroffen sind, können Sie sich aber auch proaktiv über den HRZ-Service, Tel. 16-71112 melden.