Störung: Ausfall der Kaltwasserkühlung – Notabschaltung

Update: Sensoren getauscht, Lichtenberg läuft wieder

16.06.2023

Freitag (16.6.) und Sonntag (18.6.): Ausfall der Kaltwasser/Luftkühlung – der HLR musste abgeschaltet werden

Update 2023-06-20

Die zwei Temperatur-Sensoren sind ausgetauscht, das Gerät läuft wieder mit voller Kapazität und der Lichtenberg-Cluster ist wieder hochgefahren worden.

Normalbetrieb wiederhergestellt.

Update 2023-06-19

Der fehlerhafte Sensor wird morgen früh getauscht (Dienstag). Bis zu dessen erfolgreichem Funktionstest haben wir vorerst nur das Storage und die Loginknoten aktiviert, keine Rechenknoten – daher laufen im Moment auch keine Jobs.

.

2023-06-16+18

Aufgrund von Sensorfehlern hat sich das Kältegerät für die Kaltwasser- bzw. Luftkühlung des HLR-Gebäudes abgeschaltet, und die Serverraum-Temperatur stieg auf bis zu 50°C.

Das erforderte die Notabschaltung des HPC- und des Storage-Systems.

Bis zur Klärung und künftigem sicherem Ausschluss des Problems bleibt der Lichtenberg-Cluster inklusive der Login-Knoten abgeschaltet.

Es ist also zur Zeit kein Login möglich.

Wir informieren, sowie wir mehr über Ursache und Behebung wissen.