Störung: Ausfall der Kaltwasserkühlung – Notabschaltung
Update: Sensoren getauscht, Lichtenberg läuft wieder
16.06.2023
Freitag (16.6.) und Sonntag (18.6.): Ausfall der Kaltwasser/Luftkühlung – der HLR musste abgeschaltet werden
Update 2023-06-20
Die zwei Temperatur-Sensoren sind ausgetauscht, das Gerät läuft wieder mit voller Kapazität und der Lichtenberg-Cluster ist wieder hochgefahren worden.
Normalbetrieb wiederhergestellt.
Update 2023-06-19
Der fehlerhafte Sensor wird morgen früh getauscht (Dienstag). Bis zu dessen erfolgreichem Funktionstest haben wir vorerst nur das Storage und die Loginknoten aktiviert, keine Rechenknoten – daher laufen im Moment auch keine Jobs.
.
2023-06-16+18
Aufgrund von Sensorfehlern hat sich das Kältegerät für die Kaltwasser- bzw. Luftkühlung des HLR-Gebäudes abgeschaltet, und die Serverraum-Temperatur stieg auf bis zu 50°C.
Das erforderte die Notabschaltung des HPC- und des Storage-Systems.
Bis zur Klärung und künftigem sicherem Ausschluss des Problems bleibt der Lichtenberg-Cluster inklusive der Login-Knoten abgeschaltet.
Es ist also zur Zeit kein Login möglich.
Wir informieren, sowie wir mehr über Ursache und Behebung wissen.