-
Ausfall TURZ-L5|08 nach Brand an Stromschiene [Update 2025-04-14]
25.03.2025
Betroffen sind Lichtenberg-HLR sowie Housing
Aufgrund eines Brandes am Stromschienensystem musste der Serverraum TURZ-L5|08 vom Stromnetz genommen werden. Der Betrieb der Netzwerkinfrastruktur, des Hochleistungsrechners sowie der Server der Institute, Fachgebiete bzw. Einrichtungen im Housingbereich konnte daher nicht mehr aufrechterhalten werden.
-
Vorbereitung der Umstellung auf RedHat EL 9
24.02.2025
Neue Hauptversion des Cluster-Betriebssystems
Einige Login- und Rechenknoten sind bereits auf RHEL 9.4 umgestellt
-
Behoben: Ausfall des cluster-weiten Filesystems
04.11.2024
Der Fehler ist behoben, das System steht wieder zur Verfügung.
+++ Update 17:00: Das Deadlock-Problem ließ sich nur durch (teilweise hartes) Neustarten diverser GPFS-Master- und aller Rechenknoten lösen. Dadurch sind leider alle Jobs abgebrochen worden, die zu diesem Zeitpunkt liefen. Falls Sie das nicht explizit (durch spezielle Parameter) unterbunden haben, wird der Scheduler solche abgebrochenen Jobs selbständig neu starten. +++
-
Neue Standards bei OpenMP- und hybriden Programmen
24.10.2024
Zwei neue Umgebungsvariablen für OMP
-
HLR und Housing in L5|08: Auszeit
30.09.2024
für Arbeiten an der Stromversorgung
Für die endgültige Reparatur der 2000A-Stromschiene des Serverraums muss das HPC-System abgeschaltet werden.
-
HLR-Störung infolge Ausfall des Kältesystems
05.05.2024
Störung ist inzwischen behoben und der HLR arbeitet wieder.