Behoben: Ausfall des cluster-weiten Filesystems
Der Fehler ist behoben, das System steht wieder zur Verfügung.
04.11.2024
+++ Update 17:00: Das Deadlock-Problem ließ sich nur durch (teilweise hartes) Neustarten diverser GPFS-Master- und aller Rechenknoten lösen. Dadurch sind leider alle Jobs abgebrochen worden, die zu diesem Zeitpunkt liefen. Falls Sie das nicht explizit (durch spezielle Parameter) unterbunden haben, wird der Scheduler solche abgebrochenen Jobs selbständig neu starten. +++
Heute vormittag hat das zentrale Filesystem des HPC begonnen, seinen Dienst zu quittieren und steht zur Zeit in Gänze nicht zur Verfügung.
Wir arbeiten mit Hochdruck und dem Hersteller an der Lösung des Problems, und bitten um Verständnis, dass im Moment noch keine Prognose möglich ist.