HLR: Auszeit für Arbeiten am Interconnect

2023-08-23 8:00 – 2023-08-24

23.08.2023

Für Umbauten an der Infiniband-Fabric des Clusters muss das System abgeschaltet werden.

Um die neue Ausbaustufe des Lichtenberg-Clusters optimal in den HPC-Interconnect (das Infiniband-Netzwerk) zu integrieren, muss dieser umkonfiguriert werden.

Als Herzstück des Clusters transportiert die Infiniband-Fabric nicht nur MPI-Daten zwischen Prozessen auf verschiedenen Rechenknoten, sondern auch den gesamten Verkehr von und zum Speichersystem.

Darum müssen die physischen Verbindungen zwischen allen (neu hinzukommenden) Rechenknoten untereinander und dem Speichersystem so ausbalanciert und symmetrisch wie möglich sein.

Sobald die Wartungsarbeiten beendet sind, informieren wir Sie wieder über die [HPC-Nutzer]-Mailingliste und in dieser HLR-News.

Hinsichtlich Ihrer Batch-Jobs brauchen Sie nichts zu unternehmen. Der Scheduler ist von der Auszeit informiert und wird wartende Jobs

  • nur dann noch starten, wenn sie sicher vor der Auszeit beendet werden können und
  • alle anderen erst nach der Auszeit regulär anlaufen lassen.