Rotationen im Slurm-Protokoll - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Rotationen im Slurm-Protokoll

SageMaker HyperPod bietet automatische Protokollrotation für Slurm-Daemon-Logs, um die Speicherplatznutzung zu verwalten und die Systemleistung aufrechtzuerhalten. Die Rotation von Protokollen ist entscheidend, um zu verhindern, dass Protokolle übermäßig viel Speicherplatz beanspruchen, und um einen optimalen Systembetrieb zu gewährleisten, indem alte Protokolldateien automatisch archiviert und entfernt werden, während die aktuellen Protokollierungsinformationen beibehalten werden. Slurm-Protokollrotationen sind standardmäßig aktiviert, wenn Sie einen Cluster erstellen.

Wie funktioniert die Log-Rotation

Wenn diese Option aktiviert ist, gilt für die Konfiguration der Protokollrotation Folgendes:

  • Überwacht alle Slurm-Protokolldateien mit der Erweiterung, die .log sich im /var/log/slurm/ Ordner auf den Controller-, Anmelde- und Rechenknoten befinden.

  • Dreht die Protokolle, wenn sie eine Größe von 50 MB erreichen.

  • Behält bis zu zwei rotierte Protokolldateien bei, bevor sie gelöscht werden.

  • Sendet nach der Rotation SIGUSR2 ein Signal an die Slurm-Daemons (slurmctldslurmd, undslurmdbd).

Liste der rotierten Protokolldateien

Slurm-Logs befinden sich im /var/log/slurm/ Verzeichnis. Die Protokollrotation ist für alle /var/log/slurm/*.log übereinstimmenden Dateien aktiviert. Wenn eine Rotation stattfindet, haben rotierte Dateien numerische Suffixe (z. B.slurmd.log.1). Die folgende Liste erhebt keinen Anspruch auf Vollständigkeit, zeigt jedoch einige der kritischen Protokolldateien, die automatisch rotieren:

  • /var/log/slurm/slurmctld.log

  • /var/log/slurm/slurmd.log

  • /var/log/slurm/slurmdb.log

  • /var/log/slurm/slurmrestd.log

Aktivieren oder deaktivieren Sie die Protokollrotation

Sie können die Funktion zur Protokollrotation mithilfe des enable_slurm_log_rotation Parameters im config.py Skript der Lifecycle-Skripten Ihres Clusters steuern, wie im folgenden Beispiel gezeigt:

class Config: # Set false if you want to disable log rotation of Slurm daemon logs enable_slurm_log_rotation = True # Default value

Um die Log-Rotation zu deaktivieren, setzen Sie den Parameter aufFalse, wie im folgenden Beispiel gezeigt:

enable_slurm_log_rotation = False
Anmerkung

Lifecycle-Skripten werden während der Clustererstellung auf allen Slurm-Knoten (Controller-, Anmelde- und Rechenknoten) ausgeführt. Sie werden auch auf neuen Knoten ausgeführt, wenn sie dem Cluster hinzugefügt werden. Die Aktualisierung der Protokollrotationskonfigurationen muss nach der Clustererstellung manuell erfolgen. Die Konfiguration der Protokollrotation ist in gespeichert/etc/logrotate.d/sagemaker-hyperpod-slurm. Wir empfehlen, die Protokollrotation aktiviert zu lassen, um zu verhindern, dass Protokolldateien übermäßig viel Speicherplatz beanspruchen. Um die Protokollrotation zu deaktivieren, löschen Sie die sagemaker-hyperpod-slurm Datei oder kommentieren Sie ihren Inhalt, indem Sie # am Anfang jeder Zeile in der sagemaker-hyperpod-slurm Datei etwas hinzufügen.

Standardeinstellungen für die Protokollrotation

Die folgenden Einstellungen werden automatisch für jede rotierte Protokolldatei konfiguriert:

Einstellung Wert Description
rotate 2 Anzahl der rotierten Protokolldateien, die aufbewahrt werden sollen
size 50 MB Maximale Größe vor der Rotation
copytruncate aktiviert Kopiert und kürzt die ursprüngliche Protokolldatei
compress disabled Rotierte Protokolle werden nicht komprimiert
missingok aktiviert Kein Fehler, wenn die Protokolldatei fehlt
notifempty aktiviert Rotiert keine leeren Dateien
noolddir aktiviert Rotierte Dateien bleiben im selben Verzeichnis