Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Rotationen im Slurm-Protokoll
SageMaker HyperPod bietet automatische Protokollrotation für Slurm-Daemon-Logs, um die Speicherplatznutzung zu verwalten und die Systemleistung aufrechtzuerhalten. Die Rotation von Protokollen ist entscheidend, um zu verhindern, dass Protokolle übermäßig viel Speicherplatz beanspruchen, und um einen optimalen Systembetrieb zu gewährleisten, indem alte Protokolldateien automatisch archiviert und entfernt werden, während die aktuellen Protokollierungsinformationen beibehalten werden. Slurm-Protokollrotationen sind standardmäßig aktiviert, wenn Sie einen Cluster erstellen.
Wie funktioniert die Log-Rotation
Wenn diese Option aktiviert ist, gilt für die Konfiguration der Protokollrotation Folgendes:
-
Überwacht alle Slurm-Protokolldateien mit der Erweiterung, die
.logsich im/var/log/slurm/Ordner auf den Controller-, Anmelde- und Rechenknoten befinden. -
Dreht die Protokolle, wenn sie eine Größe von 50 MB erreichen.
-
Behält bis zu zwei rotierte Protokolldateien bei, bevor sie gelöscht werden.
-
Sendet nach der Rotation SIGUSR2 ein Signal an die Slurm-Daemons (
slurmctldslurmd, undslurmdbd).
Liste der rotierten Protokolldateien
Slurm-Logs befinden sich im /var/log/slurm/ Verzeichnis. Die Protokollrotation ist für alle /var/log/slurm/*.log übereinstimmenden Dateien aktiviert. Wenn eine Rotation stattfindet, haben rotierte Dateien numerische Suffixe (z. B.slurmd.log.1). Die folgende Liste erhebt keinen Anspruch auf Vollständigkeit, zeigt jedoch einige der kritischen Protokolldateien, die automatisch rotieren:
-
/var/log/slurm/slurmctld.log -
/var/log/slurm/slurmd.log -
/var/log/slurm/slurmdb.log -
/var/log/slurm/slurmrestd.log
Aktivieren oder deaktivieren Sie die Protokollrotation
Sie können die Funktion zur Protokollrotation mithilfe des enable_slurm_log_rotation Parameters im config.py Skript der Lifecycle-Skripten Ihres Clusters steuern, wie im folgenden Beispiel gezeigt:
class Config: # Set false if you want to disable log rotation of Slurm daemon logs enable_slurm_log_rotation = True # Default value
Um die Log-Rotation zu deaktivieren, setzen Sie den Parameter aufFalse, wie im folgenden Beispiel gezeigt:
enable_slurm_log_rotation = False
Anmerkung
Lifecycle-Skripten werden während der Clustererstellung auf allen Slurm-Knoten (Controller-, Anmelde- und Rechenknoten) ausgeführt. Sie werden auch auf neuen Knoten ausgeführt, wenn sie dem Cluster hinzugefügt werden. Die Aktualisierung der Protokollrotationskonfigurationen muss nach der Clustererstellung manuell erfolgen. Die Konfiguration der Protokollrotation ist in gespeichert/etc/logrotate.d/sagemaker-hyperpod-slurm. Wir empfehlen, die Protokollrotation aktiviert zu lassen, um zu verhindern, dass Protokolldateien übermäßig viel Speicherplatz beanspruchen. Um die Protokollrotation zu deaktivieren, löschen Sie die sagemaker-hyperpod-slurm Datei oder kommentieren Sie ihren Inhalt, indem Sie # am Anfang jeder Zeile in der sagemaker-hyperpod-slurm Datei etwas hinzufügen.
Standardeinstellungen für die Protokollrotation
Die folgenden Einstellungen werden automatisch für jede rotierte Protokolldatei konfiguriert:
| Einstellung | Wert | Description |
|---|---|---|
rotate |
2 | Anzahl der rotierten Protokolldateien, die aufbewahrt werden sollen |
size |
50 MB | Maximale Größe vor der Rotation |
copytruncate |
aktiviert | Kopiert und kürzt die ursprüngliche Protokolldatei |
compress |
disabled | Rotierte Protokolle werden nicht komprimiert |
missingok |
aktiviert | Kein Fehler, wenn die Protokolldatei fehlt |
notifempty |
aktiviert | Rotiert keine leeren Dateien |
noolddir |
aktiviert | Rotierte Dateien bleiben im selben Verzeichnis |