Slurm registra le rotazioni - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Slurm registra le rotazioni

SageMaker HyperPod fornisce la rotazione automatica dei log dei daemon Slurm per aiutare a gestire l'utilizzo dello spazio su disco e mantenere le prestazioni del sistema. La rotazione dei log è fondamentale per evitare che i log consumino uno spazio eccessivo su disco e garantire un funzionamento ottimale del sistema archiviando e rimuovendo automaticamente i vecchi file di registro mantenendo al contempo le informazioni di registrazione recenti. Le rotazioni dei log di Slurm sono abilitate per impostazione predefinita quando si crea un cluster.

Come funziona la rotazione dei log

Se abilitata, la configurazione di rotazione dei log:

  • Monitora tutti i file di registro Slurm con l'estensione .log situata nella /var/log/slurm/ cartella sui nodi controller, login e calcolo.

  • Ruota i log quando raggiungono una dimensione di 50 MB.

  • Mantiene fino a due file di registro ruotati prima di eliminarli.

  • Invia SIGUSR2 il segnale ai demoni Slurm (slurmctld, slurmd e) dopo la rotazione. slurmdbd

Elenco dei file di registro ruotati

I log di Slurm si trovano nella directory. /var/log/slurm/ La rotazione dei log è abilitata per tutti i file corrispondenti. /var/log/slurm/*.log Quando si verifica una rotazione, i file ruotati hanno suffissi numerici (ad esempio). slurmd.log.1 L'elenco seguente non è esaustivo ma mostra alcuni dei file di registro critici che ruotano automaticamente:

  • /var/log/slurm/slurmctld.log

  • /var/log/slurm/slurmd.log

  • /var/log/slurm/slurmdb.log

  • /var/log/slurm/slurmrestd.log

Abilita o disabilita la rotazione dei log

È possibile controllare la funzionalità di rotazione dei log utilizzando il enable_slurm_log_rotation parametro nello config.py script degli script del ciclo di vita del cluster, come illustrato nell'esempio seguente:

class Config: # Set false if you want to disable log rotation of Slurm daemon logs enable_slurm_log_rotation = True # Default value

Per disabilitare la rotazione dei log, imposta il parametro suFalse, come mostrato nell'esempio seguente:

enable_slurm_log_rotation = False
Nota

Gli script del ciclo di vita vengono eseguiti su tutti i nodi Slurm (controller, login e nodi di calcolo) durante la creazione del cluster. Vengono eseguiti anche su nuovi nodi quando vengono aggiunti al cluster. L'aggiornamento delle configurazioni di rotazione dei log deve essere eseguito manualmente dopo la creazione del cluster. La configurazione della rotazione dei log è memorizzata in/etc/logrotate.d/sagemaker-hyperpod-slurm. Si consiglia di mantenere abilitata la rotazione dei log per evitare che i file di registro consumino troppo spazio su disco. Per disabilitare la rotazione dei log, elimina il sagemaker-hyperpod-slurm file o commentane il contenuto aggiungendolo # all'inizio di ogni riga del sagemaker-hyperpod-slurm file.

Impostazioni predefinite di rotazione dei registri

Le seguenti impostazioni vengono configurate automaticamente per ogni file di registro ruotato:

Impostazione Valore Description
rotate 2 Numero di file di registro ruotati da conservare
size 50 MB Dimensione massima prima della rotazione
copytruncate abilitato Copia e tronca il file di registro originale
compress disabled I log ruotati non vengono compressi
missingok abilitato Nessun errore se manca il file di registro
notifempty abilitato Non ruota i file vuoti
noolddir abilitato I file ruotati rimangono nella stessa directory