Registra rotaciones de Slurm - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Registra rotaciones de Slurm

SageMaker HyperPod proporciona una rotación automática de registros para los registros de los daemon de Slurm para ayudar a administrar el uso del espacio en disco y mantener el rendimiento del sistema. La rotación de registros es crucial para evitar que los registros consuman demasiado espacio en el disco y garantizar un funcionamiento óptimo del sistema, ya que archiva y elimina automáticamente los archivos de registro antiguos y, al mismo tiempo, conserva la información de registro reciente. Las rotaciones de registros de Slurm están habilitadas de forma predeterminada al crear un clúster.

Cómo funciona la rotación de registros

Cuando está habilitada, la configuración de rotación de registros:

  • Supervisa todos los archivos de registro de Slurm con la extensión .log ubicada en la /var/log/slurm/ carpeta de los nodos de controlador, inicio de sesión y cómputo.

  • Rota los registros cuando alcanzan un tamaño de 50 MB.

  • Mantiene hasta dos archivos de registro rotados antes de eliminarlos.

  • Envía SIGUSR2 una señal a los demonios de Slurm (slurmctldslurmd, y) tras la rotación. slurmdbd

Lista de archivos de registro rotados

Los registros de Slurm se encuentran en el directorio. /var/log/slurm/ La rotación de registros está habilitada para todos los archivos que coincidan. /var/log/slurm/*.log Cuando se produce la rotación, los archivos girados tienen sufijos numéricos (por ejemplo,). slurmd.log.1 La siguiente lista no es exhaustiva, pero muestra algunos de los archivos de registro críticos que giran automáticamente:

  • /var/log/slurm/slurmctld.log

  • /var/log/slurm/slurmd.log

  • /var/log/slurm/slurmdb.log

  • /var/log/slurm/slurmrestd.log

Habilite o deshabilite la rotación de registros

Puede controlar la función de rotación de registros mediante el enable_slurm_log_rotation parámetro del config.py script de los scripts del ciclo de vida del clúster, como se muestra en el siguiente ejemplo:

class Config: # Set false if you want to disable log rotation of Slurm daemon logs enable_slurm_log_rotation = True # Default value

Para deshabilitar la rotación de registros, defina el parámetro enFalse, como se muestra en el siguiente ejemplo:

enable_slurm_log_rotation = False
nota

Los scripts del ciclo de vida se ejecutan en todos los nodos de Slurm (nodos de controlador, inicio de sesión y procesamiento) durante la creación del clúster. También se ejecutan en nodos nuevos cuando se agregan al clúster. La actualización de las configuraciones de rotación de registros debe realizarse manualmente después de la creación del clúster. La configuración de rotación del registro se almacena en/etc/logrotate.d/sagemaker-hyperpod-slurm. Se recomienda mantener habilitada la rotación de registros para evitar que los archivos de registro consuman demasiado espacio en disco. Para deshabilitar la rotación de registros, elimine el sagemaker-hyperpod-slurm archivo o comente su contenido añadiéndolo # al principio de cada línea del sagemaker-hyperpod-slurm archivo.

Configuración de rotación de registros predeterminada

Los siguientes ajustes se configuran automáticamente para cada archivo de registro que se rota:

Opción Valor Description (Descripción)
rotate 2 Número de archivos de registro rotados que se deben conservar
size 50 MB Tamaño máximo antes de la rotación
copytruncate enabled Copia y trunca el archivo de registro original
compress disabled Los registros rotados no se comprimen
missingok enabled No hay error si falta el archivo de registro
notifempty enabled No gira los archivos vacíos
noolddir enabled Los archivos rotados permanecen en el mismo directorio