Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Registra rotaciones de Slurm
SageMaker HyperPod proporciona una rotación automática de registros para los registros de los daemon de Slurm para ayudar a administrar el uso del espacio en disco y mantener el rendimiento del sistema. La rotación de registros es crucial para evitar que los registros consuman demasiado espacio en el disco y garantizar un funcionamiento óptimo del sistema, ya que archiva y elimina automáticamente los archivos de registro antiguos y, al mismo tiempo, conserva la información de registro reciente. Las rotaciones de registros de Slurm están habilitadas de forma predeterminada al crear un clúster.
Cómo funciona la rotación de registros
Cuando está habilitada, la configuración de rotación de registros:
-
Supervisa todos los archivos de registro de Slurm con la extensión
.logubicada en la/var/log/slurm/carpeta de los nodos de controlador, inicio de sesión y cómputo. -
Rota los registros cuando alcanzan un tamaño de 50 MB.
-
Mantiene hasta dos archivos de registro rotados antes de eliminarlos.
-
Envía SIGUSR2 una señal a los demonios de Slurm (
slurmctldslurmd, y) tras la rotación.slurmdbd
Lista de archivos de registro rotados
Los registros de Slurm se encuentran en el directorio. /var/log/slurm/ La rotación de registros está habilitada para todos los archivos que coincidan. /var/log/slurm/*.log Cuando se produce la rotación, los archivos girados tienen sufijos numéricos (por ejemplo,). slurmd.log.1 La siguiente lista no es exhaustiva, pero muestra algunos de los archivos de registro críticos que giran automáticamente:
-
/var/log/slurm/slurmctld.log -
/var/log/slurm/slurmd.log -
/var/log/slurm/slurmdb.log -
/var/log/slurm/slurmrestd.log
Habilite o deshabilite la rotación de registros
Puede controlar la función de rotación de registros mediante el enable_slurm_log_rotation parámetro del config.py script de los scripts del ciclo de vida del clúster, como se muestra en el siguiente ejemplo:
class Config: # Set false if you want to disable log rotation of Slurm daemon logs enable_slurm_log_rotation = True # Default value
Para deshabilitar la rotación de registros, defina el parámetro enFalse, como se muestra en el siguiente ejemplo:
enable_slurm_log_rotation = False
nota
Los scripts del ciclo de vida se ejecutan en todos los nodos de Slurm (nodos de controlador, inicio de sesión y procesamiento) durante la creación del clúster. También se ejecutan en nodos nuevos cuando se agregan al clúster. La actualización de las configuraciones de rotación de registros debe realizarse manualmente después de la creación del clúster. La configuración de rotación del registro se almacena en/etc/logrotate.d/sagemaker-hyperpod-slurm. Se recomienda mantener habilitada la rotación de registros para evitar que los archivos de registro consuman demasiado espacio en disco. Para deshabilitar la rotación de registros, elimine el sagemaker-hyperpod-slurm archivo o comente su contenido añadiéndolo # al principio de cada línea del sagemaker-hyperpod-slurm archivo.
Configuración de rotación de registros predeterminada
Los siguientes ajustes se configuran automáticamente para cada archivo de registro que se rota:
| Opción | Valor | Description (Descripción) |
|---|---|---|
rotate |
2 | Número de archivos de registro rotados que se deben conservar |
size |
50 MB | Tamaño máximo antes de la rotación |
copytruncate |
enabled | Copia y trunca el archivo de registro original |
compress |
disabled | Los registros rotados no se comprimen |
missingok |
enabled | No hay error si falta el archivo de registro |
notifempty |
enabled | No gira los archivos vacíos |
noolddir |
enabled | Los archivos rotados permanecen en el mismo directorio |