Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exécution d'une tâche de formation sur HyperPod Slurm
SageMaker HyperPod Recipes soutient la soumission d'un poste de formation à un cluster de GPU/Trainium slurm. Avant de soumettre la tâche d’entraînement, mettez à jour la configuration du cluster. Utilisez l’une des méthodes suivantes pour mettre à jour la configuration du cluster :
-
Modifier
slurm.yaml -
Le remplacer via la ligne de commande
Après avoir mis à jour la configuration du cluster, installez l’environnement.
Configuration du cluster
Pour soumettre une tâche d’entraînement à un cluster Slurm, spécifiez la configuration spécifique à Slurm. Modifiez slurm.yaml pour configurer le cluster Slurm. Voici un exemple de configuration d’un cluster Slurm. Vous pouvez modifier ce fichier pour vos propres besoins d’entraînement :
job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
-
job_name_prefix: spécifiez un préfixe de nom de tâche pour identifier facilement vos soumissions au cluster Slurm. -
slurm_create_submission_file_only: définissez cette configuration sur True pour un test à blanc afin de faciliter le débogage. -
stderr_to_stdout: spécifiez si vous redirigez votre erreur standard (stderr) vers la sortie standard (stdout). -
srun_args: personnalisez des configurations srun supplémentaires, telles que l’exclusion de nœuds de calcul spécifiques. Pour plus d’informations, consultez la documentation srun. -
slurm_docker_cfg: Le lanceur de SageMaker HyperPod recettes lance un conteneur Docker pour exécuter votre tâche de formation. Vous pouvez spécifier des arguments Docker supplémentaires dans ce paramètre. -
container_mounts: spécifiez les volumes que vous montez dans le conteneur pour le lanceur de recettes, afin que vos tâches d’entraînement puissent accéder aux fichiers dans ces volumes.