Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exécution d'une tâche de formation sur HyperPod k8s
SageMaker HyperPod Recipes permet de soumettre une tâche de formation à un cluster GPU/Trainium Kubernetes. Avant de soumettre la tâche d’entraînement, effectuez l’une des opérations suivantes :
-
Modifier le fichier de configuration du cluster
k8s.yaml -
Remplacer la configuration du cluster via la ligne de commande
Après avoir effectué l’une des étapes précédentes, installez l’environnement correspondant.
Configuration du cluster en utilisant k8s.yaml
Pour soumettre une tâche d’entraînement à un cluster Kubernetes, vous devez spécifier des configurations spécifiques à Kubernetes. Ces configurations incluent l’espace de noms du cluster ou l’emplacement du volume persistant.
pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
-
pullPolicy: vous pouvez spécifier la politique d’extraction lorsque vous soumettez une tâche d’entraînement. Si vous spécifiez « Toujours », le cluster Kubernetes extrait toujours votre image du référentiel. Pour plus d’informations, consultez Politique d’extraction d’image. -
restartPolicy: spécifiez si vous souhaitez redémarrer votre tâche d’entraînement en cas d’échec. -
namespace: vous pouvez spécifier l’espace de noms Kubernetes dans lequel vous soumettez la tâche d’entraînement. -
persistent_volume_claims: vous pouvez spécifier un volume partagé pour votre tâche d’entraînement afin que tous les processus d’entraînement puissent accéder aux fichiers du volume.