Exécuter une tâche d'entraînement distribués SageMaker avec un parallélisme de modèles - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exécuter une tâche d'entraînement distribués SageMaker avec un parallélisme de modèles

Découvrez comment exécuter une tâche d'entraînement de parallélisme de modèles de votre propre script d'entraînement à l'aide du kit SageMaker Python SDK avec la bibliothèque de parallélisme de modèles de SageMaker.

Il existe trois cas d'utilisation pour exécuter une tâche d'entraînement SageMaker.

  1. Vous pouvez utiliser l'un des conteneurs AWS Deep Learning Container préconçus pour TensorFlow et PyTorch. Cette option est recommandée si c'est la première fois que vous utilisez la bibliothèque de parallélisme de modèles. Pour obtenir un didacticiel expliquant comment exécuter une tâche d’entraînement de parallélisme des modèles SageMaker AI, consultez les exemples de blocs-notes sur l’entraînement PyTorch avec la bibliothèque Amazon SageMaker AI de parallélisme des modèles.

  2. Vous pouvez étendre les conteneurs préconçus pour gérer toutes les exigences fonctionnelles supplémentaires pour votre algorithme ou modèle que l'image Docker SageMaker prédéfinie ne prend pas en charge. Pour apprendre comment étendre un conteneur préconçu, consultez Extension d’un conteneur préconçu.

  3. À l’aide de la boîte à outils d’entraînement SageMaker, vous pouvez adapter votre propre conteneur Docker afin qu’il fonctionne avec SageMaker AI. Pour obtenir un exemple, consultez Adaptation de votre propre conteneur d'entraînement.

Pour les options 2 et 3 de la liste précédente, consultez Extension d'un conteneur Docker préconçu contenant la bibliothèque de parallélisme de modèles distribués de SageMaker pour savoir comment installer la bibliothèque de modèles parallèles dans un conteneur Docker étendu ou personnalisé.

Dans tous les cas, vous lancez votre tâche d'entraînement en configurant un estimateur TensorFlow ou PyTorch SageMaker pour activer la bibliothèque. Pour en savoir plus, consultez les rubriques suivantes.