Lancement de tâches d’entraînement distribué avec SMDDP à l’aide du kit SageMaker Python SDK

Pour exécuter une tâche d’entraînement distribué avec votre script adapté (voir Adaptation de votre script d’entraînement pour utiliser les opérations collectives SMDDP), utilisez le cadre du kit SageMaker Python SDK ou des estimateurs génériques en spécifiant le script d’entraînement préparé comme script de point d’entrée et la configuration d’entraînement distribué.

Cette page explique comment utiliser le kit SageMaker AI Python SDK de deux manières.

Si vous souhaitez adopter rapidement votre tâche d’entraînement distribué dans SageMaker AI, configurez une classe d’estimateur de cadre SageMaker AI PyTorch ou TensorFlow. L’estimateur de cadre récupère votre script d’entraînement et fait automatiquement correspondre l’URI d’image appropriée des conteneurs de deep learning (DLC) PyTorch ou TensorFlow prédéfinis, compte tenu de la valeur spécifiée pour le paramètre framework_version.
Si vous souhaitez étendre l’un des conteneurs prédéfinis ou créer un conteneur personnalisé pour créer votre propre environnement de ML avec SageMaker AI, utilisez la classe générique Estimator SageMaker AI et spécifiez l’URI d’image du conteneur Docker personnalisé hébergé dans Amazon Elastic Container Registry (Amazon ECR).

Vos jeux de données d’entraînement doivent se trouver dans Amazon S3 ou Amazon FSx pour Lustre dans la Région AWS dans laquelle vous lancez votre tâche d’entraînement. Si vous utilisez des blocs-notes Jupyter, vous devez disposer d’une instance de bloc-notes SageMaker ou d’une application SageMaker Studio Classic qui s’exécute dans la même Région AWS. Pour plus d’informations sur le stockage de vos données d’entraînement, consultez la documentation sur les entrées de données du kit SageMaker Python SDK.

Astuce

Nous vous recommandons vivement d’utiliser Amazon FSx pour Lustre au lieu d’Amazon S3 afin d’augmenter les performances d’entraînement. Le débit de Amazon FSx est plus élevé et sa latence inférieure à celle de Amazon S3.

Astuce

Pour que vous puissiez exécuter correctement un entraînement distribué sur les types d’instances compatibles EFA, vous devez activer le trafic entre les instances en configurant le groupe de sécurité de votre VPC afin d’autoriser tout le trafic entrant et sortant vers et depuis le groupe de sécurité proprement dit. Pour découvrir comment configurer les règles du groupe de sécurité, consultez Étape 1 : Préparer un groupe de sécurité activé pour les EFA dans le Guide de l’utilisateur Amazon EC2.

Sélectionnez l’une des rubriques suivantes pour obtenir des instructions sur la manière d’exécuter une tâche d’entraînement distribué de votre script d’entraînement. Après avoir lancé une tâche d’entraînement, vous pouvez contrôler l’utilisation du système et la performance du modèle à l’aide de SageMaker Débogueur Amazon ou d’Amazon CloudWatch.

En plus de suivre les instructions des rubriques suivantes pour en savoir plus sur les détails techniques, nous vous recommandons de consulter les Exemples de bibliothèque Amazon SageMaker AI de parallélisme des données pour démarrer.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

TensorFlow (obsolète)

Utilisation des estimateurs du cadre PyTorch dans le kit SageMaker Python SDK