(Archivé) Bibliothèque SageMaker de parallélisme des modèles v1.x
Important
La bibliothèque SageMaker de parallélisme des modèles (SMP) v2 est publiée depuis le 19 décembre 2023. Au profit de la bibliothèque SMP v2, les capacité de SMP v1 ne seront plus prises en charge dans les prochaines versions. La section et les rubriques suivantes sont archivées et spécifiques à l’utilisation de la bibliothèque SMP v1. Pour plus d’informations sur l’utilisation de la bibliothèque SMP v2, consultez Bibliothèque SageMaker de parallélisme des modèles v2.
Utilisez la bibliothèque Amazon SageMaker AI de parallélisme des modèles pour entraîner de grands modèles de deep learning (DL) difficiles à entraîner en raison de limitations de la mémoire GPU. La bibliothèque divise un modèle automatiquement et efficacement sur plusieurs GPU et instances. À l'aide de la bibliothèque, vous pouvez obtenir une précision de prédiction cible plus rapidement en entraînant efficacement des modèles DL plus volumineux avec des milliards ou des trillions de paramètres.
Vous pouvez utiliser la bibliothèque pour partitionner automatiquement vos propres modèles TensorFlow et PyTorch sur plusieurs GPU et plusieurs nœuds avec des modifications de code minimales. Vous pouvez accéder à l'API de la bibliothèque via le kit SDK Python SageMaker.
Consultez les sections suivantes pour en savoir plus sur le parallélisme des modèles et la bibliothèque de modèles parallèles SageMaker. La documentation concernant l’API de cette bibliothèque se trouve sous Distributed Training APIs
Rubriques
Principales fonctions de la bibliothèque de parallélisme de modèles SageMaker
Exécuter une tâche d'entraînement distribués SageMaker avec un parallélisme de modèles
Point de contrôle et optimisation d'un modèle grâce au parallélisme de modèles
Exemples de la bibliothèque Amazon SageMaker AI de parallélisme des modèles v1
Bonnes pratiques concernant le parallélisme distribué des modèles SageMaker