Exécution d’entraînements distribués avec la bibliothèque SageMaker AI de parallélisme distribué des données
La bibliothèque SageMaker AI de parallélisme distribué des données (SMDDP) étend les capacités d’entraînement de SageMaker aux modèles de deep learning avec une efficacité de mise à l’échelle quasi-linéaire en fournissant des implémentations d’opérations de communication collective optimisées pour l’infrastructure AWS.
Lorsqu’ils entraînent de grands modèles de machine learning (ML), comme les grands modèles de langage (LLM) et les modèles de diffusion, sur un vaste jeu de données d’entraînement, les professionnels du ML utilisent des clusters d’accélérateurs et des techniques d’entraînement distribué afin de réduire le temps d’entraînement ou de résoudre les contraintes de mémoire pour les modèles qui ne tiennent pas dans la mémoire de chaque GPU. Les professionnels du ML commencent souvent par utiliser plusieurs accélérateurs sur une seule instance, puis les mettent à l’échelle vers des clusters d’instances à mesure que leurs exigences en matière de charge de travail augmentent. Quand la taille des clusters augmente, la surcharge de communication entre les différents nœuds augmente elle aussi, ce qui entraîne une baisse globale des performances de calcul.
Pour résoudre ces problèmes de surcharge et de mémoire, la bibliothèque SMDDP propose les solutions suivantes.
-
La bibliothèque SMDDP optimise les tâches d’entraînement pour l’infrastructure réseau AWS et la topologie d’instances de ML Amazon SageMaker AI.
-
La bibliothèque SMDDP améliore la communication entre les nœuds avec des implémentations d’opérations de communication collective
AllReduceetAllGatheroptimisées pour l’infrastructure AWS.
Pour plus de détails sur ce que proposent les bibliothèques SMDDP, consultez Présentation de la bibliothèque SageMaker AI de parallélisme distribué des données.
Pour plus d’informations sur l’entraînement avec la stratégie de parallélisme des modèles proposée par SageMaker AI, consultez étalement (Archivé) Bibliothèque SageMaker de parallélisme des modèles v1.x.
Rubriques
Présentation de la bibliothèque SageMaker AI de parallélisme distribué des données
Cadres de travail, Régions AWS et types d’instances pris en charge
Entraînement distribué avec la bibliothèque SageMaker AI de parallélisme distribué des données
Exemples de bibliothèque Amazon SageMaker AI de parallélisme des données
Conseils de configuration pour la bibliothèque SageMaker AI de parallélisme distribué des données
Résolution des problèmes d’entraînement distribué dans Amazon SageMaker AI
Notes de mise à jour de la bibliothèque SageMaker AI de parallélisme des modèles