Exécution d’entraînements distribués avec la bibliothèque SageMaker AI de parallélisme distribué des données

La bibliothèque SageMaker AI de parallélisme distribué des données (SMDDP) étend les capacités d’entraînement de SageMaker aux modèles de deep learning avec une efficacité de mise à l’échelle quasi-linéaire en fournissant des implémentations d’opérations de communication collective optimisées pour l’infrastructure AWS.

Lorsqu’ils entraînent de grands modèles de machine learning (ML), comme les grands modèles de langage (LLM) et les modèles de diffusion, sur un vaste jeu de données d’entraînement, les professionnels du ML utilisent des clusters d’accélérateurs et des techniques d’entraînement distribué afin de réduire le temps d’entraînement ou de résoudre les contraintes de mémoire pour les modèles qui ne tiennent pas dans la mémoire de chaque GPU. Les professionnels du ML commencent souvent par utiliser plusieurs accélérateurs sur une seule instance, puis les mettent à l’échelle vers des clusters d’instances à mesure que leurs exigences en matière de charge de travail augmentent. Quand la taille des clusters augmente, la surcharge de communication entre les différents nœuds augmente elle aussi, ce qui entraîne une baisse globale des performances de calcul.

Pour résoudre ces problèmes de surcharge et de mémoire, la bibliothèque SMDDP propose les solutions suivantes.

La bibliothèque SMDDP optimise les tâches d’entraînement pour l’infrastructure réseau AWS et la topologie d’instances de ML Amazon SageMaker AI.
La bibliothèque SMDDP améliore la communication entre les nœuds avec des implémentations d’opérations de communication collective AllReduce et AllGather optimisées pour l’infrastructure AWS.

Pour plus de détails sur ce que proposent les bibliothèques SMDDP, consultez Présentation de la bibliothèque SageMaker AI de parallélisme distribué des données.

Pour plus d’informations sur l’entraînement avec la stratégie de parallélisme des modèles proposée par SageMaker AI, consultez étalement (Archivé) Bibliothèque SageMaker de parallélisme des modèles v1.x.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mise à l’échelle d’un entraînement

Présentation de la bibliothèque SMDDP