HyperPod fonctionnalités d'entraînement sans point de contrôle - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

HyperPod fonctionnalités d'entraînement sans point de contrôle

Consultez les pages suivantes pour en savoir plus sur les fonctionnalités de formation de l'entraînement sans point de contrôle.

Référentiels SageMaker HyperPod de formation Amazon Checkpointless

HyperPod la formation sans point de contrôle accélère le rétablissement en cas de panne de cluster dans les environnements de formation distribués à grande échelle grâce à des optimisations au niveau du framework. Ces optimisations sont fournies via une image de conteneur de base qui inclut des améliorations améliorées de l'initialisation NCCL, des optimisations du chargement des données et des composants de restauration en cours de processus et sans point de contrôle. Le programme de formation HyperPod Checkpointless repose sur cette base.

L'entraînement sans point de contrôle est activé via trois pistes d'optimisation exécutées de concert :

  • Améliorations de l'initialisation des communications (NCCL et Gloo) - Éliminez les obstacles à la communication en décentralisant les informations relatives au rang, aux pairs et à la sonnerie (encadré rouge ci-dessous).

  • Optimisations du chargement des données - Réduisez le temps nécessaire pour traiter le premier lot de données lors des opérations de redémarrage (encadrés orange ci-dessous).

  • Réduction des frais de redémarrage des programmes - Minimisez les coûts de redémarrage et permettez un réapprovisionnement sans point de contrôle grâce à la restauration des processus sur des nœuds sains (encadrés bleus et verts ci-dessous).