Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
HyperPod fonctionnalités d'entraînement sans point de contrôle
Consultez les pages suivantes pour en savoir plus sur les fonctionnalités de formation de l'entraînement sans point de contrôle.
Rubriques
Référentiels SageMaker HyperPod de formation Amazon Checkpointless
HyperPod la formation sans point de contrôle
L'entraînement sans point de contrôle est activé via trois pistes d'optimisation exécutées de concert :
-
Améliorations de l'initialisation des communications (NCCL et Gloo) - Éliminez les obstacles à la communication en décentralisant les informations relatives au rang, aux pairs et à la sonnerie (encadré rouge ci-dessous).
-
Optimisations du chargement des données - Réduisez le temps nécessaire pour traiter le premier lot de données lors des opérations de redémarrage (encadrés orange ci-dessous).
-
Réduction des frais de redémarrage des programmes - Minimisez les coûts de redémarrage et permettez un réapprovisionnement sans point de contrôle grâce à la restauration des processus sur des nœuds sains (encadrés bleus et verts ci-dessous).