Comment fonctionne le point de contrôle hiérarchisé géré Avantages

HyperPod point de contrôle hiérarchisé géré

Cette section explique le fonctionnement du point de contrôle hiérarchisé géré et les avantages qu'il apporte pour la formation de modèles à grande échelle.

Le point de contrôle hiérarchisé SageMaker HyperPod géré par Amazon vous permet de former plus efficacement des modèles d'IA générative à grande échelle. Il utilise plusieurs niveaux de stockage, y compris la mémoire CPU de votre cluster. Cette approche réduit votre temps de récupération et minimise les pertes de progression de l’entraînement. Elle utilise également des ressources de mémoire sous-utilisées dans votre infrastructure d’entraînement.

Le point de contrôle hiérarchisé géré permet d'enregistrer les points de contrôle à une fréquence plus élevée dans la mémoire. Il les conserve périodiquement dans un stockage durable. Cela permet de maintenir à la fois les performances et la fiabilité au cours de votre processus d’entraînement.

Ce guide explique comment configurer, configurer et utiliser le point de contrôle hiérarchisé géré avec des PyTorch frameworks sur des clusters Amazon EKS HyperPod .

Comment fonctionne le point de contrôle hiérarchisé géré

Le point de contrôle hiérarchisé géré utilise une approche de stockage multiniveau. La mémoire CPU sert de niveau principal pour stocker les points de contrôle du modèle. Les niveaux secondaires incluent des options de stockage permanent telles qu’Amazon S3.

Lorsque vous enregistrez un point de contrôle, le système le stocke dans l’espace mémoire alloué sur les nœuds de votre cluster. Il réplique automatiquement les données sur les nœuds de calcul adjacents pour renforcer la fiabilité. Cette stratégie de réplication protège contre les défaillances d’un ou de plusieurs nœuds tout en fournissant un accès rapide pour les opérations de récupération.

Le système enregistre également régulièrement les points de contrôle dans le stockage permanent en fonction de votre configuration. Cela garantit la durabilité à long terme de votre progression d’entraînement.

Les composants clés sont les suivants :

Système de gestion de la mémoire : démon de gestion de mémoire qui fournit de la mémoire désagrégée en tant que service pour le stockage des points de contrôle.
HyperPod Bibliothèque Python : interface avec le stockage désagrégé APIs et fournit des utilitaires pour enregistrer, charger et gérer les points de contrôle à tous les niveaux
Réplication des points de contrôle : réplique automatiquement les points de contrôle sur plusieurs nœuds pour garantir la tolérance aux pannes.

Le système s'intègre parfaitement aux boucles d' PyTorch entraînement par le biais de simples appels d'API. Cela nécessite des modifications minimales de votre code existant.

Avantages

Le point de contrôle hiérarchisé géré offre plusieurs avantages pour la formation de modèles à grande échelle :

Facilité d’utilisation améliorée : gère l’enregistrement, la réplication, la persistance et la récupération des points de contrôle.
Opérations de point de contrôle plus rapides : le stockage basé sur la mémoire permet des temps d’enregistrement et de chargement plus rapides que les points de contrôle sur disque, ce qui permet une récupération plus rapide.
Tolérance aux pannes : la réplication automatique des points de contrôle entre les nœuds protège contre les défaillances matérielles des nœuds.
Changements de code minimaux : l’intégration simple des API ne nécessite que des modifications mineures aux scripts d’entraînement existants.
Débit d’entraînement amélioré : la réduction des frais liés aux points de contrôle signifie plus de temps consacré à l’entraînement proprement dit.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Suppression d’un cluster

Configuration