Création d’un cluster SageMaker HyperPod avec l’orchestration Amazon EKS
Le didacticiel suivant explique comment créer un nouveau cluster SageMaker HyperPod et le configurer avec l’orchestration Amazon EKS via l’interface utilisateur de la console SageMaker AI.
Dans cette rubrique :
Créer un cluster
Pour accéder à la page Clusters SageMaker HyperPod et choisir l’orchestration Amazon EKS, procédez comme suit.
Ouvrez la console Amazon SageMaker AI à l’adresse https://console.aws.amazon.com/sagemaker/
. -
Choisissez Clusters HyperPod dans le volet de navigation de gauche, puis Gestion des clusters.
-
Sur la page Clusters SageMaker HyperPod, choisissez Création d’un cluster HyperPod.
-
Dans le menu déroulant Création d’un cluster HyperPod, choisissez Orchestré par Amazon EKS.
-
Sur la page de création du cluster EKS, vous verrez deux options. Choisissez celle qui correspond le mieux à vos besoins.
-
Configuration rapide : pour commencer immédiatement avec les paramètres par défaut, choisissez Configuration rapide. Avec cette option, SageMaker AI créera de nouvelles ressources telles que le VPC, les sous-réseaux, les groupes de sécurité, le compartiment Amazon S3, le rôle IAM et FSx pour Lustre lors de la création de votre cluster.
-
Configuration personnalisée : pour intégrer des ressources AWS existantes ou pour respecter des exigences spécifiques de mise en réseau, de sécurité ou de stockage, choisissez Configuration personnalisée. Avec cette option, vous pouvez choisir d’utiliser les ressources existantes ou d’en créer de nouvelles, et vous pouvez personnaliser la configuration qui répond le mieux à vos besoins.
-
Dans la section Configuration rapide, suivez ces étapes pour créer votre cluster HyperPod avec l’orchestration Amazon EKS.
Paramètres généraux
Attribuez un nom au nouveau cluster. Vous ne pourrez pas modifier le nom après la création du cluster.
Groupes d’instances
Pour ajouter un groupe d’instances, choisissez Ajouter un groupe. Chaque groupe d’instances peut être configuré différemment et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d’instances avec divers types d’instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d’instances. Procédez comme suit pour ajouter un groupe d’instances.
-
Pour Type de groupe d’instances, choisissez Standard ou Groupe d’instances restreint (RIG). Généralement, vous choisissez Standard, qui fournit un environnement informatique à usage général sans restrictions de sécurité supplémentaires. Groupe d’instances restreint (RIG) est un environnement spécialisé pour la personnalisation de modèles de fondation tels qu’Amazon Nova. Pour plus d’informations sur la configuration d’un RIG pour la personnalisation du modèle Amazon Nova, consultez Personnalisation d’Amazon Nova sur Amazon SageMaker HyperPod.
-
Pour Nom, spécifiez le nom du groupe d’instances.
-
Pour Capacité de l’instance, choisissez une capacité à la demande ou un plan d’entraînement pour réserver vos ressources de calcul.
-
Pour Type d’instance, choisissez l’instance pour le groupe d’instances.
Important
Veillez à choisir un type d’instance doté de quotas suffisants et suffisamment d’adresses IP non attribuées pour votre compte. Pour consulter ou demander des quotas supplémentaires, consultez Quotas SageMaker HyperPod.
-
Pour Quantité d’instances, spécifiez un entier ne dépassant pas le quota d’instances pour l’utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.
-
Pour Zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront provisionnées. La zone de disponibilité doit correspondre à l’emplacement de votre capacité de calcul accélérée.
-
Pour Autre volume de stockage par instance (Go) – facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d’un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d’instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est
/opt/sagemaker. Une fois le cluster créé avec succès, vous pouvez accéder par SSH aux instances du cluster (nœuds) et vérifier si le volume EBS est correctement monté en exécutant la commandedf -h. L’attachement d’un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section Volumes Amazon EBS du Guide de l’utilisateur Amazon Elastic Block Store. -
Pour Vérifications de surveillance approfondie de l’état des instances, choisissez votre option. Des vérifications de surveillance approfondie de l’état surveillent l’état des instances lors de leur création et après les mises à jour logicielles. Elles permettent de récupérer automatiquement les instances défectueuses par le biais de redémarrages ou de remplacements lorsqu’elles sont activées.
-
Choisissez Ajouter un groupe d’instances.
Paramètres par défaut de configuration rapide
Cette section répertorie tous les paramètres par défaut pour la création de votre cluster, y compris toutes les nouvelles ressources AWS qui seront créées au cours du processus de création du cluster. Passez en revue les paramètres par défaut.
Dans la section Configuration personnalisée, suivez ces étapes pour créer votre premier cluster HyperPod avec l’orchestration Amazon EKS.
Paramètres généraux
Attribuez un nom au nouveau cluster. Vous ne pourrez pas modifier le nom après la création du cluster.
Pour Restauration d’instance, choisissez Automatique – recommandé ou Aucun.
Réseaux
Configurez les paramètres réseau au sein du cluster et à l’entrée et à la sortie du cluster. Pour l’orchestration du cluster SageMaker HyperPod avec Amazon EKS, le VPC est automatiquement défini sur celui configuré avec le cluster EKS que vous avez sélectionné.
-
Pour VPC, choisissez votre propre VPC si vous en avez déjà un qui permet à SageMaker AI d’accéder à votre VPC. Pour créer un nouveau VPC, suivez les instructions de la section Création d’un VPC dans le Guide de l’utilisateur Amazon Virtual Private Cloud. Vous pouvez laisser la valeur Aucun pour utiliser le VPC SageMaker AI par défaut.
-
Pour Bloc CIDR IPv4 du VPC, entrez l’adresse IP de départ de votre VPC.
-
Pour Zones de disponibilité, choisissez les zones de disponibilité (AZ) dans lesquelles HyperPod créera des sous-réseaux pour votre cluster. Choisissez des AZ correspondant à l’emplacement de votre capacité de calcul accéléré.
-
Pour Groupe(s) de sécurité, choisissez les groupes de sécurité attachés au cluster Amazon EKS ou dont le trafic entrant est autorisé par le groupe de sécurité associé au cluster Amazon EKS. Pour créer de nouveaux groupes de sécurité, accédez à la console Amazon VPC.
Orchestration
Suivez ces étapes pour créer ou sélectionner un cluster Amazon EKS à utiliser comme orchestrateur.
-
Pour Cluster EKS, choisissez de créer un nouveau cluster Amazon EKS ou d’utiliser un cluster existant.
Si vous devez créer un nouveau cluster EKS, vous pouvez le créer à partir de la section Cluster EKS sans avoir à ouvrir la console Amazon EKS.
Note
Le sous-réseau VPC que vous choisissez pour HyperPod doit être privé.
Après avoir soumis une nouvelle demande de création de cluster EKS, attendez que le cluster EKS devienne
Active. -
Pour Version de Kubernetes, choisissez une version dans le menu déroulant. Pour plus d’informations sur les versions de Kubernetes, consultez Comprendre le cycle de vie des versions de Kubernetes sur EKS dans le Guide de l’utilisateur Amazon EKS.
-
Pour Opérateurs, choisissez Utiliser les graphiques Helm et les modules complémentaires par défaut ou N’installez pas d’opérateurs. L’option par défaut est Utiliser les graphiques Helm et les modules complémentaires par défaut, qui sera utilisée pour installer les opérateurs sur le cluster EKS. Pour plus d’informations sur les Charts de Helm par défaut et les modules complémentaires, consultez
helm_chartdans le référentiel GitHub. Pour plus d’informations, consultez Installation de packages sur le cluster Amazon EKS à l’aide de Helm. -
Pour Opérateurs activés, consultez la liste des opérateurs activés. Pour modifier les opérateurs, décochez la case en haut et choisissez les opérateurs à activer pour le cluster EKS.
Note
Pour utiliser HyperPod avec EKS, vous devez installer des Charts de Helm et des modules complémentaires qui activent les opérateurs sur le cluster EKS. Ces composants configurent EKS comme plan de contrôle pour HyperPod et fournissent la configuration nécessaire à la gestion et à l’orchestration des charges de travail.
Groupes d’instances
Pour ajouter un groupe d’instances, choisissez Ajouter un groupe. Chaque groupe d’instances peut être configuré différemment et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d’instances avec divers types d’instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d’instances. Procédez comme suit pour ajouter un groupe d’instances.
-
Pour Type de groupe d’instances, choisissez Standard ou Groupe d’instances restreint (RIG). Généralement, vous choisissez Standard, qui fournit un environnement informatique à usage général sans restrictions de sécurité supplémentaires. Groupe d’instances restreint (RIG) est un environnement spécialisé pour la personnalisation de modèles de fondation tels qu’Amazon Nova. Pour plus d’informations sur la configuration d’un RIG pour la personnalisation du modèle Amazon Nova, consultez Personnalisation d’Amazon Nova sur Amazon SageMaker HyperPod.
-
Pour Nom, spécifiez le nom du groupe d’instances.
-
Pour Capacité de l’instance, choisissez une capacité à la demande ou un plan d’entraînement pour réserver vos ressources de calcul.
-
Pour Type d’instance, choisissez l’instance pour le groupe d’instances.
Important
Veillez à choisir un type d’instance doté de quotas suffisants et suffisamment d’adresses IP non attribuées pour votre compte. Pour consulter ou demander des quotas supplémentaires, consultez Quotas SageMaker HyperPod.
-
Pour Quantité d’instances, spécifiez un entier ne dépassant pas le quota d’instances pour l’utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.
-
Pour Zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront provisionnées. La zone de disponibilité doit correspondre à l’emplacement de votre capacité de calcul accélérée.
-
Pour Autre volume de stockage par instance (Go) – facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d’un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d’instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est
/opt/sagemaker. Une fois le cluster créé avec succès, vous pouvez accéder par SSH aux instances du cluster (nœuds) et vérifier si le volume EBS est correctement monté en exécutant la commandedf -h. L’attachement d’un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section Volumes Amazon EBS du Guide de l’utilisateur Amazon Elastic Block Store. -
Pour Vérifications de surveillance approfondie de l’état des instances, choisissez votre option. Des vérifications de surveillance approfondie de l’état surveillent l’état des instances lors de leur création et après les mises à jour logicielles. Elles permettent de récupérer automatiquement les instances défectueuses par le biais de redémarrages ou de remplacements lorsqu’elles sont activées. Pour en savoir plus, consultez Vérifications de surveillance approfondie de l’état
-
Choisissez Ajouter un groupe d’instances.
Scripts de cycle de vie
Vous pouvez choisir d’utiliser les scripts de cycle de vie par défaut ou les scripts de cycle de vie personnalisés, qui seront stockés dans votre compartiment Amazon S3. Vous pouvez consulter les scripts de cycle de vie par défaut dans le référentiel GitHub Awsome Distributed Training
-
Pour Scripts de cycle de vie, choisissez d’utiliser des scripts de cycle de vie par défaut ou personnalisés.
-
Pour Compartiment S3 pour les scripts de cycle de vie, choisissez de créer un nouveau compartiment ou d’utiliser un compartiment existant pour stocker les scripts de cycle de vie.
Autorisations
Choisissez ou créez un rôle IAM qui autorise HyperPod à exécuter les ressources AWS nécessaires et à y accéder en votre nom. Pour plus d’informations, consultez Rôle IAM pour SageMaker HyperPod.
Stockage
Configurez le système de fichiers FSx pour Lustre à provisionner sur le cluster HyperPod.
-
Pour Système de fichiers, choisissez un système de fichiers FSx pour Lustre existant, pour créer un nouveau système de fichiers FSx pour Lustre, ou ne provisionnez pas de système de fichiers FSx pour Lustre.
-
Pour Débit par unité de stockage, choisissez le débit qui sera disponible par Tio de stockage provisionné.
-
Pour Capacité de stockage, entrez une valeur de capacité en To.
-
Pour Type de compression des données, choisissez LZ4 pour activer la compression des données.
-
Pour Version Lustre, consultez la valeur recommandée pour les nouveaux systèmes de fichiers.
Balises - facultatif
Pour Balises - facultatif, ajoutez des paires clé/valeur au nouveau cluster et gérez le cluster en tant que ressource AWS. Pour en savoir plus, consultez Balisage de vos ressources AWS.
Déployer les ressources
Après avoir terminé la configuration du cluster à l’aide de la configuration rapide ou de la configuration personnalisée, choisissez l’option suivante pour démarrer le provisionnement des ressources et la création du cluster.
-
Soumettre : SageMaker AI commencera à provisionner les ressources de configuration par défaut et à créer le cluster.
-
Télécharger les paramètres du modèle CloudFormation : vous allez télécharger le fichier JSON des paramètres de configuration et exécuter la commande AWS CLI pour déployer la pile CloudFormation afin de provisionner les ressources de configuration et de créer le cluster. Vous pouvez modifier le fichier JSON de paramètres téléchargés si nécessaire. Si vous choisissez cette option, consultez des instructions supplémentaires dans Création de clusters SageMaker HyperPod à l’aide de modèles CloudFormation.