View a markdown version of this page

Conditions préalables à l'utilisation SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Conditions préalables à l'utilisation SageMaker HyperPod

Les sections suivantes vous présentent les prérequis avant de commencer SageMaker HyperPod.

SageMaker HyperPod quotas

Vous pouvez créer des SageMaker HyperPod clusters en fonction des quotas d'utilisation des clusters de votre AWS compte.

Important

Pour en savoir plus sur SageMaker HyperPod les tarifs, consultez SageMaker HyperPod tarification et Amazon SageMaker Pricing.

Consultez les SageMaker HyperPod quotas Amazon à l'aide du AWS Management Console

Recherchez les valeurs par défaut et appliquées d'un quota, également appelé limite, pour l'utilisation du cluster, qui est utilisé pour SageMaker HyperPod.

  1. Ouvrez la Service Quotas console.

  2. Dans le panneau de navigation de gauche, sélectionnez Services AWS .

  3. Dans la liste des AWS services, recherchez et sélectionnez Amazon SageMaker AI.

  4. Dans la liste des quotas de service, vous pouvez voir le nom du quota de service, la valeur appliquée (si elle est disponible), le quota AWS par défaut et si la valeur du quota est ajustable.

  5. Dans la barre de recherche, saisissez utilisation de clusters. Cela indique les quotas d’utilisation de clusters, les quotas appliqués et les quotas par défaut.

Liste des quotas de services courants pour créer un HyperPod cluster et de ses prérequis

Vous souhaiterez peut-être vérifier si vous avez demandé des augmentations de la limite de quota de service pour les quotas suivants afin de créer un nouveau HyperPod cluster, ainsi que des conditions préalables dans la console SageMaker AI. Accédez à la console Service Quota et recherchez les termes suivants.

Non Nom du quota Terme de recherche Description
1 Nombre maximum d'instances autorisées par SageMaker HyperPod cluster Sous SageMaker IA, recherchez « Nombre maximum d'instances autorisées par SageMaker HyperPod cluster » La valeur de quota au niveau de votre compte doit être supérieure au nombre d'instances que vous souhaitez ajouter à votre cluster
2 Taille maximale du volume EBS en Go pour une instance de SageMaker HyperPod cluster

Sous SageMaker AI, recherchez « Taille maximale du volume EBS en Go pour une instance de HyperPod cluster » 

La valeur de quota au niveau de votre compte doit être supérieure au volume EBS que vous souhaitez ajouter à votre cluster

3 Nombre total d'instances autorisées dans les SageMaker HyperPod clusters

Sous SageMaker IA, recherchez « Nombre total d'instances autorisées dans les SageMaker HyperPod clusters » 

La valeur de quota au niveau de votre compte doit être supérieure au nombre total d'instances que vous souhaitez ajouter dans l'ensemble de vos clusters de votre compte
4

Quotas d'instance 

Sous SageMaker IA, recherchez « ml. <instance_type>pour l'utilisation du cluster », par exemple : ml.p5.48xlarge pour l'utilisation du cluster

La valeur de quota au niveau du compte pour le type d'instance en question (par exemple : ml.p5.48xlarge) doit être supérieure au nombre d'instances à ajouter globalement à tous les clusters de votre compte.
5

VPC par région

Dans Amazon Virtual Private Cloud (Amazon VPC), recherchez « VPC par région » La valeur de quota au niveau du compte doit être suffisante pour créer un nouveau VPC dans le compte lors de la configuration de votre cluster. HyperPod Vérifiez si vous avez déjà épuisé cette limite de quota en vérifiant la console VPC. Cette augmentation de quota n'est nécessaire que si vous créez un nouveau VPC via l'option de configuration de cluster rapide ou personnalisée de la SageMaker HyperPod console.
6

Passerelles Internet par région

Dans Amazon Virtual Private Cloud (Amazon VPC), recherchez « Passerelles Internet par région »

La valeur de quota au niveau du compte doit être suffisante pour créer une passerelle Internet supplémentaire dans le compte lors de la configuration de votre SageMaker HyperPod cluster. Cette augmentation de quota n'est nécessaire que si vous créez un nouveau VPC via l'option de configuration de cluster rapide ou personnalisée de la SageMaker HyperPod console. 
7 Interfaces réseau par région Dans Amazon Virtual Private Cloud (Amazon VPC), recherchez « Interfaces réseau par région »

La valeur de quota au niveau de votre compte doit comporter suffisamment d'interfaces réseau dans le compte lors de la configuration de votre HyperPod cluster. 

8 EC2-VPC IP élastiques Dans Amazon Elastic Compute Cloud (Amazon EC2), recherchez EC2-VPC « Elastic IPs » La valeur de quota au niveau du compte doit être suffisante pour créer un nouveau VPC dans le compte lors de la configuration de votre cluster. HyperPod Vérifiez si vous avez déjà dépassé cette limite de quota en vérifiant la console VPC. Cette augmentation de quota n'est nécessaire que si vous créez un nouveau VPC via l'option de configuration de cluster rapide ou personnalisée de la SageMaker HyperPod console.

Demandez une augmentation du SageMaker HyperPod quota Amazon à l'aide du AWS Management Console

Augmentez vos quotas au niveau du compte ou de la ressource.

  1. Pour augmenter les quotas d’instances pour l’utilisation de clusters, sélectionnez les quotas que vous souhaitez augmenter.

  2. Si les quotas sont ajustables, vous pouvez demander une augmentation des quotas au niveau du compte ou au niveau des ressources en fonction de la valeur indiquée dans la colonne Ajustabilité.

  3. Pour Augmenter la valeur du quota, saisissez la nouvelle valeur. Elle doit être supérieure à la valeur actuelle.

  4. Cliquez sur Demander.

  5. Pour afficher les demandes en attente ou récemment résolues dans la console, accédez à l’onglet Historique des demandes depuis la page de détails du service ou choisissez Tableau de bord dans le volet de navigation. Pour les demandes en attente, choisissez l’état de la demande pour ouvrir le reçu de la demande. L’état initial d’une demande est Pending (En attente). Lorsque le statut passe au quota demandé, le numéro de dossier avec AWS Support. Choisissez le numéro de dossier pour ouvrir le billet pour votre demande.

Pour en avoir plus sur la demande d’une augmentation de quota en général, consultez Demande d’augmentation de quota dans le Guide de l’utilisateur AWS Service Quotas.

Configuration SageMaker HyperPod avec un Amazon VPC personnalisé

Pour configurer un SageMaker HyperPod cluster avec un Amazon VPC personnalisé, passez en revue les conditions préalables suivantes.

Note

La configuration de VPC est obligatoire pour l’orchestration d’Amazon EKS. Pour l’orchestration de Slurm, la configuration de VPC est facultative.

  • Validez la capacité de l'Elastic Network Interface (ENI) dans votre environnement Compte AWS avant de créer un SageMaker HyperPod cluster avec un VPC personnalisé. La limite ENI est contrôlée par Amazon EC2 et varie de. Région AWS SageMaker HyperPod ne peut pas demander automatiquement des augmentations de quotas.

    Pour vérifier votre quota ENI actuel :
    1. Ouvrez la Service Quotas console.

    2. Dans la section Gérer les quotas, utilisez la liste déroulante AWS Services pour rechercher un VPC.

    3. Choisissez de visualiser les quotas de Amazon Virtual Private Cloud (Amazon VPC).

    4. Recherchez le quota de service Interfaces réseau par région ou le Code de quota L-DF5E4CA3.

    Si votre limite ENI actuelle est insuffisante pour les besoins de votre SageMaker HyperPod cluster, demandez une augmentation de quota. Garantir au préalable une capacité ENI adéquate permet d’éviter les échecs de déploiement de cluster.

  • Lorsque vous utilisez un VPC personnalisé pour connecter un SageMaker HyperPod cluster à des AWS ressources, fournissez le nom, l'ID, les ID de sous-réseau et les ID de groupe de sécurité du VPC lors de la création du cluster. Région AWS

    Note

    Lorsque votre réseau Amazon VPC et vos sous-réseaux prennent en charge IPv6 dans la configuration VPCConfig du cluster ou au niveau du groupe d’instances à l’aide de l’attribut OverrideVPCConfig de ClusterInstanceGroupSpecification, les communications réseau diffèrent en fonction de la plateforme d’orchestration du cluster :

    • Slurm-orchestrated les clusters configurent automatiquement les nœuds avec deux adresses IPv6 et IPv4, permettant ainsi des communications réseau IPv6 immédiates. Aucune configuration supplémentaire n’est requise en dehors des paramètres IPv6 de VPCConfig.

    • Dans les EKS-orchestrated clusters, les nœuds reçoivent un adressage à double pile, mais les pods ne peuvent utiliser IPv6 que lorsque le cluster Amazon EKS l'est explicitement IPv6-enabled. Vous devez créer un nouveau cluster Amazon EKS IPv6. Les clusters Amazon EKS IPv4 existants ne peuvent pas être convertis en IPv6. Pour en savoir plus sur le déploiement d’un cluster Amazon EKS IPv6, consultez Déploiement de clusters Amazon EKS IPv6.

    Ressources supplémentaires pour la configuration d’IPv6 :

    • Pour en savoir plus sur l’ajout de la prise en charge d’IPv6 à votre VPC, consultez Prise en charge d’IPv6 pour votre VPC.

    • Pour plus d'informations sur la création d'un nouveau IPv6-compatible VPC, consultez le Guide de Amazon VPC création.

    • Pour effectuer une configuration SageMaker HyperPod avec un Amazon VPC personnalisé, consultez la section Configuration personnalisée d'Amazon VPC pour. SageMaker HyperPod

  • Assurez-vous que toutes les ressources sont déployées au même endroit Région AWS que le SageMaker HyperPod cluster. Configurez les règles du groupe de sécurité pour autoriser la communication entre les ressources au sein du VPC. Par exemple, lors de la création d’un VPC dans us-west-2, provisionnez des sous-réseaux dans une ou plusieurs zones de disponibilité (telles que us-west-2a ou us-west-2b) et créez un groupe de sécurité autorisant le trafic intra-groupe.

    Note

    SageMaker HyperPod prend en charge le déploiement de zones de multidisponibilité. Pour de plus amples informations, veuillez consulter Configuration de SageMaker HyperPod clusters sur plusieurs AZ.

  • Établissez la connectivité Amazon Simple Storage Service (Amazon S3) pour les groupes d' VPC-deployed SageMaker HyperPodinstances en créant un point de terminaison VPC. Sans accès à Internet, les groupes d’instances ne peuvent ni stocker ni extraire de scripts de cycle de vie, de données d’entraînement ou d’artefacts de modèle. Nous vous recommandons de créer une politique IAM personnalisée limitant l’accès du VPC privé aux compartiments Amazon S3. Pour plus d’informations, consultez Points de terminaison pour Amazon S3 dans le Guide de l’utilisateur AWS PrivateLink .

  • Pour les HyperPod clusters utilisant des instances compatibles avec Elastic Fabric Adapter (EFA), configurez le groupe de sécurité pour autoriser tout le trafic entrant et sortant à destination et en provenance du groupe de sécurité lui-même. En particulier, évitez d’utiliser 0.0.0.0/0 pour les règles sortantes, car cela pourrait entraîner des échecs de surveillance de l’état EFA. Pour plus d'informations sur les directives de préparation des groupes de sécurité EFA, consultez Étape 1 : Préparation d'un groupe EFA-enabled de sécurité dans le guide de l'utilisateur Amazon EC2.

  • Prenez bien en compte la taille de bloc de Inter-Domain routage sans classe (CIDR) de votre sous-réseau avant de créer des clusters. HyperPod

Configuration de SageMaker HyperPod clusters sur plusieurs AZ

Vous pouvez configurer vos SageMaker HyperPod clusters sur plusieurs zones de disponibilité (AZ) pour améliorer la fiabilité et la disponibilité.

Note

Le trafic Elastic Fabric Adapter (EFA) ne peut pas traverser les zones de disponibilité ni les VPC. Cela ne s’applique pas au trafic IP normal provenant du périphérique ENA d’une interface EFA. Pour plus d’informations, consultez Restrictions liées à EFA.

  • Comportement par défaut

    HyperPod déploie toutes les instances de cluster dans une seule zone de disponibilité. La configuration de VPC détermine la zone de disponibilité de déploiement :

    • Pour les Slurm-orchestrated clusters, la configuration VPC est facultative. Lorsqu'aucune configuration VPC n'est fournie, la valeur par HyperPod défaut est un sous-réseau à partir du VPC de la plate-forme.

    • Pour les EKS-orchestrated clusters, la configuration VPC est requise.

    • Pour les orchestrateurs Slurm et EKS, lorsqu'il VpcConfigest fourni, HyperPod sélectionne un sous-réseau dans la liste de sous-réseaux fournieVpcConfig. Tous les groupes d’instances héritent de la zone de disponibilité du sous-réseau.

    Note

    Une fois que vous avez créé un cluster, vous ne pouvez pas modifier ses paramètres VpcConfig.

    Pour en savoir plus sur la configuration des VPC pour les HyperPod clusters, consultez la section précédente,Configuration SageMaker HyperPod avec un Amazon VPC personnalisé.

  • Multi-AZ configuration

    Vous pouvez configurer votre HyperPod cluster sur plusieurs AZ lors de la création d'un cluster ou lors de l'ajout d'un nouveau groupe d'instances à un cluster existant. Pour configurer les déploiements multi-AZ, vous pouvez remplacer les paramètres VPC par défaut du cluster en spécifiant différents sous-réseaux et groupes de sécurité, potentiellement dans différentes zones de disponibilité, pour des groupes d’instances individuels au sein de votre cluster.

    SageMaker HyperPod Les utilisateurs de l'API peuvent utiliser la OverrideVpcConfig propriété dans le ClusterInstanceGroupSpecificationlorsqu'ils travaillent avec les UpdateClusterAPI CreateClusteror.

    Le champ OverrideVpcConfig :

    • Ne peut pas être modifié une fois le groupe d’instances créé.

    • Est facultatif. S’il n’est pas spécifié, l’élément VpcConfig au niveau du cluster est utilisé par défaut.

    • Pour les Slurm-orchestrated clusters, cela ne peut être spécifié que lorsque le niveau du cluster VpcConfig est fourni. Si aucun élément VpcConfig n’est spécifié au niveau du cluster, OverrideVpcConfig ne peut être utilisé pour aucun groupe d’instances.

    • Contient deux champs obligatoires :

      • Subnets : accepte entre 1 et 16 identifiants de sous-réseaux

      • SecurityGroupIds : accepte entre 1 et 5 identifiants de groupes de sécurité

    Pour plus d'informations sur la création ou la mise à jour d'un SageMaker HyperPod cluster à l'aide de l'interface utilisateur de la SageMaker HyperPod console ou du AWS CLI :

Note

Lorsque vous exécutez des charges de travail sur plusieurs zones de disponibilité, sachez que la communication réseau entre les zones de disponibilité entraîne une latence supplémentaire. Tenez compte de cet impact lors de la conception d’applications sensibles à la latence.

Configuration AWS Systems Manager et Exécuter comme pour le contrôle d'accès des utilisateurs du cluster

SageMaker HyperPod DLAMIest livré avec AWS Systems Manager(SSM) prêt à l'emploi pour vous aider à gérer l'accès à vos groupes d'instances de SageMaker HyperPod cluster. Cette section décrit comment créer des utilisateurs de système d'exploitation (OS) dans vos SageMaker HyperPod clusters et les associer à des utilisateurs et à des rôles IAM. Cela est utile pour authentifier les sessions SSM à l’aide des informations d’identification du compte d’utilisateur du système d’exploitation.

Note

Le fait d'accorder aux utilisateurs l'accès aux nœuds HyperPod du cluster leur permet d'installer et d'utiliser des logiciels gérés par les utilisateurs sur les nœuds. Assurez-vous de respecter le principe des autorisations de moindre privilège pour les utilisateurs.

Activer Run As dans votre AWS compte

En tant qu'administrateur de AWS compte ou administrateur cloud, vous pouvez gérer l'accès aux SageMaker HyperPod clusters au niveau d'un rôle IAM ou d'un utilisateur en utilisant la fonctionnalité Exécuter en tant que de SSM. Grâce à cette fonctionnalité, vous pouvez démarrer chaque session SSM en utilisant l’utilisateur du système d’exploitation associé au rôle ou à l’utilisateur IAM.

Pour activer Run As dans votre AWS compte, suivez les étapes décrites dans Activer la prise en charge de Run As pour les nœuds gérés sous Linux et macOS. Si vous avez déjà créé des utilisateurs du système d’exploitation dans votre cluster, assurez-vous de les associer à des rôles ou à des utilisateurs IAM en les balisant comme indiqué dans l’option 2 de l’étape 5 sous Pour activer la prise en charge de l’option Exécuter en tant que pour les nœuds gérés sous Linux et macOS.

(Facultatif) Configuration SageMaker HyperPod avec Amazon FSx for Lustre

Pour commencer à utiliser SageMaker HyperPod et à mapper les chemins de données entre le cluster et votre système de fichiers FSx for Lustre, sélectionnez l'un des chemins pris en charge Régions AWS par. SageMaker HyperPod Après avoir choisi celle Région AWS que vous préférez, vous devez également déterminer la zone de disponibilité (AZ) à utiliser.

Si vous utilisez des nœuds de SageMaker HyperPod calcul dans des zones de zones différentes de Région AWS celles dans lesquelles votre système de fichiers FSx for Lustre est configuré, il se peut que les communications et le réseau soient surchargés. Nous vous recommandons d'utiliser le même AZ physique que celui du compte de SageMaker HyperPod service afin d'éviter tout trafic inter-AZ entre les SageMaker HyperPod clusters et votre système de fichiers FSx for Lustre. Vérifiez également que vous l’avez configurée avec votre VPC. Si vous souhaitez utiliser Amazon FSx comme système de fichiers principal pour le stockage, vous devez configurer des SageMaker HyperPod clusters avec votre VPC.