Prerequisiti per l’utilizzo di SageMaker HyperPod - Amazon SageMaker AI

Prerequisiti per l’utilizzo di SageMaker HyperPod

Le sezioni seguenti ti forniscono istruzioni dettagliate sui prerequisiti per iniziare a utilizzare SageMaker HyperPod.

Quote di SageMaker HyperPod

Puoi creare cluster SageMaker HyperPod in base alle quote per l’utilizzo del cluster nel tuo account AWS.

Importante

Per ulteriori informazioni sui prezzi di SageMaker HyperPod, consulta Prezzi di SageMaker HyperPod e Prezzi di Amazon SageMaker.

Visualizzazione delle quote di Amazon SageMaker HyperPod con la Console di gestione AWS

Cerca i valori predefiniti e applicati di una quota, nota anche come limite, per l’utilizzo del cluster, impiegata per SageMaker HyperPod.

  1. Apri la Quote di servizio console.

  2. Nel pannello di navigazione a sinistra, scegli Servizi AWS.

  3. Nell’elenco Servizi AWS, cerca e seleziona Amazon SageMaker AI.

  4. Nell'elenco Service quotas, è possibile visualizzare il nome della quota di servizio, il valore applicato (se è disponibile), la quota predefinita AWS e se il valore della quota è regolabile.

  5. Nella barra di ricerca, digita utilizzo del cluster. Vengono mostrate le quote per l’utilizzo del cluster, le quote applicate e le quote predefinite.

Richiesta di un aumento della quota di Amazon SageMaker HyperPod con la Console di gestione AWS

Aumenta le quote a livello di account o di risorsa.

  1. Per aumentare la quota delle istanze per l’utilizzo del cluster, seleziona la quota da aumentare.

  2. Se la quota è regolabile, puoi richiedere un aumento della quota a livello di account o di risorsa in base al valore elencato nella colonna Regolabilità.

  3. In Aumenta il valore della quota, inserisci il nuovo valore. Questo valore deve essere maggiore di quello corrente.

  4. Scegli Richiedi.

  5. Per visualizzare eventuali richieste in sospeso o risolte di recente nella console, vai alla scheda Cronologia richieste dalla pagina dei dettagli del servizio o scegli Dashboard dal riquadro di navigazione. Per le richieste in sospeso, scegliere lo stato della richiesta per aprire la ricevuta della richiesta. Lo stato iniziale di una richiesta è Pending (In attesa). Dopo che lo stato è cambiato in Quota richiesta, vedrai il numero del caso del Supporto AWS. Scegli il numero del caso per aprire il ticket della tua richiesta.

Per ulteriori informazioni generali su come richiedere un aumento della quota, consulta Requesting a Quota Increase in AWS Service Quotas User Guide.

Configurazione di SageMaker HyperPod con un Amazon VPC personalizzato

Per configurare un cluster SageMaker HyperPod con un Amazon VPC personalizzato, esamina i prerequisiti seguenti.

Nota

La configurazione VPC è obbligatoria per l’orchestrazione Amazon EKS. Per l’orchestrazione Slurm, la configurazione VPC è facoltativa.

  • Convalida la capacità dell’interfaccia di rete elastica (ENI) nell’Account AWS prima di creare un cluster SageMaker HyperPod con un VPC personalizzato. Il limite ENI è controllato da Amazon EC2 e varia a seconda della Regione AWS. SageMaker HyperPod non può richiedere automaticamente un aumento della quota.

    Per verificare la tua attuale quota ENI:
    1. Apri la Quote di servizio console.

    2. Nella sezione Gestisci quote, utilizza l’elenco a discesa Servizi AWS per cercare il VPC.

    3. Scegli di visualizzare le quote di Amazon Virtual Private Cloud (Amazon VPC).

    4. Cerca la Service Quota Interfacce di rete per Regione o il Codice di quota L-DF5E4CA3.

    Se l’attuale limite ENI non è sufficiente per le esigenze del cluster SageMaker HyperPod, richiedi un aumento della quota. Assicurarsi preventivamente una capacità ENI adeguata aiuta a prevenire gli errori di implementazione dei cluster.

  • Quando utilizzi un VPC personalizzato per connettere un cluster SageMaker HyperPod alle risorse AWS, fornisci il nome del VPC, l’ID, la Regione AWS, gli ID di sottorete e gli ID del gruppo di sicurezza durante la creazione del cluster.

    Nota

    Quando un Amazon VPC e le sottoreti supportano IPv6 in VPCConfig del cluster o a livello del gruppo di istanze con l’attributo OverrideVPCConfig di ClusterInstanceGroupSpecification, le comunicazioni di rete differiscono in base alla piattaforma di orchestrazione del cluster:

    • I cluster orchestrati da Slurm configurano automaticamente i nodi con due indirizzi IPv6 e IPv4, consentendo comunicazioni di rete IPv6 immediate. Oltre alle impostazioni IPv6 VPCConfig, non sono necessarie ulteriori configurazioni.

    • Nei cluster orchestrati da EKS, i nodi ricevono l’indirizzamento dual-stack, ma i pod possono utilizzare IPv6 solo quando il cluster Amazon EKS è esplicitamente abilitato per IPv6. Devi creare un nuovo cluster Amazon EKS IPv6: i cluster Amazon EKS IPv4 esistenti non possono essere convertiti in IPv6. Per informazioni sull’implementazione di un cluster Amazon EKS IPv6, consulta Amazon EKS IPv6 Cluster Deployment.

    Ulteriori risorse per la configurazione IPv6:

  • Assicurati che tutte le risorse siano implementate nella stessa Regione AWS del cluster SageMaker HyperPod. Configura le regole dei gruppi di sicurezza per consentire la comunicazione tra le risorse all’interno del VPC. Ad esempio, quando crei un VPC in us-west-2, alloca le sottoreti su una o più zone di disponibilità (ad esempio us-west-2a o us-west-2b) e crea un gruppo di sicurezza che consenta il traffico tra i gruppi.

    Nota

    SageMaker HyperPod supporta l’implementazione di più zone di disponibilità. Per ulteriori informazioni, consulta Configurazione dei cluster SageMaker HyperPod su più zone dei disponibilità (AZ).

  • Stabilisci una connettività Amazon Simple Storage Service (Amazon S3) per i gruppi di istanze SageMaker HyperPod implementati tramite VPC creando un endpoint VPC. Senza accesso a Internet, i gruppi di istanze non possono archiviare o recuperare gli script del ciclo di vita, i dati di addestramento o gli artefatti del modello. Ti consigliamo di creare una policy IAM personalizzata che limiti l’accesso dei bucket Amazon S3 al VPC privato. Per ulteriori informazioni, consulta Endpoints for Amazon S3 in AWS PrivateLink Guide.

  • Per i cluster HyperPod che utilizzano istanze abilitate per Elastic Fabric Adapter (EFA), configura il gruppo di sicurezza per consentire tutto il traffico in entrata e in uscita dal gruppo stesso. In particolare, evita di utilizzare 0.0.0.0/0 per le regole in uscita, perché potrebbe causare errori nei controlli dell’integrità EFA. Per ulteriori informazioni sulle linee guida per la preparazione dei gruppi di sicurezza EFA, consulta Step 1: Prepare an EFA-enabled security group in Amazon EC2 User Guide.

  • Valuta attentamente la dimensione del blocco di routing interdominio senza classi (CIDR) della sottorete prima di creare cluster HyperPod.

    • La dimensione dell’intervallo CIDR della sottorete non può essere modificata dopo la creazione. Questo aspetto è particolarmente importante quando utilizzi istanze accelerate di grandi dimensioni come P5. Senza una dimensione del blocco sufficiente, in caso di aumento verticale dovrai ricreare i cluster.

    • Quando scegli la dimensione dell’intervallo CIDR della sottorete appropriata, considera questi fattori: i tipi di istanze, il numero previsto di istanze e il numero di indirizzi IP utilizzati da ciascuna istanza.

    • Per i cluster orchestrati da Slurm, ogni istanza P5 può creare 32 indirizzi IP (uno per ogni scheda di rete). Per i cluster orchestrati da EKS, ogni istanza P5 può creare 81 indirizzi IP (50 dalla scheda primaria più uno da ciascuna delle restanti 31 schede). Per specifiche dettagliate, consulta Network specifications in Amazon EC2 Instance Types Developer Guide.

    • Per esempi di modelli CloudFormation che specificano la dimensione dell’intervallo CIDR della sottorete, consulta i modelli HyperPod Slurm e HyperPod Amazon EKS nel repository awsome-distributed-training.

Configurazione dei cluster SageMaker HyperPod su più zone dei disponibilità (AZ)

Puoi configurare i cluster SageMaker HyperPod su più zone di disponibilità (AZ) per migliorare l’affidabilità e la disponibilità.

Nota

Il traffico Elastic Fabric Adapter (EFA) non può attraversare AZ o VPC. Questo non si applica al normale traffico IP dal dispositivo ENA di un'interfaccia EFA. Per ulteriori informazioni, consulta EFA limitations.

  • Comportamento predefinito

    HyperPod implementa tutte le istanze del cluster in un’unica zona di disponibilità. La configurazione VPC determina l’AZ di implementazione:

    • Per i cluster orchestrati da Slurm, la configurazione VPC è facoltativa. Quando non viene fornita alcuna configurazione VPC, HyperPod utilizza per impostazione predefinita una sottorete dal VPC della piattaforma.

    • Per i cluster orchestrati da EKS, la configurazione VPC è obbligatoria.

    • Sia per gli orchestratori Slurm che EKS, quando viene fornito VpcConfig, HyperPod seleziona una sottorete dall’elenco delle sottoreti fornito da VpcConfig. Tutti i gruppi di istanze ereditano la AZ della sottorete.

    Nota

    Una volta creato un cluster, non è possibile modificarne le impostazioni VpcConfig.

    Per ulteriori informazioni sulla configurazione dei VPC per i cluster HyperPod, consulta la sezione precedente, Configurazione di SageMaker HyperPod con un Amazon VPC personalizzato.

  • Configurazione Multi-AZ

    Puoi configurare il tuo cluster HyperPod su più AZ durante la creazione di un cluster o quando aggiungi un nuovo gruppo di istanze a un cluster esistente. Per configurare le implementazioni Multi-AZ, puoi sostituire le impostazioni VPC predefinite del cluster specificando sottoreti e gruppi di sicurezza diversi, possibilmente in diverse zone di disponibilità, per singoli gruppi di istanze all’interno del cluster.

    Gli utenti dell’API SageMaker HyperPod possono utilizzare la proprietà OverrideVpcConfig all’interno di ClusterInstanceGroupSpecification quando lavorano con le API CreateCluster o UpdateCluster.

    Il campo OverrideVpcConfig:

    • Non può essere modificato dopo la creazione del gruppo di istanze.

    • È facoltativo. Se non è specificato, viene utilizzato il livello del cluster VpcConfig come impostazione predefinita.

    • Per i cluster orchestrati da Slurm, può essere specificato solo quando viene fornito il livello del cluster VpcConfig. Se non è specificato alcun valore VpcConfig a livello del cluster, OverrideVpcConfig non può essere utilizzato per alcun gruppo di istanze.

    • Contiene due campi obbligatori:

      • Subnets: accetta tra 1 e 16 ID di sottorete

      • SecurityGroupIds: accetta da 1 a 5 ID di gruppi di sicurezza

    Per ulteriori informazioni sulla creazione o l’aggiornamento di un cluster SageMaker HyperPod con l’interfaccia utente della console SageMaker HyperPod o la AWS CLI:

Nota

Quando esegui carichi di lavoro su più AZ, tieni presente che la comunicazione di rete tra AZ introduce una latenza aggiuntiva. Considera questo fattore quando progetti applicazioni sensibili alla latenza.

Configurazione di AWS Systems Manager e della funzionalità Esegui come per il controllo degli accessi degli utenti del cluster

DLAMI di SageMaker HyperPod viene fornito con AWS Systems Manager(SSM) pronto all’uso per aiutarti a gestire l’accesso ai gruppi di istanze del cluster SageMaker HyperPod. Questa sezione descrive come creare utenti del sistema operativo (OS) nei cluster SageMaker HyperPod e associarli a utenti e ruoli IAM. Questa opzione è utile per autenticare le sessioni SSM utilizzando le credenziali dell’account utente del sistema operativo.

Nota

La concessione agli utenti dell’accesso ai nodi del cluster HyperPod consente loro di installare e utilizzare software gestito dagli utenti sui nodi. Assicurati di rispettare il principio delle autorizzazioni con privilegio minimo per gli utenti.

Abilitazione della funzionalità Esegui come nel tuo account AWS

In qualità di amministratore di account AWS o di amministratore cloud, puoi gestire l’accesso ai cluster SageMaker HyperPod a livello di ruolo o di utente IAM utilizzando la funzionalità Esegui come in SSM. Con questa funzionalità puoi avviare ogni sessione SSM utilizzando l’utente del sistema operativo associato al ruolo o all’utente IAM.

Per abilitare Esegui come nel tuo account AWS, segui la procedura descritta in Turn on Run As support for Linux and macOS managed nodes. Se hai già creato utenti del sistema operativo nel tuo cluster, assicurati di associarli a ruoli o utenti IAM taggandoli come indicato nell’Opzione 2 della Fase 5 in To turn on Run As support for Linux and macOS managed nodes.

(Facoltativo) Configurazione di SageMaker HyperPod con Amazon FSx per Lustre

Per iniziare a utilizzare SageMaker HyperPod e mappare i percorsi dei dati tra il cluster e il file system FSx per Lustre, seleziona una delle Regioni AWS supportate da SageMaker HyperPod. Dopo aver scelto la Regione AWS preferita, devi anche determinare quale zona di disponibilità (AZ) utilizzare.

Se utilizzi nodi di calcolo SageMaker HyperPod in AZ diverse da quelle in cui è configurato il file system FSx per Lustre nella stessa Regione AWS, potrebbero verificarsi problemi di comunicazione e di rete. Ti consigliamo di utilizzare la stessa AZ fisica utilizzata per l’account del servizio SageMaker HyperPod per evitare il traffico tra le AZ nei cluster SageMaker HyperPod e nel file system FSx per Lustre. Inoltre, assicurati che sia configurato il tuo VPC. Per utilizzare Amazon FSx come file system principale per l’archiviazione, devi configurare i cluster SageMaker HyperPod con il tuo VPC.