View a markdown version of this page

Prerequisiti per l'utilizzo SageMaker HyperPod - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Prerequisiti per l'utilizzo SageMaker HyperPod

Le seguenti sezioni illustrano i prerequisiti prima di iniziare. SageMaker HyperPod

SageMaker HyperPod quote

Puoi creare SageMaker HyperPod cluster in base alle quote di utilizzo dei cluster nel tuo account. AWS

Importante

Per ulteriori informazioni sui SageMaker HyperPod prezzi, consulta la pagina SageMaker HyperPod prezzi e SageMaker i prezzi di Amazon.

Visualizza le SageMaker HyperPod quote Amazon utilizzando il Console di gestione AWS

Cerca i valori predefiniti e applicati di una quota, nota anche come limite, per l'utilizzo del cluster, utilizzata per SageMaker HyperPod.

  1. Apri la Quote di servizio console.

  2. Nel pannello di navigazione a sinistra, scegli Servizi AWS .

  3. Dall'elenco dei AWS servizi, cerca e seleziona Amazon SageMaker AI.

  4. Nell'elenco delle quote di servizio, puoi vedere il nome della quota di servizio, il valore applicato (se disponibile), la quota AWS predefinita e se il valore della quota è regolabile.

  5. Nella barra di ricerca, digita utilizzo del cluster. Vengono mostrate le quote per l’utilizzo del cluster, le quote applicate e le quote predefinite.

Elenco delle quote di servizio comuni per creare un HyperPod cluster e dei relativi prerequisiti

Potresti voler verificare se hai richiesto aumenti del limite delle quote di servizio per le seguenti quote per creare un nuovo HyperPod cluster insieme ai prerequisiti nella console AI. SageMaker Vai alla console Service Quota e cerca i seguenti termini.

No Nome della quota Termine di ricerca Description
1 Numero massimo di istanze consentite per cluster SageMaker HyperPod In SageMaker AI cerca «Numero massimo di istanze consentite per SageMaker HyperPod cluster» Il valore della quota a livello di account deve essere superiore al numero di istanze che desideri aggiungere al cluster
2 Dimensione massima del volume EBS in GB per un'istanza di cluster SageMaker HyperPod

In SageMaker AI cerca «Dimensione massima del volume EBS in GB per un'istanza HyperPod cluster» 

Il valore della quota a livello di account deve essere superiore al volume EBS che desideri aggiungere al cluster

3 Numero totale di istanze consentite tra i cluster SageMaker HyperPod

In SageMaker AI cerca «Numero totale di istanze consentite tra i cluster» SageMaker HyperPod  

Il valore della quota a livello di account deve essere superiore al totale delle istanze che desideri aggiungere in tutti i cluster del tuo account in forma aggregata
4

Quote di istanze 

In SageMaker AI, cerca «ml». «<instance_type>per l'utilizzo del cluster», ad esempio: ml.p5.48xlarge per l'utilizzo del cluster

Il valore della quota a livello di account per il particolare tipo di istanza (ad esempio: ml.p5.48xlarge) deve essere maggiore del numero di istanze da aggiungere a tutti i cluster dell'account in forma aggregata.
5

VPC per regione

In Amazon Virtual Private Cloud (Amazon VPC) cerca «VPC per regione» Il valore della quota a livello di account deve essere sufficiente per creare un nuovo VPC nell'account durante la configurazione del cluster. HyperPod Verifica se hai già esaurito questo limite di quota controllando la console VPC. Questo aumento della quota è necessario solo se creerai un nuovo VPC tramite l'opzione di configurazione del cluster rapida o personalizzata nella SageMaker HyperPod console.
6

Gateway Internet per regione

In Amazon Virtual Private Cloud (Amazon VPC) cerca «Gateway Internet per regione»

Il valore della quota a livello di account deve essere sufficiente per creare un gateway Internet aggiuntivo nell'account durante la configurazione del cluster. SageMaker HyperPod Questo aumento della quota è necessario solo se creerai un nuovo VPC tramite l'opzione di configurazione del cluster rapida o personalizzata nella SageMaker HyperPod console. 
7 Interfacce di rete per regione In Amazon Virtual Private Cloud (Amazon VPC) cerca «Interfacce di rete per regione»

Il valore della quota a livello di account deve contenere un numero sufficiente di interfacce di rete nell'account al momento della configurazione del cluster. HyperPod 

8 EC2-VPC IP elastici In Amazon Elastic Compute Cloud (Amazon EC2), cerca «Elastic IPs» EC2-VPC Il valore della quota a livello di account deve essere sufficiente per creare un nuovo VPC nell'account durante la configurazione del cluster. HyperPod Verifica se hai già esaurito questo limite di quota controllando la console VPC. Questo aumento della quota è necessario solo se creerai un nuovo VPC tramite l'opzione di configurazione del cluster rapida o personalizzata nella SageMaker HyperPod console.

Richiedi un aumento della SageMaker HyperPod quota Amazon utilizzando il Console di gestione AWS

Aumenta le quote a livello di account o di risorsa.

  1. Per aumentare la quota delle istanze per l’utilizzo del cluster, seleziona la quota da aumentare.

  2. Se la quota è regolabile, puoi richiedere un aumento della quota a livello di account o di risorsa in base al valore elencato nella colonna Regolabilità.

  3. In Aumenta il valore della quota, inserisci il nuovo valore. Questo valore deve essere maggiore di quello corrente.

  4. Scegli Richiedi.

  5. Per visualizzare eventuali richieste in sospeso o risolte di recente nella console, vai alla scheda Cronologia richieste dalla pagina dei dettagli del servizio o scegli Dashboard dal riquadro di navigazione. Per le richieste in sospeso, scegliere lo stato della richiesta per aprire la ricevuta della richiesta. Lo stato iniziale di una richiesta è Pending (In attesa). Dopo la modifica dello stato in Quota richiesta, vedrai il numero del caso con Supporto AWS. Scegli il numero del caso per aprire il ticket della tua richiesta.

Per ulteriori informazioni generali su come richiedere un aumento della quota, consulta Requesting a Quota Increase in AWS Service Quotas User Guide.

Configurazione SageMaker HyperPod con un Amazon VPC personalizzato

Per configurare un SageMaker HyperPod cluster con un Amazon VPC personalizzato, esamina i seguenti prerequisiti.

Nota

La configurazione VPC è obbligatoria per l’orchestrazione Amazon EKS. Per l’orchestrazione Slurm, la configurazione VPC è facoltativa.

  • Convalida la capacità dell'Elastic Network Interface (ENI) Account AWS prima di creare un SageMaker HyperPod cluster con un VPC personalizzato. Il limite ENI è controllato da Amazon EC2 e varia a seconda. Regione AWS SageMaker HyperPod non può richiedere automaticamente aumenti delle quote.

    Per verificare la tua attuale quota ENI:
    1. Apri la Quote di servizio console.

    2. Nella sezione Gestisci quote, utilizza l'elenco a discesa AWS Servizi per cercare VPC.

    3. Scegli di visualizzare le quote di Amazon Virtual Private Cloud (Amazon VPC).

    4. Cerca la Service Quota Interfacce di rete per Regione o il Codice di quota L-DF5E4CA3.

    Se l'attuale limite ENI non è sufficiente per le esigenze del SageMaker HyperPod cluster, richiedi un aumento della quota. Assicurarsi preventivamente una capacità ENI adeguata aiuta a prevenire gli errori di implementazione dei cluster.

  • Quando utilizzi un VPC personalizzato per connettere un SageMaker HyperPod cluster con AWS risorse, fornisci il nome VPC, l'ID, gli ID di sottorete e gli ID del gruppo di sicurezza durante la creazione del cluster. Regione AWS

    Nota

    Quando un Amazon VPC e le sottoreti supportano IPv6 in VPCConfig del cluster o a livello del gruppo di istanze con l’attributo OverrideVPCConfig di ClusterInstanceGroupSpecification, le comunicazioni di rete differiscono in base alla piattaforma di orchestrazione del cluster:

    • Slurm-orchestrated i cluster configurano automaticamente i nodi con due indirizzi IPv6 e IPv4, consentendo comunicazioni di rete IPv6 immediate. Oltre alle impostazioni IPv6 VPCConfig, non sono necessarie ulteriori configurazioni.

    • Nei EKS-orchestrated cluster, i nodi ricevono l'indirizzamento dual-stack, ma i pod possono utilizzare IPv6 solo quando il cluster Amazon EKS lo è esplicitamente. IPv6-enabled Devi creare un nuovo cluster Amazon EKS IPv6: i cluster Amazon EKS IPv4 esistenti non possono essere convertiti in IPv6. Per informazioni sull’implementazione di un cluster Amazon EKS IPv6, consulta Amazon EKS IPv6 Cluster Deployment.

    Ulteriori risorse per la configurazione IPv6:

    • Per informazioni sull’aggiunta del supporto IPv6 al tuo VPC, consulta IPv6 Support for VPC.

    • Per informazioni sulla creazione di un nuovo IPv6-compatible VPC, consulta Amazon VPC la Guida alla creazione.

    • Per configurare SageMaker HyperPod con un Amazon VPC personalizzato, consulta Configurazione Amazon VPC personalizzata per. SageMaker HyperPod

  • Assicurati che tutte le risorse siano distribuite nello stesso ambiente del cluster Regione AWS . SageMaker HyperPod Configura le regole dei gruppi di sicurezza per consentire la comunicazione tra le risorse all’interno del VPC. Ad esempio, quando crei un VPC in us-west-2, alloca le sottoreti su una o più zone di disponibilità (ad esempio us-west-2a o us-west-2b) e crea un gruppo di sicurezza che consenta il traffico tra i gruppi.

    Nota

    SageMaker HyperPod supporta l'implementazione di zone di disponibilità multiple. Per ulteriori informazioni, consulta Configurazione SageMaker HyperPod di cluster su più AZ.

  • Stabilisci la connettività Amazon Simple Storage Service (Amazon S3) per i gruppi di VPC-deployed SageMaker HyperPod istanze creando un endpoint VPC. Senza accesso a Internet, i gruppi di istanze non possono archiviare o recuperare gli script del ciclo di vita, i dati di addestramento o gli artefatti del modello. Ti consigliamo di creare una policy IAM personalizzata che limiti l’accesso dei bucket Amazon S3 al VPC privato. Per ulteriori informazioni, consulta Endpoints for Amazon S3 in AWS PrivateLink Guide.

  • Per HyperPod i cluster che utilizzano istanze abilitate per Elastic Fabric Adapter (EFA), configura il gruppo di sicurezza per consentire tutto il traffico in entrata e in uscita da e verso il gruppo di sicurezza stesso. In particolare, evita di utilizzare 0.0.0.0/0 per le regole in uscita, perché potrebbe causare errori nei controlli dell’integrità EFA. Per ulteriori informazioni sulle linee guida per la preparazione dei gruppi di sicurezza EFA, consulta Fase 1: Preparare un gruppo EFA-enabled di sicurezza nella Guida per l'utente di Amazon EC2.

  • Valuta attentamente la dimensione del blocco Classless Inter-Domain Routing (CIDR) della tua sottorete prima di creare cluster. HyperPod

Configurazione SageMaker HyperPod di cluster su più AZ

È possibile configurare SageMaker HyperPod i cluster su più zone di disponibilità (AZ) per migliorare l'affidabilità e la disponibilità.

Nota

Il traffico Elastic Fabric Adapter (EFA) non può attraversare AZ o VPC. Questo non si applica al normale traffico IP dal dispositivo ENA di un'interfaccia EFA. Per ulteriori informazioni, consulta EFA limitations.

  • Comportamento predefinito

    HyperPod distribuisce tutte le istanze del cluster in un'unica zona di disponibilità. La configurazione VPC determina l’AZ di implementazione:

    • Per Slurm-orchestrated i cluster, la configurazione VPC è facoltativa. Quando non viene fornita alcuna configurazione VPC, l' HyperPod impostazione predefinita è una sottorete dal VPC della piattaforma.

    • Per EKS-orchestrated i cluster, è richiesta la configurazione VPC.

    • Sia per gli orchestratori Slurm che EKS, quando VpcConfigviene fornita, HyperPod seleziona una sottorete dall'elenco delle sottoreti fornito. VpcConfig Tutti i gruppi di istanze ereditano la AZ della sottorete.

    Nota

    Una volta creato un cluster, non è possibile modificarne le impostazioni VpcConfig.

    Per ulteriori informazioni sulla configurazione dei VPC per i cluster, consulta la sezione precedente,. HyperPod Configurazione SageMaker HyperPod con un Amazon VPC personalizzato

  • Multi-AZ configurazione

    È possibile configurare il HyperPod cluster su più AZ durante la creazione di un cluster o l'aggiunta di un nuovo gruppo di istanze a un cluster esistente. Per configurare le implementazioni Multi-AZ, puoi sostituire le impostazioni VPC predefinite del cluster specificando sottoreti e gruppi di sicurezza diversi, possibilmente in diverse zone di disponibilità, per singoli gruppi di istanze all’interno del cluster.

    SageMaker HyperPod Gli utenti dell'API possono utilizzare la OverrideVpcConfig proprietà all'interno di ClusterInstanceGroupSpecificationquando lavorano con le CreateClustero UpdateClusterAPI.

    Il campo OverrideVpcConfig:

    • Non può essere modificato dopo la creazione del gruppo di istanze.

    • È facoltativo. Se non è specificato, viene utilizzato il livello del cluster VpcConfig come impostazione predefinita.

    • Per Slurm-orchestrated i cluster, può essere specificato solo quando viene fornito il livello di VpcConfig cluster. Se non è specificato alcun valore VpcConfig a livello del cluster, OverrideVpcConfig non può essere utilizzato per alcun gruppo di istanze.

    • Contiene due campi obbligatori:

      • Subnets: accetta tra 1 e 16 ID di sottorete

      • SecurityGroupIds: accetta da 1 a 5 ID di gruppi di sicurezza

    Per ulteriori informazioni sulla creazione o l'aggiornamento di un SageMaker HyperPod cluster utilizzando l'interfaccia utente della SageMaker HyperPod console o il AWS CLI:

Nota

Quando esegui carichi di lavoro su più AZ, tieni presente che la comunicazione di rete tra AZ introduce una latenza aggiuntiva. Considera questo fattore quando progetti applicazioni sensibili alla latenza.

Configurazione AWS Systems Manager e Run As per il controllo degli accessi degli utenti del cluster

SageMaker HyperPod DLAMIviene fornito con AWS Systems Manager(SSM) pronto all'uso per aiutarti a gestire l'accesso ai gruppi di istanze SageMaker HyperPod del cluster. Questa sezione descrive come creare utenti del sistema operativo (OS) nei SageMaker HyperPod cluster e associarli a utenti e ruoli IAM. Questa opzione è utile per autenticare le sessioni SSM utilizzando le credenziali dell’account utente del sistema operativo.

Nota

La concessione agli utenti dell'accesso ai nodi HyperPod del cluster consente loro di installare e utilizzare software gestito dagli utenti sui nodi. Assicurati di rispettare il principio delle autorizzazioni con privilegio minimo per gli utenti.

Abilitare Run As nel tuo AWS account

In qualità di amministratore di AWS account o amministratore cloud, puoi gestire l'accesso ai SageMaker HyperPod cluster a livello di ruolo o utente IAM utilizzando la funzionalità Run As di SSM. Con questa funzionalità puoi avviare ogni sessione SSM utilizzando l’utente del sistema operativo associato al ruolo o all’utente IAM.

Per abilitare RunAs nel tuo AWS account, segui la procedura descritta in Attivare il supporto RunAs per i nodi gestiti Linux e macOS. Se hai già creato utenti del sistema operativo nel tuo cluster, assicurati di associarli a ruoli o utenti IAM taggandoli come indicato nell’Opzione 2 della Fase 5 in To turn on Run As support for Linux and macOS managed nodes.

(Facoltativo) Configurazione SageMaker HyperPod con Amazon FSx for Lustre

Per iniziare a utilizzare SageMaker HyperPod e mappare i percorsi dei dati tra il cluster e il sistema file FSx for Lustre, selezionate uno dei percorsi supportati da. Regioni AWS SageMaker HyperPod Dopo aver scelto quella Regione AWS che preferite, dovreste anche determinare quale zona di disponibilità (AZ) utilizzare.

Se si utilizzano nodi di SageMaker HyperPod calcolo in AZ diversi da quelli in cui il sistema file FSx for Lustre è configurato all'interno degli Regione AWS stessi, è possibile che si verifichino costi di comunicazione e di rete. Si consiglia di utilizzare la stessa AZ fisica utilizzata per l'account di SageMaker HyperPod servizio per evitare il traffico cross-AZ tra SageMaker HyperPod i cluster e il sistema file FSx for Lustre. Inoltre, assicurati che sia configurato il tuo VPC. Se desideri utilizzare Amazon FSx come file system principale per lo storage, devi configurare SageMaker HyperPod i cluster con il tuo VPC.