Creazione di un cluster HyperPod EKS con un gruppo di istanze limitato (RIG) - Amazon SageMaker AI

Creazione di un cluster HyperPod EKS con un gruppo di istanze limitato (RIG)

Questo argomento illustra le fasi per creare un cluster Amazon SageMaker HyperPod EKS con un gruppo di istanze limitato (RIG, Restricted Instance Group). Una configurazione RIG nei cluster SageMaker HyperPod EKS fornisce un ambiente specializzato per l’addestramento dei modelli Amazon Nova. Un RIG presenta le seguenti limitazioni:

  • I carichi di lavoro RIG vengono eseguiti in un VPC senza accesso a Internet, tutte le entrate e le uscite sono strettamente regolamentate.

  • Un RIG presenta limitazioni sull’osservabilità delle funzioni di Kubernetes come kubectl exec e dei log per garantire un ambiente sicuro per l’addestramento dei modelli Nova.

  • Un RIG consente solo la personalizzazione di immagini Nova e i job eseguiti con altre immagini vengono negati.

È possibile creare un RIG durante la configurazione di gruppi di istanze nel cluster HyperPod EKS. Sebbene sia possibile controllare le dimensioni e il dimensionamento di queste risorse, non è possibile accedere direttamente ai nodi worker. Questa architettura garantisce che i componenti Nova (pesi dei modelli, checkpoint, dati di addestramento e codice) siano accessibili solo attraverso canali regolamentati e un sistema di account gestito dal servizio.

La personalizzazione del modello Nova su SageMaker HyperPod si basa su un file system FSx per Lustre gestito dal servizio per ottenere prestazioni ottimali. In fase di creazione di un RIG, è necessario specificare la dimensione del volume e il throughput per il file system FSx per Lustre, che verrà montato su tutti i nodi worker nel gruppo di istanze. FSx per Lustre viene utilizzato per archiviare checkpoint intermedi e stati interni del modello durante l’addestramento distribuito. Segui le indicazioni fornite nella ricetta per scegliere una dimensione di volume e un throughput appropriati per garantire capacità e prestazioni sufficienti. All’Account AWS vengono applicati i costi di utilizzo di FSx per Lustre.

Note importanti per i RIG nei cluster HyperPod EKS

  • Un RIG supporta solo il ruolo di esecuzione per le autorizzazioni. Assicurati che il ruolo di esecuzione includa le autorizzazioni IAM necessarie, come l’accesso ad Amazon S3.

  • In caso di utilizzo di Amazon FSx per Lustre e Amazon S3 gestiti dal servizio, assicurati che il file system FSx per Lustre sia di dimensioni adeguate al tuo carico di lavoro. Il manifesto dei dati di addestramento viene caricato su Amazon S3, che deve essere accessibile da parte del ruolo di esecuzione.

  • Il RIG deve essere creato o aggiornato su un nuovo cluster SageMaker HyperPod EKS creato a partire dal 16 luglio 2025. I cluster creati prima di questa data potrebbero contenere versioni o configurazioni software incompatibili, non supportate dai RIG.

  • La creazione di cluster HyperPod EKS con RIG è supportata solo nella seguente Regione AWS: us-east-1.

Creare un cluster HyperPod EKS con un gruppo di istanze limitato (Console - Procedura consigliata)

Questa sezione fornisce istruzioni dettagliate per la creazione di un cluster HyperPod EKS con un gruppo di istanze limitato per la personalizzazione di Amazon Nova mediante la Console di gestione AWS. Per ulteriori informazioni, consulta Creazione di un cluster SageMaker HyperPod con orchestrazione Amazon EKS.

Nota

È necessario creare il cluster in us-east-1 perché è l’unica Regione AWS supportata per i gruppi di istanze limitati.

  1. Apri la console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Scegli Cluster HyperPod nel riquadro di navigazione a sinistra, quindi seleziona Gestione dei cluster.

  3. Nella pagina Cluster SageMaker HyperPod seleziona Crea un cluster HyperPod.

  4. Nell’elenco a discesa Crea un cluster HyperPod scegli Orchestrato da Amazon EKS.

  5. Nella pagina di creazione del cluster scegli Configurazione rapida. Con questa opzione, puoi iniziare immediatamente utilizzando le impostazioni predefinite. SageMaker AI creerà nuove risorse come VPC, sottoreti, gruppi di sicurezza, bucket Amazon S3, ruolo IAM e FSx per Lustre durante la creazione del cluster.

  6. In Impostazioni generali specifica un nome per il nuovo cluster. Dopo la creazione del cluster, non è più possibile modificarne il nome.

  7. In Gruppi di istanze scegli Aggiungi gruppo. Ogni gruppo di istanze può essere configurato in modo diverso ed è possibile creare un cluster eterogeneo composto da più gruppi di istanze con vari tipi di istanze. Per implementare un cluster, devi aggiungere almeno un gruppo di istanze. Puoi aggiungere un gruppo di istanze alla volta. Per creare più gruppi di istanze, ripeti il processo per ogni gruppo.

    Segui questa procedura per aggiungere un gruppo di istanze.

    1. Per Nome del gruppo di istanze scegli Gruppo di istanze limitato (RIG). Gruppo di istanze limitato (RIG) è un ambiente specializzato per la personalizzazione di modelli di fondazione come Amazon Nova. Standard fornisce un ambiente di calcolo generico senza limitazioni di sicurezza aggiuntive.

    2. In Nome specifica un nome per il gruppo di istanze.

    3. In Capacità dell’istanza, scegli la capacità on demand o un piano di addestramento per riservare le tue risorse di calcolo.

    4. Per Tipo di istanza scegli l’istanza per il gruppo di istanze. È necessario scegliere un tipo di istanza che supporti la personalizzazione del modello Amazon Nova, ad esempio ml.p5.48xlarge. Assicurati inoltre di scegliere un tipo di istanza con quote sufficienti nell’Account AWS. Per richiedere quote aggiuntive, consulta Quote di SageMaker HyperPod.

    5. In Quantità istanze. specifica un numero intero che non sia maggiore della quota dell’istanza per l’utilizzo del cluster. Per questa guida di avvio rapido, immetti 1 per l’istanza con limitazioni che stai creando.

    6. In Zona di disponibilità di destinazione, scegli la zona di disponibilità in cui allocare le istanze. La zona di disponibilità deve corrispondere alla posizione della capacità di calcolo accelerata.

    7. Per Volume di archiviazione aggiuntivo per istanza (GB) (facoltativo), specifica un numero intero compreso tra 1 e 16.384 per impostare la dimensione di un volume Elastic Block Store (EBS) aggiuntivo in gigabyte (GB). Il volume EBS è collegato a ciascuna istanza del gruppo di istanze. Il percorso di montaggio predefinito per il volume EBS aggiuntivo è /opt/sagemaker. Dopo aver creato correttamente il cluster, è possibile accedere tramite SSH alle istanze del cluster (nodi) e verificare che il volume EBS sia montato correttamente eseguendo il comando df -h. Il collegamento di un volume EBS aggiuntivo fornisce un’archiviazione stabile, fuori istanza e con persistenza indipendente, come descritto nella sezione Amazon EBS volumes in Amazon Elastic Block Store User Guide.

    8. Per Controlli approfonditi dell’integrità delle istanze, scegli un’opzione. I controlli dell’integrità approfonditi monitorano l’integrità dell’istanza durante la creazione e dopo gli aggiornamenti software, ripristinando automaticamente le istanze difettose con riavvii o sostituzioni, se abilitati.

    9. Scegli Aggiungi gruppo di istanze.

  8. In Impostazioni predefinite di configurazione rapida, rivedi le impostazioni predefinite. Questa sezione elenca tutte le impostazioni predefinite per la creazione del cluster, incluse tutte le nuove risorse AWS che verranno create durante il processo.

  9. Scegli Invia.

Creare un cluster HyperPod EKS con un gruppo di istanze limitato (CLI)

Segui queste istruzioni per creare un cluster HyperPod EKS con un RIG mediante l’AWS CLI.