Amazon SageMaker HyperPod - Amazon SageMaker AI

Amazon SageMaker HyperPod

SageMaker HyperPod consente di allocare cluster resilienti per l’esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di modelli all’avanguardia come i modelli linguistici di grandi dimensioni (LLM), i modelli di diffusione e i modelli di fondazione (FM). Accelera lo sviluppo dei modelli di fondazione rimuovendo le pesanti attività di routine legate alla creazione e alla manutenzione di cluster di calcolo su larga scala alimentati da migliaia di acceleratori come AWS Trainium e le unità di elaborazione grafica (GPU) NVIDIA A100 e H100. Quando gli acceleratori si guastano, le funzionalità di resilienza di SageMaker HyperPod che monitorano le istanze del cluster rilevano e sostituiscono automaticamente l’hardware difettoso in modo che tu possa concentrarti sull’esecuzione di carichi di lavoro di ML.

Per iniziare, consulta Prerequisiti per l’utilizzo di SageMaker HyperPod, configura AWS Identity and Access Management per SageMaker HyperPod e scegli una delle seguenti opzioni di orchestrazione supportate da SageMaker HyperPod.

Supporto Slurm in SageMaker HyperPod

SageMaker HyperPod fornisce il supporto per l’esecuzione di carichi di lavoro di machine learning su cluster resilienti grazie all’integrazione con Slurm, un gestore di carichi di lavoro open source. Il supporto Slurm in SageMaker HyperPod assicura una perfetta orchestrazione del cluster grazie alla configurazione del cluster Slurm, che consente di configurare nodi head, login e worker sui cluster SageMaker HyperPod. Questa integrazione facilita anche la pianificazione dei processi basata su Slurm per l’esecuzione di carichi di lavoro di ML sul cluster, nonché l’accesso diretto ai nodi del cluster per la pianificazione dei processi. Con il supporto per la configurazione del ciclo di vita di HyperPod, puoi personalizzare l’ambiente di calcolo dei cluster per soddisfare requisiti specifici. Inoltre, sfruttando le librerie di addestramento distribuito di Amazon SageMaker AI, puoi ottimizzare le prestazioni dei cluster nelle risorse di calcolo e di rete AWS. Per ulteriori informazioni, consulta Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Supporto Amazon EKS in SageMaker HyperPod

SageMaker HyperPod si integra anche con Amazon EKS per abilitare l’addestramento su larga scala dei modelli di fondazione su cluster di calcolo resilienti e di lunga durata. Ciò consente agli utenti amministratori del cluster di allocare i cluster HyperPod e collegarli a un piano di controllo (control-plane) EKS, abilitando la gestione dinamica della capacità, l’accesso diretto alle istanze del cluster e le funzionalità di resilienza. Per i Data Scientist, il supporto di Amazon EKS in HyperPod consente l’esecuzione di carichi di lavoro containerizzati per l’addestramento di modelli di fondazione, l’inferenza sul cluster EKS e l’utilizzo della funzionalità di ripresa automatica del processo per l’addestramento Kubeflow PyTorch. L’architettura prevede una mappatura 1 a 1 tra un cluster EKS (piano di controllo, control-plane) e un cluster HyperPod (nodi worker) all’interno di un VPC, fornendo una soluzione strettamente integrata per l’esecuzione di carichi di lavoro di ML su larga scala. Per ulteriori informazioni, consulta Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

UltraServer con HyperPod

HyperPod con UltraServer offre la potenza di calcolo dell’IA integrando i superchip NVIDIA in un’infrastruttura coesa e ad alte prestazioni. Ogni UltraServer NVL72 combina 18 istanze con 72 GPU NVIDIA Blackwell interconnesse tramite NVLink, accelerando l’inferenza e le prestazioni di addestramento rispetto alle istanze della generazione precedente. Questa architettura è particolarmente utile per le organizzazioni che lavorano con modelli di fondazione da trilioni di parametri, poiché la memoria GPU unificata consente a interi modelli di rimanere all’interno di un singolo dominio NVLink, eliminando i colli di bottiglia della rete tra i vari nodi. HyperPod migliora questo funzionalità hardware con una pianificazione intelligente basata sulla topologia che ottimizza il posizionamento dei carichi di lavoro, la sostituzione automatica delle istanze per ridurre al minimo le interruzioni e le opzioni di implementazione flessibili che supportano la configurazione di risorse dedicate e condivise. Per i team che si spingono oltre i limiti delle dimensioni e delle prestazioni dei modelli, questa integrazione fornisce la base computazionale necessaria per addestrare e implementare i modelli di IA più avanzati con un’efficienza senza precedenti.

SageMaker HyperPod ottimizza automaticamente il posizionamento delle istanze tra gli UltraServer. Per impostazione predefinita, HyperPod dà la priorità a tutte le istanze in un UltraServer prima di utilizzarne uno diverso. Ad esempio, se hai bisogno di 14 istanze e hai 2 UltraServer nel tuo piano, SageMaker AI utilizza tutte le istanze del primo UltraServer. Se hai bisogno di 20 istanze, SageMaker AI utilizza tutte le 18 istanze nel primo UltraServer e poi ne prende altre 2 dal secondo.

Regioni AWS supportate da SageMaker HyperPod

SageMaker HyperPod è disponibile nelle seguenti Regioni AWS.

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-south-2

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-southeast-3

  • ap-southeast-4

  • ap-northeast-1

  • sa-east-1