Orchestrazione dei cluster SageMaker HyperPod con Slurm - Amazon SageMaker AI

Orchestrazione dei cluster SageMaker HyperPod con Slurm

Il supporto Slurm in SageMaker HyperPod consente di allocare cluster resilienti per l’esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di modelli all’avanguardia come i modelli linguistici di grandi dimensioni (LLM), i modelli di diffusione e i modelli di fondazione (FM). Accelera lo sviluppo dei modelli di fondazione rimuovendo le pesanti attività di routine legate alla creazione e alla manutenzione di cluster di calcolo su larga scala alimentati da migliaia di acceleratori come AWS Trainium e le unità di elaborazione grafica (GPU) NVIDIA A100 e H100. Quando gli acceleratori si guastano, le funzionalità di resilienza di SageMaker HyperPod che monitorano le istanze del cluster rilevano e sostituiscono automaticamente l’hardware difettoso in modo che tu possa concentrarti sull’esecuzione di carichi di lavoro di ML. Inoltre, con il supporto della configurazione del ciclo di vita in SageMaker HyperPod puoi personalizzare il tuo ambiente di calcolo in base alle tue esigenze e configurarlo con le librerie di addestramento distribuito di Amazon SageMaker AI per ottenere prestazioni ottimali in AWS.

Gestione dei cluster

Puoi creare, configurare e gestire i cluster SageMaker HyperPod graficamente tramite l’interfaccia utente della console e, in modo programmatico, tramite l’interfaccia a riga di comando (CLI) AWS oppure AWS SDK per Python (Boto3). Con Amazon VPC puoi proteggere la rete del cluster e sfruttare allo stesso tempo la configurazione del cluster con le risorse nel tuo VPC, ad esempio Amazon FSx per Lustre, che offre il throughput più veloce. Puoi anche assegnare diversi ruoli IAM ai gruppi di istanze del cluster e limitare le azioni che le risorse e gli utenti del cluster possono eseguire. Per ulteriori informazioni, consulta Operazioni del cluster SageMaker HyperPod Slurm.

Configurazione dell’ambiente di ML

SageMaker HyperPod esegue DLAMI di SageMaker HyperPod, che configura un ambiente di ML sui cluster HyperPod. Puoi configurare personalizzazioni aggiuntive per DLAMI fornendo script del ciclo di vita per supportare il tuo caso d’uso. Per ulteriori informazioni su come configurare gli script del ciclo di vita, consulta Nozioni di base su SageMaker HyperPod e Personalizzazione dei cluster SageMaker HyperPod con script del ciclo di vita.

Pianificazione dei processi

Dopo aver creato correttamente un cluster HyperPod, gli utenti del cluster possono accedere ai nodi del cluster (come il nodo head o il nodo controller, il nodo login e il nodo worker) e pianificare i processi per l’esecuzione di carichi di lavoro di machine learning. Per ulteriori informazioni, consulta Processi sui cluster SageMaker HyperPod.

Resilienza contro i guasti hardware

SageMaker HyperPod esegue controlli dell’integrità sui nodi del cluster e fornisce una funzionalità di ripresa automatica del carico di lavoro. Con le funzionalità di resilienza dei cluster di HyperPod, puoi riprendere il carico di lavoro dall’ultimo checkpoint salvato, dopo che i nodi difettosi sono stati sostituiti con nodi integri nei cluster con più di 16 nodi. Per ulteriori informazioni, consulta Resilienza del cluster SageMaker HyperPod.

Registrazione di log e gestione dei cluster

Puoi trovare le metriche di utilizzo delle risorse e i log del ciclo di vita di SageMaker HyperPod in Amazon CloudWatch e gestire le risorse SageMaker HyperPod taggandole. Ogni esecuzione dell’API CreateCluster crea un flusso di log distinto, denominato in base al formato <cluster-name>-<timestamp>. Nel flusso di log, puoi controllare i nomi degli host, il nome degli script del ciclo di vita non riusciti e gli output degli script non riusciti, ad esempio stdout e stderr. Per ulteriori informazioni, consulta Gestione dei cluster SageMaker HyperPod.

Compatibile con gli strumenti di SageMaker AI

Utilizzando SageMaker HyperPod, puoi configurare i cluster con librerie AWS di comunicazione collettiva ottimizzate offerte da SageMaker AI, ad esempio la libreria SageMaker AI Distributed Data Parallelism (SMDDP). La libreria SMDDP implementa l’operazione AllGather ottimizzata per l’infrastruttura di calcolo e di rete AWS per le istanze di machine learning SageMaker AI più performanti basate su GPU NVIDIA A100. Per ulteriori informazioni, consulta Esecuzione di carichi di lavoro di addestramento distribuito con Slurm su HyperPod.

Posizionamento delle istanze con UltraServer

SageMaker AI alloca automaticamente i processi alle istanze all’interno dell’UltraServer sulla base di una strategia che prevede l’impiego ottimale di tutte le istanze di un UltraServer prima di utilizzarne un altro. Ad esempio, se richiedi 14 istanze e hai 2 UltraServer nel tuo piano di addestramento, SageMaker AI utilizza tutte le istanze del primo UltraServer. Se hai richiesto 20 istanze e hai 2 UltraServer nel tuo piano di addestramento, SageMaker AI utilizzerà tutte le 17 istanze del primo UltraServer e 3 del secondo UltraServer.