SageMaker HyperPod supporto per nodi multitesta - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker HyperPod supporto per nodi multitesta

È possibile creare più nodi controller (head) in un singolo cluster SageMaker HyperPod Slurm, uno dei quali funge da nodo di controller principale e gli altri da nodi di controller di backup. Il nodo controller primario è responsabile del controllo dei nodi di calcolo (worker) e della gestione delle operazioni Slurm. I nodi controller di backup monitorano costantemente il nodo controller primario. Se il nodo controller primario non riesce o non risponde, uno dei nodi controller di backup lo sostituisce automaticamente diventando il nuovo nodo controller primario.

La configurazione di più nodi controller nei cluster SageMaker HyperPod Slurm offre diversi vantaggi chiave. Elimina il rischio legato al malfunzionamento di un singolo nodo controller fornendo nodi head del controller, consente il failover automatico sui nodi controller di backup con un ripristino più rapido e consente di gestire l’accounting dei database e la configurazione Slurm in modo indipendente.

Concetti chiave

Di seguito vengono forniti dettagli sui concetti relativi al supporto di SageMaker HyperPod più nodi controller (principali) per i cluster Slurm.

Nodi controller

Un nodo controller è un' EC2 istanza Amazon all'interno di un cluster che esegue servizi Slurm critici per la gestione e il coordinamento delle operazioni del cluster. In particolare, ospita il daemon del controller Slurm (slurmctld) e il daemon del database Slurm (slurmdbd). Un nodo controller è anche noto come nodo head.

Nodo controller primario

Un nodo controller primario è il nodo controller attivo e attualmente responsabile del controllo in un cluster Slurm. Viene considerato da Slurm come il nodo controller primario responsabile della gestione del cluster. Il nodo controller primario riceve i comandi dagli utenti e li esegue per controllare e allocare risorse sui nodi di calcolo per l’esecuzione dei processi.

Nodo controller di backup

Un nodo controller di backup è un nodo controller inattivo e in standby in un cluster Slurm. Viene considerato da Slurm come un nodo controller di backup che attualmente non gestisce il cluster. Il nodo controller di backup esegue il daemon del controller Slurm (slurmctld) in modalità standby. Tutti i comandi del controller eseguiti sui nodi controller di backup verranno propagati al nodo controller primario per l’esecuzione. Il suo scopo principale è monitorare continuamente il nodo controller primario e assumersene le responsabilità in caso di errore o di mancata risposta.

Nodo di calcolo

Un nodo di calcolo è un' EC2 istanza Amazon all'interno di un cluster che ospita il daemon di lavoro Slurm (slurmd). La funzione primaria del nodo di calcolo consiste nell’eseguire i processi assegnati dal daemon del controller Slurm (slurmctld) in esecuzione sul nodo controller primario. Quando viene pianificato un processo, il nodo di calcolo riceve istruzioni dal daemon del controller Slurm (slurmctld) per eseguire le attività e i calcoli necessari per tale processo all’interno del nodo stesso. Un calcolo è anche noto come nodo worker.

Come funziona

Il diagramma seguente illustra come diversi AWS servizi interagiscono per supportare l'architettura dei nodi a più controller (principali) per i cluster Slurm. SageMaker HyperPod

SageMaker HyperPod diagramma di architettura dei nodi a più teste

I AWS servizi che interagiscono per supportare l'architettura dei nodi con controller SageMaker HyperPod multipli (principali) includono quanto segue.

AWSservizi che interagiscono per supportare l'architettura con SageMaker HyperPod più nodi di controller
Servizio Description
IAM (AWS Identity and Access Management) Definisce due ruoli IAM per controllare le autorizzazioni di accesso: un ruolo per il gruppo di istanze del nodo di calcolo e l’altro per il gruppo di istanze del nodo controller.
Amazon RDS per MariaDB Archivia i dati di accounting per Slurm, che contengono i record dei processi e i dati di misurazione.
Gestione dei segreti AWS Archivia e gestisce le credenziali a cui può accedere Amazon FSx for Lustre.
Amazon FSx per Lustre Archivia le configurazioni e lo stato di runtime di Slurm.
Amazon VPC Fornisce un ambiente di rete isolato in cui vengono distribuiti il HyperPod cluster e le relative risorse.
Amazon SNS Invia notifiche agli amministratori in caso di modifiche dello stato (il controller Slurm è ON o OFF) relative al nodo controller primario (head).

Il HyperPod cluster stesso è costituito da nodi di controller (primari e di backup) e nodi di elaborazione. I nodi controller eseguono i componenti Slurm controller (SlurmCtld) e database (SlurmDBd), che gestiscono e monitorano il carico di lavoro tra i nodi di elaborazione.

I nodi del controller accedono alle configurazioni Slurm e allo stato di runtime archiviati nel file system Amazon FSx for Lustre. I dati di contabilità Slurm sono archiviati nel database Amazon RDS for MariaDB. Gestione dei segreti AWSfornisce un accesso sicuro alle credenziali del database per i nodi del controller.

In caso di modifica dello stato (il controller Slurm è ON o OFF) nei nodi controller Slurm, Amazon SNS invia notifiche all’amministratore per ulteriori azioni.

Questa architettura con più nodi controller elimina il singolo punto di errore di un singolo nodo controller (head), consente un ripristino rapido e automatico del failover e offre il controllo sulle configurazioni e il database di accounting di Slurm.