Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker HyperPod supporto per nodi multitesta
È possibile creare più nodi controller (head) in un singolo cluster SageMaker HyperPod Slurm, uno dei quali funge da nodo di controller principale e gli altri da nodi di controller di backup. Il nodo controller primario è responsabile del controllo dei nodi di calcolo (worker) e della gestione delle operazioni Slurm. I nodi controller di backup monitorano costantemente il nodo controller primario. Se il nodo controller primario non riesce o non risponde, uno dei nodi controller di backup lo sostituisce automaticamente diventando il nuovo nodo controller primario.
La configurazione di più nodi controller nei cluster SageMaker HyperPod Slurm offre diversi vantaggi chiave. Elimina il rischio legato al malfunzionamento di un singolo nodo controller fornendo nodi head del controller, consente il failover automatico sui nodi controller di backup con un ripristino più rapido e consente di gestire l’accounting dei database e la configurazione Slurm in modo indipendente.
Concetti chiave
Di seguito vengono forniti dettagli sui concetti relativi al supporto di SageMaker HyperPod più nodi controller (principali) per i cluster Slurm.
Nodi controller
Un nodo controller è un' EC2 istanza Amazon all'interno di un cluster che esegue servizi Slurm critici per la gestione e il coordinamento delle operazioni del cluster. In particolare, ospita il daemon del controller Slurm (slurmctld)
Nodo controller primario
Un nodo controller primario è il nodo controller attivo e attualmente responsabile del controllo in un cluster Slurm. Viene considerato da Slurm come il nodo controller primario responsabile della gestione del cluster. Il nodo controller primario riceve i comandi dagli utenti e li esegue per controllare e allocare risorse sui nodi di calcolo per l’esecuzione dei processi.
Nodo controller di backup
Un nodo controller di backup è un nodo controller inattivo e in standby in un cluster Slurm. Viene considerato da Slurm come un nodo controller di backup che attualmente non gestisce il cluster. Il nodo controller di backup esegue il daemon del controller Slurm (slurmctld)
Nodo di calcolo
Un nodo di calcolo è un' EC2 istanza Amazon all'interno di un cluster che ospita il daemon di lavoro Slurm (slurmd
Come funziona
Il diagramma seguente illustra come diversi AWS servizi interagiscono per supportare l'architettura dei nodi a più controller (principali) per i cluster Slurm. SageMaker HyperPod
I AWS servizi che interagiscono per supportare l'architettura dei nodi con controller SageMaker HyperPod multipli (principali) includono quanto segue.
| Servizio | Description |
|---|---|
| IAM (AWS Identity and Access Management) | Definisce due ruoli IAM per controllare le autorizzazioni di accesso: un ruolo per il gruppo di istanze del nodo di calcolo e l’altro per il gruppo di istanze del nodo controller. |
| Amazon RDS per MariaDB | Archivia i dati di accounting per Slurm, che contengono i record dei processi e i dati di misurazione. |
| Gestione dei segreti AWS | Archivia e gestisce le credenziali a cui può accedere Amazon FSx for Lustre. |
| Amazon FSx per Lustre | Archivia le configurazioni e lo stato di runtime di Slurm. |
| Amazon VPC | Fornisce un ambiente di rete isolato in cui vengono distribuiti il HyperPod cluster e le relative risorse. |
| Amazon SNS | Invia notifiche agli amministratori in caso di modifiche dello stato (il controller Slurm è ON o OFF) relative al nodo controller primario (head). |
Il HyperPod cluster stesso è costituito da nodi di controller (primari e di backup) e nodi di elaborazione. I nodi controller eseguono i componenti Slurm controller (SlurmCtld) e database (SlurmDBd), che gestiscono e monitorano il carico di lavoro tra i nodi di elaborazione.
I nodi del controller accedono alle configurazioni Slurm e allo stato di runtime archiviati nel file system Amazon FSx for Lustre. I dati di contabilità Slurm sono archiviati nel database Amazon RDS for MariaDB. Gestione dei segreti AWSfornisce un accesso sicuro alle credenziali del database per i nodi del controller.
In caso di modifica dello stato (il controller Slurm è ON o OFF) nei nodi controller Slurm, Amazon SNS invia notifiche all’amministratore per ulteriori azioni.
Questa architettura con più nodi controller elimina il singolo punto di errore di un singolo nodo controller (head), consente un ripristino rapido e automatico del failover e offre il controllo sulle configurazioni e il database di accounting di Slurm.