Rilasci dell’AMI SageMaker HyperPod per Slurm
Le note di rilascio seguenti tengono traccia degli ultimi aggiornamenti ai rilasci dell’AMI Amazon SageMaker HyperPod per l’orchestrazione Slurm. Queste AMI HyperPod sono basate sull’AWS AMI di Deep Learning GPU di base (Ubuntu 22.04)
Nota
Per aggiornare i cluster HyperPod esistenti con la DLAMI più recente, consulta Aggiornamento del software della piattaforma SageMaker HyperPod di un cluster.
Note di rilascio di SageMaker HyperPod: 6 agosto 2025
SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.
Note importanti
-
Supporto CUDA 12.8 più recente
-
Driver Nvidia aggiornato da
570.158.01a570.172.08per correggere le CVE presenti nel bollettino NVIDIA Security Bulletin di luglio.
Note di rilascio di SageMaker HyperPod: 27 maggio 2025
SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.
Nuove funzionalità e miglioramenti
-
L’AMI di base aggiornata a
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523con i componenti chiave seguenti:-
Driver NVIDIA: 570.133.20
-
CUDA: 12.8 (impostazione predefinita), con supporto per CUDA 12.4-12.6
-
Versione NCCL: 2.26.5
-
Programma di installazione EFA: 1.40.0
-
AWS OFI NCCL: 1.14.2-aws
-
-
Pacchetti di SDK Neuron aggiornati:
-
aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (da 2.24.59.0-838c7fc8b)
-
aws-neuronx-dkms: 2.21.37.0 (da 2.20.28.0)
-
aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (da 2.24.53.0-f239092cc)
-
aws-neuronx-tools: 2.23.9.0 (da 2.22.61.0)
-
Note importanti
-
Al momento, il Kit di strumenti per container NVIDIA 1.17.4 ha disabilitato il montaggio delle librerie compatibili CUDA.
-
Configurazione EFA aggiornata da 1.37 a 1.38. EFA ora include il plugin AWS OFI NCCL, che si trova nella directory
/opt/amazon/ofi-ncclanziché nel percorso/opt/aws-ofi-nccl/originale. (Data di rilascio: 18 febbraio 2025) -
La versione del kernel è bloccata tramite pinning per garantire stabilità e compatibilità dei driver.
Rilasci dell’AMI SageMaker HyperPod per Slurm: 13 maggio 2025
Amazon SageMaker HyperPod ha rilasciato un’AMI aggiornata che supporta Ubuntu 22.04 LTS per cluster Slurm. AWS aggiorna regolarmente le AMI per garantire l’accesso allo stack software più recente. L’aggiornamento all’AMI più recente offre una maggiore sicurezza grazie ad aggiornamenti completi dei pacchetti, prestazioni e stabilità migliorate per i carichi di lavoro e compatibilità con i nuovi tipi di istanze e le funzionalità del kernel più recenti.
Importante
L’aggiornamento da Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce modifiche che potrebbero influire sulla compatibilità con il software e le configurazioni progettate per Ubuntu 20.04.
In questa nota di rilascio, vedrai:
Aggiornamenti chiave nell’AMI Ubuntu 22.04
La tabella seguente elenca le versioni dei componenti dell’AMI Ubuntu 22.04 rispetto all’AMI precedente.
| Componente | Versione precedente | Versione aggiornata |
|---|---|---|
|
Sistema operativo Ubuntu |
20.04 LTS |
22.04 LTS |
|
Slurm |
24.11 |
24.11 (invariata) |
|
Python |
3.8 (predefinita) |
3.10 (predefinita) |
|
Elastic Fabric Adapter (EFA) su Amazon FSx |
Non supportato |
Supportata |
|
Kernel Linux |
5.15 |
6.8 |
|
Libreria GNU C (glibc) |
2.31 |
2.35 |
|
GNU Compiler Collection (GCC) |
9.4.0 |
11.4.0 |
|
libc6 |
≤ 2.31 |
Supportato ≥ 2.35 |
|
File system di rete (NFS) |
1:1.3.4 |
1:2.6.1 |
Nota
Sebbene la versione Slurm (24.11) resti invariata, gli aggiornamenti sottostanti del sistema operativo e della libreria in questa AMI possono influire sul comportamento del sistema e sulla compatibilità del carico di lavoro. È necessario testare i carichi di lavoro prima di aggiornare i cluster di produzione.
Aggiornamento all’AMI Ubuntu 22.04
Prima di aggiornare il cluster all’AMI Ubuntu 22.04, completa queste fasi di preparazione e rivedi i requisiti di aggiornamento. Per risolvere gli errori di aggiornamento, consulta Risoluzione dei problemi di aggiornamento.
Analisi della compatibilità Python
L’AMI Ubuntu 22.04 utilizza Python 3.10 come versione predefinita, aggiornata da Python 3.8. Sebbene Python 3.10 mantenga la compatibilità con la maggior parte del codice Python 3.8, è necessario testare i carichi di lavoro esistenti prima dell’aggiornamento. Se i tuoi carichi di lavoro richiedono Python 3.8, puoi installarlo utilizzando il comando seguente nello script del ciclo di vita:
yum install python-3.8
Prima di aggiornare il cluster:
-
Verifica la compatibilità del tuo codice con Python 3.10.
-
Verifica che gli script del ciclo di vita funzionino nel nuovo ambiente.
-
Verifica che tutte le dipendenze siano compatibili con la nuova versione di Python.
-
Se hai creato il cluster HyperPod copiando lo script del ciclo di vita predefinito da GitHub, aggiungi il comando seguente al file
setup_mariadb_accounting.shprima di eseguire l’aggiornamento a Ubuntu 22. Per lo script completo, consulta setup_mariadb_accounting.sh su GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Aggiornamento del cluster Slurm
Per utilizzare la nuova AMI, puoi aggiornare il cluster Slurm in due modi:
-
Crea un nuovo cluster con l’API
CreateCluster. -
Aggiorna il software di un cluster esistente con l’API
UpdateClusterSoftware.
Configurazioni convalidate
AWS ha testato un’ampia gamma di carichi di lavoro di addestramento distribuito e funzionalità dell’infrastruttura su istanze G5, G6, G6e, P4d, P5 e Trn1, tra cui:
-
Addestramento distribuito con PyTorch (ad esempio FSDP, NeMo, LLaMA, MNIST).
-
Test degli acceleratori su diversi tipi di istanze con Nvidia (serie P/G) e AWS Neuron (Trn1).
-
Funzionalità di resilienza che includono la ripresa automatica e i controlli dell’integrità approfonditi.
Tempi di inattività e disponibilità dei cluster
Durante il processo di aggiornamento, il cluster non sarà disponibile. Per ridurre al minimo le interruzioni, procedi come descritto di seguito:
-
Testa il processo di aggiornamento su cluster più piccoli.
-
Crea checkpoint prima dell’aggiornamento, quindi riavvia i carichi di lavoro di addestramento dai checkpoint esistenti dopo l’aggiornamento.
Risoluzione dei problemi di aggiornamento
Quando un aggiornamento non riesce, stabilisci innanzitutto se l’errore è correlato agli script del ciclo di vita. Questi script generalmente non riescono a causa di errori di sintassi, dipendenze mancanti o configurazioni errate.
Per esaminare gli errori relativi agli script del ciclo di vita, controlla i log di CloudWatch. Tutti gli eventi e i log di SageMaker HyperPod sono archiviati nel gruppo di log: /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Guarda in particolare il flusso di log LifecycleConfig/[instance-group-name]/[instance-id], che fornisce informazioni dettagliate su eventuali errori durante l’esecuzione dello script.
Se l’errore di aggiornamento non è correlato agli script del ciclo di vita, raccogli le informazioni pertinenti, tra cui l’ARN del cluster, i log degli errori e i timestamp, quindi contatta il supporto AWS
Rilasci dell’AMI SageMaker HyperPod per Slurm: 7 maggio 2025
Amazon SageMaker HyperPod per Slurm ha rilasciato un importante aggiornamento del sistema operativo Ubuntu alla versione 22.04 (dalla versione precedente Ubuntu 20.04). Consulta DLAMI Ubuntu 22.04 (note di rilascioDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.
Aggiornamenti chiave dei pacchetti:
-
Ubuntu 22.04 LTS (da 20.04)
-
Versione di Python:
-
Python 3.10 è ora la versione Python predefinita nell’AMI Slurm di Ubuntu 22.04
-
Questo aggiornamento fornisce l’accesso alle funzionalità più recenti, miglioramenti delle prestazioni e correzioni di bug introdotte in Python 3.10
-
-
Support per EFA su FSx
-
Nuova versione del kernel Linux 6.8 (aggiornata dalla versione 5.15)
-
Versione Glibc: 2.35 (aggiornata dalla versione 2.31)
-
Versione GCC: 11.4.0 (aggiornata dalla versione 9.4.0)
-
Supporto per versioni libc6 più recenti (dalla versione libc6 <= 2.31)
-
Versione NFS: 1:2.6.1 (aggiornata dalla versione 1:1.3.4)
Rilasci dell’AMI SageMaker HyperPod per Slurm: 28 aprile 2025
Miglioramenti per Slurm
-
Driver NVIDIA aggiornato dalla versione 550.144.03 alla 550.163.01. Lo scopo di questo aggiornamento è risolvere le CVE (Common Vulnerabilities and Exposures) riportate nel bollettino NVIDIA GPU Display Security Bulletin di aprile 2025
.
Supporto per la DLAMI di Amazon SageMaker HyperPod per Slurm
Rilasci dell’AMI SageMaker HyperPod per Slurm: 18 febbraio 2025
Miglioramenti per Slurm
-
Versione Slurm aggiornata alla 24.11.
-
Versione Elastic Fabric Adapter (EFA) aggiornata dalla 1.37.0 alla 1.38.0.
-
EFA ora include il plugin AWS OFI NCCL. Puoi trovare questo plugin nella directory
/opt/amazon/ofi-nccl, anziché nella posizione/opt/aws-ofi-nccl/originale. Se devi aggiornare la variabile di ambienteLD_LIBRARY_PATH, assicurati di modificare il percorso in modo che punti alla nuova posizione/opt/amazon/ofi-nccldel plugin OFI NCCL. -
Pacchetto emacs rimosso da queste DLAMI. Puoi installare emacs da GNU emac.
Supporto per la DLAMI di Amazon SageMaker HyperPod per Slurm
Rilasci dell’AMI SageMaker HyperPod per Slurm: 21 dicembre 2024
Supporto per la DLAMI di SageMaker HyperPod per Slurm
Rilasci dell’AMI SageMaker HyperPod per Slurm: 24 novembre 2024
Aggiornamenti generali AMI
-
Rilasciata nella Regione
MEL(Melbourne). -
DLAMI di SageMaker HyperPod di base aggiornata alle versioni seguenti:
-
Slurm: 22/11/2024.
-
Rilasci dell’AMI SageMaker HyperPod per Slurm: 15 novembre 2024
Aggiornamenti generali AMI
-
Ultimo pacchetto
libnvidia-nscq-xxxinstallato.
Supporto per la DLAMI di SageMaker HyperPod per Slurm
Rilasci dell’AMI SageMaker HyperPod per Slurm: 11 novembre 2024
Aggiornamenti generali AMI
-
DLAMI di SageMaker HyperPod di base aggiornata alla versione seguente:
-
Slurm: 23/10/2024.
-
Rilasci dell’AMI SageMaker HyperPod per Slurm: 21 ottobre 2024
Aggiornamenti generali AMI
-
DLAMI di SageMaker HyperPod di base aggiornata alle versioni seguenti:
-
Slurm: 27/09/2024.
-
Rilasci dell’AMI SageMaker HyperPod per Slurm: 10 settembre 2024
Supporto per la DLAMI di SageMaker HyperPod per Slurm
Rilasci dell’AMI SageMaker HyperPod per Slurm: 14 marzo 2024
Patch software della DLAMI di HyperPod per Slurm
-
Slurm
aggiornato alla versione 23.11.1 -
È stato aggiunto OpenPMIx
v4.2.6 per abilitare Slurm con PMIx . -
Basato sull’AWS AMI di Deep Learning GPU di base (Ubuntu 20.04)
rilasciata il 26/10/2023 -
Un elenco completo dei pacchetti preinstallati in questa DLAMI di HyperPod, oltre all’AMI di base
Fasi dell’aggiornamento
-
Utilizza il comando seguente per richiamare l’API UpdateClusterSoftware per aggiornare i cluster HyperPod esistenti con la versione più recente della DLAMI di HyperPod. Per ulteriori istruzioni, consulta Aggiornamento del software della piattaforma SageMaker HyperPod di un cluster.
Importante
Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di applicazione delle patch sostituisce il volume root con l’AMI aggiornata, il che significa che i dati precedenti archiviati nel volume root dell’istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell’istanza su Amazon S3 o Amazon FSx per Lustre. Per ulteriori informazioni, consulta Utilizzo dello script di backup fornito da SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-nameyour-cluster-nameNota
Tieni presente che dovresti eseguire il comando AWS CLI per aggiornare il cluster HyperPod. L’aggiornamento del software HyperPod tramite l’interfaccia utente della console SageMaker HyperPod non è attualmente disponibile.
Rilascio dell’AMI SageMaker HyperPod per Slurm: 29 novembre 2023
Patch software della DLAMI di HyperPod per Slurm
Il team di assistenza HyperPod distribuisce le patch software tramite DLAMI di SageMaker HyperPod. Consulta le informazioni seguenti sulla DLAMI di HyperPod più recente.
-
Basato sull’AWS AMI di Deep Learning GPU di base (Ubuntu 20.04)
rilasciata il 18/10/2023 -
Un elenco completo dei pacchetti preinstallati in questa DLAMI di HyperPod, oltre all’AMI di base
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
Pacchetti software SageMaker HyperPod per supportare funzionalità come il controllo dell’integrità del cluster e la ripresa automatica
-