Rilasci dell’AMI SageMaker HyperPod per Slurm - Amazon SageMaker AI

Rilasci dell’AMI SageMaker HyperPod per Slurm

Le note di rilascio seguenti tengono traccia degli ultimi aggiornamenti ai rilasci dell’AMI Amazon SageMaker HyperPod per l’orchestrazione Slurm. Queste AMI HyperPod sono basate sull’AWS AMI di Deep Learning GPU di base (Ubuntu 22.04). Il team di assistenza HyperPod distribuisce le patch software tramite DLAMI di SageMaker HyperPod. Per i rilasci dell’AMI HyperPod per l’orchestrazione di Amazon EKS, consulta Rilascio dell’AMI SageMaker HyperPod per Amazon EKS. Per informazioni sui rilasci delle funzionalità di Amazon SageMaker HyperPod, consulta Note di rilascio di Amazon SageMaker HyperPod.

Nota

Per aggiornare i cluster HyperPod esistenti con la DLAMI più recente, consulta Aggiornamento del software della piattaforma SageMaker HyperPod di un cluster.

Note di rilascio di SageMaker HyperPod: 6 agosto 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2.27.34.0-ec8cd5e8b amd64 neuron_ccom creato con CMake

  • aws-neuronx-dkms: 2.23.9.0 tutti i driver aws-neuronx in formato DKMS

  • aws-neuronx-runtime-lib: 2.27.23.0-8deec4dbf amd64 neuron_runtime creato con CMake

  • aws-neuronx-tools/unknown: 2.25.145.0

Note importanti

Note di rilascio di SageMaker HyperPod: 27 maggio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità e miglioramenti

  • L’AMI di base aggiornata a Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523 con i componenti chiave seguenti:

    • Driver NVIDIA: 570.133.20

    • CUDA: 12.8 (impostazione predefinita), con supporto per CUDA 12.4-12.6

    • Versione NCCL: 2.26.5

    • Programma di installazione EFA: 1.40.0

    • AWS OFI NCCL: 1.14.2-aws

  • Pacchetti di SDK Neuron aggiornati:

    • aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (da 2.24.59.0-838c7fc8b)

    • aws-neuronx-dkms: 2.21.37.0 (da 2.20.28.0)

    • aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (da 2.24.53.0-f239092cc)

    • aws-neuronx-tools: 2.23.9.0 (da 2.22.61.0)

Note importanti

  • Al momento, il Kit di strumenti per container NVIDIA 1.17.4 ha disabilitato il montaggio delle librerie compatibili CUDA.

  • Configurazione EFA aggiornata da 1.37 a 1.38. EFA ora include il plugin AWS OFI NCCL, che si trova nella directory /opt/amazon/ofi-nccl anziché nel percorso /opt/aws-ofi-nccl/ originale. (Data di rilascio: 18 febbraio 2025)

  • La versione del kernel è bloccata tramite pinning per garantire stabilità e compatibilità dei driver.

Rilasci dell’AMI SageMaker HyperPod per Slurm: 13 maggio 2025

Amazon SageMaker HyperPod ha rilasciato un’AMI aggiornata che supporta Ubuntu 22.04 LTS per cluster Slurm. AWS aggiorna regolarmente le AMI per garantire l’accesso allo stack software più recente. L’aggiornamento all’AMI più recente offre una maggiore sicurezza grazie ad aggiornamenti completi dei pacchetti, prestazioni e stabilità migliorate per i carichi di lavoro e compatibilità con i nuovi tipi di istanze e le funzionalità del kernel più recenti.

Importante

L’aggiornamento da Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce modifiche che potrebbero influire sulla compatibilità con il software e le configurazioni progettate per Ubuntu 20.04.

Aggiornamenti chiave nell’AMI Ubuntu 22.04

La tabella seguente elenca le versioni dei componenti dell’AMI Ubuntu 22.04 rispetto all’AMI precedente.

Versioni dei componenti dell’AMI Ubuntu 22.04 rispetto all’AMI precedente
Componente Versione precedente Versione aggiornata

Sistema operativo Ubuntu

20.04 LTS

22.04 LTS

Slurm

24.11

24.11 (invariata)

Python

3.8 (predefinita)

3.10 (predefinita)

Elastic Fabric Adapter (EFA) su Amazon FSx

Non supportato

Supportata

Kernel Linux

5.15

6.8

Libreria GNU C (glibc)

2.31

2.35

GNU Compiler Collection (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

Supportato ≥ 2.35

File system di rete (NFS)

1:1.3.4

1:2.6.1

Nota

Sebbene la versione Slurm (24.11) resti invariata, gli aggiornamenti sottostanti del sistema operativo e della libreria in questa AMI possono influire sul comportamento del sistema e sulla compatibilità del carico di lavoro. È necessario testare i carichi di lavoro prima di aggiornare i cluster di produzione.

Aggiornamento all’AMI Ubuntu 22.04

Prima di aggiornare il cluster all’AMI Ubuntu 22.04, completa queste fasi di preparazione e rivedi i requisiti di aggiornamento. Per risolvere gli errori di aggiornamento, consulta Risoluzione dei problemi di aggiornamento.

Analisi della compatibilità Python

L’AMI Ubuntu 22.04 utilizza Python 3.10 come versione predefinita, aggiornata da Python 3.8. Sebbene Python 3.10 mantenga la compatibilità con la maggior parte del codice Python 3.8, è necessario testare i carichi di lavoro esistenti prima dell’aggiornamento. Se i tuoi carichi di lavoro richiedono Python 3.8, puoi installarlo utilizzando il comando seguente nello script del ciclo di vita:

yum install python-3.8

Prima di aggiornare il cluster:

  1. Verifica la compatibilità del tuo codice con Python 3.10.

  2. Verifica che gli script del ciclo di vita funzionino nel nuovo ambiente.

  3. Verifica che tutte le dipendenze siano compatibili con la nuova versione di Python.

  4. Se hai creato il cluster HyperPod copiando lo script del ciclo di vita predefinito da GitHub, aggiungi il comando seguente al file setup_mariadb_accounting.sh prima di eseguire l’aggiornamento a Ubuntu 22. Per lo script completo, consulta setup_mariadb_accounting.sh su GitHub.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Aggiornamento del cluster Slurm

Per utilizzare la nuova AMI, puoi aggiornare il cluster Slurm in due modi:

  1. Crea un nuovo cluster con l’API CreateCluster.

  2. Aggiorna il software di un cluster esistente con l’API UpdateClusterSoftware.

Configurazioni convalidate

AWS ha testato un’ampia gamma di carichi di lavoro di addestramento distribuito e funzionalità dell’infrastruttura su istanze G5, G6, G6e, P4d, P5 e Trn1, tra cui:

Tempi di inattività e disponibilità dei cluster

Durante il processo di aggiornamento, il cluster non sarà disponibile. Per ridurre al minimo le interruzioni, procedi come descritto di seguito:

  • Testa il processo di aggiornamento su cluster più piccoli.

  • Crea checkpoint prima dell’aggiornamento, quindi riavvia i carichi di lavoro di addestramento dai checkpoint esistenti dopo l’aggiornamento.

Risoluzione dei problemi di aggiornamento

Quando un aggiornamento non riesce, stabilisci innanzitutto se l’errore è correlato agli script del ciclo di vita. Questi script generalmente non riescono a causa di errori di sintassi, dipendenze mancanti o configurazioni errate.

Per esaminare gli errori relativi agli script del ciclo di vita, controlla i log di CloudWatch. Tutti gli eventi e i log di SageMaker HyperPod sono archiviati nel gruppo di log: /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Guarda in particolare il flusso di log LifecycleConfig/[instance-group-name]/[instance-id], che fornisce informazioni dettagliate su eventuali errori durante l’esecuzione dello script.

Se l’errore di aggiornamento non è correlato agli script del ciclo di vita, raccogli le informazioni pertinenti, tra cui l’ARN del cluster, i log degli errori e i timestamp, quindi contatta il supporto AWS per ulteriore assistenza.

Rilasci dell’AMI SageMaker HyperPod per Slurm: 7 maggio 2025

Amazon SageMaker HyperPod per Slurm ha rilasciato un importante aggiornamento del sistema operativo Ubuntu alla versione 22.04 (dalla versione precedente Ubuntu 20.04). Consulta DLAMI Ubuntu 22.04 (note di rilascio) per ulteriori informazioni: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.

Aggiornamenti chiave dei pacchetti:

  • Ubuntu 22.04 LTS (da 20.04)

  • Versione di Python:

    • Python 3.10 è ora la versione Python predefinita nell’AMI Slurm di Ubuntu 22.04

    • Questo aggiornamento fornisce l’accesso alle funzionalità più recenti, miglioramenti delle prestazioni e correzioni di bug introdotte in Python 3.10

  • Support per EFA su FSx

  • Nuova versione del kernel Linux 6.8 (aggiornata dalla versione 5.15)

  • Versione Glibc: 2.35 (aggiornata dalla versione 2.31)

  • Versione GCC: 11.4.0 (aggiornata dalla versione 9.4.0)

  • Supporto per versioni libc6 più recenti (dalla versione libc6 <= 2.31)

  • Versione NFS: 1:2.6.1 (aggiornata dalla versione 1:1.3.4)

Rilasci dell’AMI SageMaker HyperPod per Slurm: 28 aprile 2025

Miglioramenti per Slurm

Supporto per la DLAMI di Amazon SageMaker HyperPod per Slurm

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2.24.59.0-838c7fc8b

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/unknown: 2.22.61.0

Rilasci dell’AMI SageMaker HyperPod per Slurm: 18 febbraio 2025

Miglioramenti per Slurm

  • Versione Slurm aggiornata alla 24.11.

  • Versione Elastic Fabric Adapter (EFA) aggiornata dalla 1.37.0 alla 1.38.0.

  • EFA ora include il plugin AWS OFI NCCL. Puoi trovare questo plugin nella directory /opt/amazon/ofi-nccl, anziché nella posizione /opt/aws-ofi-nccl/ originale. Se devi aggiornare la variabile di ambiente LD_LIBRARY_PATH, assicurati di modificare il percorso in modo che punti alla nuova posizione /opt/amazon/ofi-nccl del plugin OFI NCCL.

  • Pacchetto emacs rimosso da queste DLAMI. Puoi installare emacs da GNU emac.

Supporto per la DLAMI di Amazon SageMaker HyperPod per Slurm

Installed the latest version of AWS Neuron SDK 2.19
  • aws-neuronx-collectives/unknown: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unknown: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unknown: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unknown: 2.20.204.0 amd64

Rilasci dell’AMI SageMaker HyperPod per Slurm: 21 dicembre 2024

Supporto per la DLAMI di SageMaker HyperPod per Slurm

Deep Learning Slurm AMI
  • Driver NVIDIA: 550.127.05

  • Driver EFA: 2.13.0-1

  • Installazione della versione più recente di AWS Neuron SDK

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 2.18.20.0

    • aws-neuronx-oci-hook: 2.5.8.0

    • aws-neuronx-runtime-lib: 2.22.19.0

    • aws-neuronx-tools: 2.19.0.0

Rilasci dell’AMI SageMaker HyperPod per Slurm: 24 novembre 2024

Aggiornamenti generali AMI

  • Rilasciata nella Regione MEL (Melbourne).

  • DLAMI di SageMaker HyperPod di base aggiornata alle versioni seguenti:

    • Slurm: 22/11/2024.

Rilasci dell’AMI SageMaker HyperPod per Slurm: 15 novembre 2024

Aggiornamenti generali AMI

  • Ultimo pacchetto libnvidia-nscq-xxx installato.

Supporto per la DLAMI di SageMaker HyperPod per Slurm

Deep Learning Slurm AMI
  • Driver NVIDIA: 550.127.05

  • Driver EFA: 2.13.0-1

  • Installazione della versione più recente di AWS Neuron SDK

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

Rilasci dell’AMI SageMaker HyperPod per Slurm: 11 novembre 2024

Aggiornamenti generali AMI

  • DLAMI di SageMaker HyperPod di base aggiornata alla versione seguente:

    • Slurm: 23/10/2024.

Rilasci dell’AMI SageMaker HyperPod per Slurm: 21 ottobre 2024

Aggiornamenti generali AMI

  • DLAMI di SageMaker HyperPod di base aggiornata alle versioni seguenti:

    • Slurm: 27/09/2024.

Rilasci dell’AMI SageMaker HyperPod per Slurm: 10 settembre 2024

Supporto per la DLAMI di SageMaker HyperPod per Slurm

Deep Learning Slurm AMI
  • Installato il driver NVIDIA v550.90.07

  • Installato il driver EFA v2.10

  • Installazione della versione più recente di AWS Neuron SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

Rilasci dell’AMI SageMaker HyperPod per Slurm: 14 marzo 2024

Patch software della DLAMI di HyperPod per Slurm

  • Slurm aggiornato alla versione 23.11.1

  • È stato aggiunto OpenPMIx v4.2.6 per abilitare Slurm con PMIx.

  • Basato sull’AWS AMI di Deep Learning GPU di base (Ubuntu 20.04) rilasciata il 26/10/2023

  • Un elenco completo dei pacchetti preinstallati in questa DLAMI di HyperPod, oltre all’AMI di base

    • Slurm: v23.11.1

    • OpenPMIx: v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • Pacchetti software SageMaker HyperPod per supportare funzionalità come il controllo dell’integrità del cluster e la ripresa automatica

Fasi dell’aggiornamento

  • Utilizza il comando seguente per richiamare l’API UpdateClusterSoftware per aggiornare i cluster HyperPod esistenti con la versione più recente della DLAMI di HyperPod. Per ulteriori istruzioni, consulta Aggiornamento del software della piattaforma SageMaker HyperPod di un cluster.

    Importante

    Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di applicazione delle patch sostituisce il volume root con l’AMI aggiornata, il che significa che i dati precedenti archiviati nel volume root dell’istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell’istanza su Amazon S3 o Amazon FSx per Lustre. Per ulteriori informazioni, consulta Utilizzo dello script di backup fornito da SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Nota

    Tieni presente che dovresti eseguire il comando AWS CLI per aggiornare il cluster HyperPod. L’aggiornamento del software HyperPod tramite l’interfaccia utente della console SageMaker HyperPod non è attualmente disponibile.

Rilascio dell’AMI SageMaker HyperPod per Slurm: 29 novembre 2023

Patch software della DLAMI di HyperPod per Slurm

Il team di assistenza HyperPod distribuisce le patch software tramite DLAMI di SageMaker HyperPod. Consulta le informazioni seguenti sulla DLAMI di HyperPod più recente.

  • Basato sull’AWS AMI di Deep Learning GPU di base (Ubuntu 20.04) rilasciata il 18/10/2023

  • Un elenco completo dei pacchetti preinstallati in questa DLAMI di HyperPod, oltre all’AMI di base

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • Pacchetti software SageMaker HyperPod per supportare funzionalità come il controllo dell’integrità del cluster e la ripresa automatica