Note di rilascio di Amazon SageMaker HyperPod - Amazon SageMaker AI

Note di rilascio di Amazon SageMaker HyperPod

Questo argomento riguarda le note di rilascio che tengono traccia di aggiornamenti, correzioni e nuove funzionalità per Amazon SageMaker HyperPod. Se stai cercando rilasci, aggiornamenti e miglioramenti di funzionalità generali per Amazon SageMaker HyperPod, questa pagina potrebbe esserti utile.

Le versioni dell’AMI HyperPod sono documentate separatamente per includere informazioni sui componenti chiave, compresi i rilasci generali dell’AMI, le versioni e le dipendenze. Se stai cercando informazioni relative ai rilasci dell’AMI HyperPod, consulta AMI Amazon SageMaker HyperPod.

Note di rilascio di SageMaker HyperPod: 4 agosto 2025

SageMaker HyperPod rilascia nuove AMI pubbliche per l’orchestrazione EKS. Le AMI pubbliche possono essere utilizzate così come sono oppure come base per creare AMI personalizzate. Per ulteriori informazioni sulle AMI pubbliche, consulta Rilasci di AMI pubbliche. Per ulteriori informazioni sulla creazione di un’AMI personalizzata, consulta Amazon Machine Images (AMI) personalizzate per i cluster SageMaker HyperPod.

Note di rilascio di SageMaker HyperPod: 31 luglio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità e miglioramenti

  • È stata rilasciata una nuova AMI che aggiorna il sistema operativo da Amazon Linux 2 ad Amazon Linux 2023 per i cluster EKS. Gli aggiornamenti principali includono il kernel Linux 6.1, Python 3.10, NVIDIA Driver 560.35.03 e il gestore dei pacchetti DNF che sostituisce YUM.

    Importante

    L’aggiornamento da Amazon Linux 2 ad AL2023 introduce modifiche significative che potrebbero influire sulla compatibilità con il software e le configurazioni progettate per AL2. Consigliamo vivamente di testare le applicazioni con AL2023 prima di aggiornare completamente i cluster.

    Per ulteriori informazioni sulla nuova AMI e su come aggiornare i cluster, consulta Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 31 luglio 2025.

Note di rilascio di SageMaker HyperPod: 13 maggio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità e miglioramenti

  • È stata rilasciata un’AMI aggiornata che supporta Ubuntu 22.04 LTS per cluster Slurm. Questo rilascio include diversi aggiornamenti dei componenti di sistema e software che offrono prestazioni migliorate, funzionalità aggiornate e maggiore sicurezza.

    Importante

    L’aggiornamento da Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce modifiche che potrebbero influire sulla compatibilità con il software e le configurazioni progettate per Ubuntu 20.04.

    Per ulteriori informazioni, consultare:

Note di rilascio di SageMaker HyperPod: 1 maggio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità

  • È stata aggiunta la creazione di report di utilizzo per i cluster orchestrati da EKS, che consente alle organizzazioni di implementare allocazioni dei costi trasparenti e basate sull’utilizzo in team, progetti o reparti. Questa funzionalità integra la funzionalità Governance delle attività di HyperPod per garantire un’equa distribuzione dei costi in ambienti IA/ML multi-tenant condivisi. Per ulteriori informazioni, consulta Creazione di report di utilizzo del calcolo in HyperPod.

Note di rilascio di SageMaker HyperPod: 28 aprile 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm e Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità e miglioramenti

Per ulteriori informazioni sui rilasci di AMI correlati, consulta Rilasci dell’AMI SageMaker HyperPod per Slurm: 28 aprile 2025 e Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 28 aprile 2025.

Note di rilascio di SageMaker HyperPod: 18 aprile 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità

Note di rilascio di SageMaker HyperPod: 10 aprile 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità e miglioramenti

  • È stato aggiunto un tutorial sulle ricette di ottimizzazione diretta delle preferenze (DPO) per SageMaker HyperPod con orchestrazione Slurm. Questo tutorial di fine-tuning fornisce indicazioni dettagliate per ottimizzare l’allineamento dei modelli con il metodo DPO sui cluster Slurm di SageMaker HyperPod basati su GPU. Per ulteriori informazioni, consulta Tutorial DPO sul cluster HyperPod Slurm (GPU).

Note di rilascio di SageMaker HyperPod: 3 aprile 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm e Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità e miglioramenti

  • È stata aggiunta una pagina Avvio rapido per l’implementazione dei cluster SageMaker HyperPod. La pagina utilizza i flussi di lavoro di configurazione ottimizzati dei workshop specializzati di SageMaker HyperPod e automatizza l’implementazione utilizzando modelli di AWS CloudFormation predefiniti. Supporta preferenze di infrastruttura come Slurm o Amazon EKS, per semplificare la configurazione e l’implementazione dei cluster baseline.

  • SageMaker HyperPod ora supporta i seguenti tipi di istanze per i cluster Slurm e Amazon EKS.

    • Nuovi tipi di istanze: istanze I3en, M7i e R7i. Per l’elenco completo delle istanze supportate, consulta il campo InstanceType in ClusterInstanceGroupDetails.

Note di rilascio di SageMaker HyperPod: 16 marzo 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm e Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità e miglioramenti

Note di rilascio di SageMaker HyperPod: 20 febbraio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm e Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità e miglioramenti

Note di rilascio di SageMaker HyperPod: 18 febbraio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm e Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità

  • Questo rilascio di SageMaker HyperPod incorpora un aggiornamento di sicurezza del Kit di strumenti per container Nvidia (dal rilascio 1.17.3 al rilascio 1.17.4). Per ulteriori informazioni, consulta le note di rilascio v1.17.4.

    Nota

    Per tutti i carichi di lavoro dei container nel Kit di strumenti per container Nvidia versione 1.17.4, il montaggio delle librerie di compatibilità CUDA ora è disabilitato. Per garantire la compatibilità con più versioni CUDA nei flussi di lavoro dei container, aggiorna LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA. Puoi trovare le fasi specifiche in Se utilizzi un livello di compatibilità CUDA.

Per ulteriori informazioni sui rilasci di AMI correlati, consulta Rilasci dell’AMI SageMaker HyperPod per Slurm: 18 febbraio 2025 e Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 18 febbraio 2025.

Note di rilascio di SageMaker HyperPod: 6 febbraio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm e Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS.

Nuove funzionalità e miglioramenti

Note di rilascio di SageMaker HyperPod: 22 gennaio 2025

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 9 gennaio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità e miglioramenti

Note di rilascio di SageMaker HyperPod: 21 dicembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità

  • SageMaker HyperPod ora supporta i seguenti tipi di istanze per i cluster Slurm e Amazon EKS.

    • Nuovi tipi di istanze: C6gn, C6i, M6i e R6i.

    • Nuovi tipi di istanze Trainium: Trn1 e Trn1n.

Miglioramenti

  • È stata migliorata la visibilità della registrazione di log degli errori quando Slurm arresta i processi e il blocco non necessario delle fasi dei processi durante gli annullamenti dei processi avviati da Slurm.

  • DLAMI di base aggiornata per p5en per i cluster Slurm e Amazon EKS.

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 13 dicembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuova caratteristica

  • SageMaker HyperPod rilascia una serie di metriche Amazon CloudWatch per monitorare l’integrità e le prestazioni dei cluster SageMaker HyperPod Slurm. Queste metriche si riferiscono a CPU, GPU, utilizzo della memoria e informazioni sulle istanze del cluster, come il numero di nodi e i nodi difettosi. Questa funzionalità di monitoraggio è abilitata per impostazione predefinita ed è possibile accedere alle metriche nel namespace /aws/sagemaker/Clusters di CloudWatch. Puoi anche configurare allarmi CloudWatch in base a queste metriche per rilevare e risolvere in modo proattivo potenziali problemi all’interno dei cluster HyperPod basati su Slurm. Per ulteriori informazioni, consulta Metriche di Amazon SageMaker HyperPod Slurm.

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 24 novembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 15 novembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm. Per ulteriori informazioni, consulta Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 15 novembre 2024.

Nuove funzionalità e miglioramenti

  • È stato aggiunto il supporto per i tipi di istanze trn1 e trn1n per i cluster orchestrati Amazon EKS e Slurm.

  • Gestione dei log migliorata per i cluster Slurm:

    • Rotazione dei log implementata: settimanale o giornaliera in base alle dimensioni.

    • Imposta la conservazione dei log su 3 settimane.

    • Log compressi per ridurre l’impatto sull’archiviazione.

    • Caricamento continuo dei log su CloudWatch per la conservazione a lungo termine.

      Nota

      Alcuni log sono ancora archiviati in syslogs.

  • Impostazioni Fluent Bit modificate per evitare problemi di tracciamento nei file che contengono righe lunghe.

Correzioni di bug

  • È stato impedito il troncamento involontario con gli aggiornamenti del nodo controller Slurm nel file di configurazione slurm.config.

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 11 novembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuova caratteristica

  • L’AMI SageMaker HyperPod ora supporta i tipi di istanze G6e.

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 31 ottobre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità

  • È stata aggiunta la riduzione verticale dei cluster SageMaker HyperPod a livello di gruppo di istanze e a livello di istanza per i cluster orchestrati Amazon EKS e Slurm. Per ulteriori informazioni sulla riduzione verticale dei cluster Amazon EKS, consulta Riduzione verticale di un cluster SageMaker HyperPod. Per ulteriori informazioni sulla riduzione verticale dei cluster Slurm, consulta Riduzione verticale di un cluster in Gestione dei cluster SageMaker HyperPod Slurm con la AWS CLI.

  • SageMaker HyperPod ora supporta il tipo di istanza P5e per i cluster orchestrati Amazon EKS e Slurm.

Note di rilascio di SageMaker HyperPod: 21 ottobre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuova caratteristica

  • SageMaker HyperPod ora supporta i tipi di istanze P5e[n], G6, Gr6 e Trn2[n] per i cluster Slurm e Amazon EKS.

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 10 settembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Amazon EKS e Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 20 agosto 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità

  • È stata migliorata la funzionalità di ripresa automatica di SageMaker HyperPod, estendendo la capacità di resilienza per i nodi Slurm collegati a Generic RESources (GRES).

    Quando le Generic RESources (GRES) sono collegate a un nodo Slurm, Slurm in genere non consente modifiche all’allocazione dei nodi, ad esempio la sostituzione dei nodi, e quindi non consente di riprendere un processo non riuscito. A meno che non sia esplicitamente vietato, la funzionalità di ripresa automatica di HyperPod rimette automaticamente in coda qualsiasi processo difettoso associato ai nodi abilitati per GRES. Questa procedura prevede l’arresto del processo, il suo reinserimento nella coda dei processi e il suo riavvio dall’inizio.

Altre modifiche

  • slurmrestd preconfezionato nell’AMI SageMaker HyperPod.

  • Sono stati modificati i valori predefiniti per ResumeTimeout e UnkillableStepTimeout, passati da 60 a 300 secondi in slurm.conf per migliorare la reattività del sistema e la gestione dei processi.

  • Sono stati apportati lievi miglioramenti ai controlli dell’integrità per NVIDIA Data Center GPU Manager (DCGM) e NVIDIA System Management Interface (nvidia-smi).

Correzioni di bug

  • Il plugin di ripresa automatica HyperPod può utilizzare nodi inattivi per riprendere un processo.

Note di rilascio di SageMaker HyperPod: 20 giugno 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità

  • È stata aggiunta una nuova funzionalità per collegare lo spazio di archiviazione aggiuntivo alle istanze del cluster SageMaker HyperPod. Con questa funzionalità, puoi configurare lo spazio di archiviazione supplementare a livello di configurazione del gruppo di istanze durante i processi di creazione o aggiornamento del cluster, tramite la console SageMaker HyperPod o le API CreateCluster e UpdateCluster. Il volume EBS aggiuntivo è collegato a ciascuna istanza all’interno di un cluster SageMaker HyperPod ed è montato su /opt/sagemaker. Per saperne di più sull’implementazione nel cluster SageMaker HyperPod, consulta la documentazione aggiornata nelle pagine seguenti.

    Tieni presente che è necessario aggiornare il software del cluster HyperPod per utilizzare questa funzionalità. Dopo aver applicato le patch al software del cluster HyperPod, puoi utilizzare questa funzionalità per i cluster SageMaker HyperPod esistenti creati prima del 20 giugno 2024 aggiungendo nuovi gruppi di istanze. Questa funzionalità è completamente funzionante per tutti i cluster SageMaker HyperPod creati dopo il 20 giugno 2024.

Fasi dell’aggiornamento

  • Utilizza il comando seguente per richiamare l’API UpdateClusterSoftware per aggiornare i cluster HyperPod esistenti con la versione più recente della DLAMI di HyperPod. Per ulteriori istruzioni, consulta Aggiornamento del software della piattaforma SageMaker HyperPod di un cluster.

    Importante

    Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di applicazione delle patch sostituisce il volume root con l’AMI aggiornata, il che significa che i dati precedenti archiviati nel volume root dell’istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell’istanza su Amazon S3 o Amazon FSx per Lustre. Per ulteriori informazioni, consulta Utilizzo dello script di backup fornito da SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Nota

    Tieni presente che dovresti eseguire il comando AWS CLI per aggiornare il cluster HyperPod. L’aggiornamento del software HyperPod tramite l’interfaccia utente della console SageMaker HyperPod non è attualmente disponibile.

Note di rilascio di SageMaker HyperPod: 24 aprile 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Correzioni di bug

  • È stato corretto un bug con il parametro ThreadsPerCore nell’API ClusterInstanceGroupSpecification. Con la correzione, le API CreateCluster e UpdateCluster accettano e applicano correttamente l’input dell’utente tramite ThreadsPerCore. Questa correzione è efficace sui cluster HyperPod creati dopo il 24 aprile 2024. Se questo bug ti ha creato problemi e vuoi applicare questa correzione al cluster, devi creare un nuovo cluster. Assicurati di eseguire il backup e il ripristino del lavoro quando passi a un nuovo cluster seguendo le istruzioni riportate in Utilizzo dello script di backup fornito da SageMaker HyperPod.

Note di rilascio di SageMaker HyperPod: 27 marzo 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Patch del software HyperPod

Il team di assistenza HyperPod distribuisce le patch software tramite DLAMI di SageMaker HyperPod. Consulta le informazioni seguenti sulla DLAMI di HyperPod più recente.

  • In questo rilascio della DLAMI di HyperPod, Slurm viene creato con il servizio REST (slurmestd) con il supporto per JSON, YAML e JWT.

  • Slurm aggiornato alla versione 23.11.3.

Miglioramenti

  • Aumento del timeout del servizio di ripresa automatica a 60 minuti.

  • Processo di sostituzione delle istanze migliorato per non riavviare il controller Slurm.

  • Messaggi di errore migliorati grazie all’esecuzione di script del ciclo di vita, ad esempio errori di download ed errori di controllo dell’integrità delle istanze all’avvio dell’istanza.

Correzioni di bug

  • È stato corretto un bug relativo al servizio chrony che causava un problema con la sincronizzazione dell’ora.

  • È stato corretto un bug relativo all’analisi di slurm.conf.

  • È stato corretto un problema con la libreria NVIDIA go-dcgm.

Note di rilascio di SageMaker HyperPod: 14 marzo 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Miglioramenti

Rilasci dell’AMI

Note di rilascio di SageMaker HyperPod: 15 febbraio 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità

  • È stata aggiunta una nuova API UpdateClusterSoftware per l’applicazione delle patch di sicurezza di SageMaker HyperPod. Quando le patch di sicurezza diventano disponibili, ti consigliamo di aggiornare i cluster SageMaker HyperPod presenti nel tuo account eseguendo aws sagemaker update-cluster-software --cluster-name your-cluster-name. Per avere informazioni sulle future patch di sicurezza, continua a seguire questa pagina delle note di rilascio di Amazon SageMaker HyperPod. Per informazioni sul funzionamento dell’API UpdateClusterSoftware, consulta Aggiornamento del software della piattaforma SageMaker HyperPod di un cluster.

Note di rilascio di SageMaker HyperPod: 29 novembre 2023

SageMaker HyperPod rilascia quanto segue per Orchestrazione dei cluster SageMaker HyperPod con Slurm.

Nuove funzionalità

  • Amazon SageMaker HyperPod è stato lanciato all’evento AWS re:Invent 2023.

Rilasci dell’AMI