Rilascio dell’AMI SageMaker HyperPod per Amazon EKS
Le note di rilascio seguenti tengono traccia degli ultimi aggiornamenti alle versioni delle AMI Amazon SageMaker HyperPod per l’orchestrazione Amazon EKS. Ogni nota di rilascio include un elenco di riepilogo dei pacchetti preinstallati o preconfigurati nel supporto per le DLAMI di SageMaker HyperPod per Amazon EKS. Ogni DLAMI è basata su Amazon Linux 2 (AL2) e supporta una versione Kubernetes specifica. Per le versioni della DLAMI di HyperPod per l’orchestrazione di Slurm, consulta Rilasci dell’AMI SageMaker HyperPod per Slurm. Per informazioni sui rilasci delle funzionalità di Amazon SageMaker HyperPod, consulta Note di rilascio di Amazon SageMaker HyperPod.
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 25 agosto 2025
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
Questo rilascio include gli aggiornamenti seguenti:
- Kubernetes v1.28
-
NVIDIA SMI:
Pacchetti aggiunti:
Pacchetti aggiornati:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Pacchetti rimossi:
Repository modificato:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.29
-
NVIDIA SMI:
Pacchetti aggiunti:
Pacchetti aggiornati:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Pacchetti rimossi:
Repository modificato:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.30
-
NVIDIA SMI:
Pacchetti aggiunti:
Pacchetti aggiornati:
aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms
efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2
efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2
librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
Pacchetti rimossi:
Repository modificato:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.31
-
NVIDIA SMI:
Pacchetti aggiunti:
Pacchetti aggiornati:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Pacchetti rimossi:
Repository modificato:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.32
-
NVIDIA SMI:
Pacchetti aggiunti:
Pacchetti aggiornati:
aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms
efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2
efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2
librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
Pacchetti rimossi:
Repository modificato:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 6 agosto 2025
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
Le AMI includono gli aggiornamenti seguenti:
- K8s v1.28
-
-
Pacchetti Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.29
-
-
Pacchetti Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.30
-
-
Pacchetti Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.31
-
-
Pacchetti Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.32
-
-
Pacchetti Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
-
Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 70.3
-
Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) versione 68.4
-
Supporto CUDA 12.8 più recente
-
Driver Nvidia aggiornato da 570.158.01 a 570.172.08 per correggere le CVE presenti nel bollettino Nvidia Security Bulletin di luglio.
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 31 luglio 2025
Amazon SageMaker HyperPod ora supporta una nuova AMI per i cluster Amazon EKS che aggiorna il sistema operativo di base ad Amazon Linux 2023. Questo rilascio offre diversi miglioramenti rispetto ad Amazon Linux 2 (AL2). HyperPod rilascia regolarmente nuove AMI: ti consigliamo di eseguire tutti i cluster HyperPod sulle versioni più recenti e sicure delle AMI per risolvere le vulnerabilità ed eliminare gradualmente i software e le librerie obsoleti.
Aggiornamenti chiave
-
Sistema operativo: Amazon Linux 2023 (aggiornato da Amazon Linux 2 o AL2)
-
Gestore dei pacchetti: DNF è lo strumento di gestione dei pacchetti predefinito, che sostituisce YUM utilizzato in AL2
-
Servizio di rete: systemd-networkd gestisce le interfacce di rete, sostituendo l’ISC dhclient utilizzato in AL2
-
Kernel Linux: versione 6.1, aggiornata dal kernel utilizzato in AL2
-
Glibc: versione 2.34, aggiornata dalla versione in AL2
-
GCC: versione 11.5.0, aggiornata dalla versione in AL2
-
NFS: versione 1:2.6.1, aggiornata dalla versione 1:1.3.4 in AL2
-
Driver NVIDIA: versione 570.172.08, una versione del driver più recente
-
Python: versione 3.9, che sostituisce Python 2.7 utilizzato in AL2
-
NVME: versione 1.11.1, una versione più recente del driver NVMe
Prima dell’aggiornamento
Ci sono alcune cose importanti da sapere prima dell’aggiornamento. Rispetto ad AL2, in AL2023 sono stati aggiunti, aggiornati o rimossi diversi pacchetti. Consigliamo vivamente di testare le applicazioni con AL2023 prima di aggiornare i cluster. Per un elenco completo di tutte le modifiche ai pacchetti in AL2023, consulta Package changes in Amazon Linux 2023.
Di seguito sono riportate alcune delle differenze più rilevanti tra AL2 e AL2023:
-
Python 3.10: l’aggiornamento più importante, a parte il sistema operativo, è l’aggiornamento della versione di Python. Dopo l’aggiornamento, l’impostazione predefinita per i cluster sarà Python 3.10. Anche se alcuni carichi di lavoro di addestramento distribuito Python 3.8 possono essere compatibili con Python 3.10, consigliamo vivamente di testare separatamente gli specifici carichi di lavoro. Se la migrazione a Python 3.10 presenta difficoltà, ma desideri comunque aggiornare il cluster per accedere ad altre nuove funzionalità, puoi installare una versione precedente di Python utilizzando il comando yum install python-xx.x con gli script del ciclo di vita prima di eseguire qualsiasi carico di lavoro. Assicurati di testare sia gli script del ciclo di vita esistenti che il codice dell’applicazione per verificarne la compatibilità.
-
Applicazione del runtime NVIDIA: AL2023 applica rigorosamente i requisiti di runtime dei container NVIDIA, impedendo il funzionamento dei container con variabili di ambiente NVIDIA con codifica fissa (come NVIDIA_VISIBLE_DEVICES: "all") sui nodi che utilizzano solo la CPU (AL2 invece ignora queste impostazioni se non sono presenti driver GPU). Puoi ignorare l’imposizione configurando NVIDIA_VISIBLE_DEVICES: "void" nelle specifiche del pod o ricorrendo a immagini che utilizzano solo la CPU.
-
cgroup v2: AL2023 presenta la nuova generazione della gerarchia unificata dei gruppi di controllo (cgroup v2). cgroup v2 viene impiegato per i runtime dei container ed è utilizzato anche da systemd. Sebbene AL2023 contenga ancora codice che consentirebbe il funzionamento del sistema con cgroup v1, si tratta di una configurazione sconsigliata.
-
Amazon VPC CNI e versioni eksctl: AL2023 richiede anche che la versione Amazon VPC CNI sia 1.16.2 o superiore e che la versione di eksctl sia 0.176.0 o superiore.
-
EFA su FSx per Lustre: ora puoi utilizzare EFA su FSx per Lustre, che offre prestazioni delle applicazioni paragonabili ai cluster di IA/ML o di calcolo ad alte prestazioni on-premises, beneficiando al contempo della scalabilità, della flessibilità e dell’elasticità del cloud computing.
Inoltre, l’aggiornamento ad AL2023 richiede una versione minima 1.0.643.0_1.0.192.0 dell’agente di monitoraggio dell’integrità. Completa la procedura seguente per aggiornare l’agente di monitoraggio dell’integrità:
-
Se utilizzi gli script del ciclo di vita di HyperPod dal repository GitHub awsome-distributed-training, assicurati di scaricare la versione più recente. Le versioni precedenti non sono compatibili con AL2023. Il nuovo script del ciclo di vita garantisce che containerd utilizzi l’archiviazione montata aggiuntiva per inserire le immagini dei container in AL2023.
-
Inserisci la versione più recente del repository Git della CLI HyperPod.
-
Aggiorna le dipendenze con il comando seguente: helm dependencies update helm_chart/HyperPodHelmChart.
-
Come indicato nella Fase 4 del file README di HyperPodHelmChart, utilizza il comando seguente per aggiornare la versione delle dipendenze in esecuzione sul cluster: helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system.
Carichi di lavoro testati su cluster EKS aggiornati
Di seguito sono riportati alcuni casi d’uso nei quali l’aggiornamento è stato testato:
Compatibilità con le versioni precedenti: i più diffusi job di addestramento distribuiti con PyTorch dovrebbero essere compatibili con le versioni precedenti sulla nuova AMI. Tuttavia, poiché i carichi di lavoro possono dipendere da specifiche librerie Python o Linux, ti consigliamo di eseguire test su ambienti più piccoli o su un sottoinsieme di nodi prima di aggiornare i cluster più grandi.
Test degli acceleratori: sono stati testati processi su vari tipi di istanze, utilizzando sia gli acceleratori NVIDIA (per le famiglie di istanze P e G) che gli acceleratori AWS Neuron (per le istanze Trn).
Come aggiornare l’AMI e i carichi di lavoro associati
Puoi eseguire l’aggiornamento alla nuova AMI utilizzando uno dei seguenti metodi:
-
Utilizza l’API create-cluster per creare un nuovo cluster con l’AMI più recente.
-
Utilizza l’API update-cluster-software per aggiornare il cluster esistente. Tieni presente che questa opzione esegue nuovamente tutti gli script del ciclo di vita.
Il cluster non è disponibile durante il processo di aggiornamento. Consigliamo di pianificare questo tempo di inattività e di riavviare il carico di lavoro di addestramento da un checkpoint esistente una volta completato l’aggiornamento. Come best practice, ti suggeriamo di eseguire test su cluster più piccoli prima di aggiornare i cluster più grandi.
Se il comando update non riesce, devi identificare prima di tutto la causa dell’errore. In caso di errori degli script del ciclo di vita, apporta le correzioni necessarie agli script e riprova. Per altri problemi non risolvibili, contatta il Supporto AWS.
Risoluzione dei problemi
Consulta la sezione seguente per risolvere eventuali problemi riscontrati durante l’aggiornamento ad AL2023.
Come posso correggere errori come "nvml error: driver
not loaded: unknown" sui nodi del cluster che utilizzano solo la CPU?
Se i container che funzionavano sui nodi CPU AL2 di Amazon EKS ora non riescono su AL2023, l’immagine del container potrebbe avere variabili di ambiente NVIDIA con codifica fissa. Puoi verificare la presenza di variabili di ambiente con codifica fissa con il comando seguente:
docker inspect image:tag | grep -i nvidia
AL2023 applica rigorosamente questi requisiti, diversamente da AL2, che adottava un approccio meno rigido rispetto ai nodi che utilizzano solo la CPU. Una soluzione consiste nell’ignorare l’applicazione AL2023 impostando determinate variabili di ambiente NVIDIA nelle specifiche del pod Amazon EKS, come mostrato nell’esempio seguente:
yaml
containers:
- name: your-container
image: your-image:tag
env:
- name: NVIDIA_VISIBLE_DEVICES
value: "void"
- name: NVIDIA_DRIVER_CAPABILITIES
value: ""
In alternativa, si possono impiegare le immagini del container che utilizzano solo la CPU (ad esempio pytorch/pytorch:latest-cpu) oppure creare immagini personalizzate senza dipendenze NVIDIA.
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 15 luglio 2025
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
Le AMI includono gli aggiornamenti seguenti:
- K8s v1.28
-
- K8s v1.29
-
- K8s v1.30
-
- K8s v1.31
-
- K8s v1.32
-
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 9 giugno 2025
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
- Neuron SDK Updates
-
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 22 maggio 2025
Aggiornamenti generali AMI
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
- Deep Learning Base AMI AL2
-
-
Driver NVIDIA più recente: 550.163.01
-
Aggiornamenti dello stack CUDA:
-
CUDA predefinito: 12.1
-
Versione NCCL: 2.22.3
-
Programma di installazione EFA: 1.38.0
-
AWS OFI NCCL: 1.13.2
-
Kernel Linux: 5.10
-
GDRCopy: 2.4
- Neuron SDK Updates
-
-
aws-neuronx-dkms.noarch: 2.20.74.0 (da 2.20.28.0)
-
aws-neuronx-collectives.x86_64: 2.25.65.0_9858ac9a1-1 (da 2.24.59.0_838c7fc8b-1)
-
aws-neuronx-runtime-lib.x86_64: 2.25.57.0_166c7a468-1 (da 2.24.53.0_f239092cc-1)
-
aws-neuronx-tools.x86_64: 2.23.9.0 (da 2.22.61.0)
-
aws-neuronx-gpsimd-customop-lib.x86_64: 0.15.12.0 (da 0.14.12.0)
-
aws-neuronx-gpsimd-tools.x86_64: 0.15.1.0_5d31b6a3f (da 0.14.6.0_241eb69f4)
-
aws-neuronx-k8-plugin.x86_64: 2.25.24.0 (da 2.24.23.0)
-
aws-neuronx-k8-scheduler.x86_64: 2.25.24.0 (da 2.24.23.0)
Note di supporto:
-
I componenti AMI, incluse le versioni CUDA, possono essere rimossi o modificati in base alla policy di supporto del framework
-
La versione del kernel è bloccata tramite pinning per la compatibilità. Gli utenti devono evitare gli aggiornamenti a meno che non siano necessari per le patch di sicurezza
-
Per le istanze EC2 con più schede di rete, consulta la guida alla configurazione EFA per una procedere correttamente
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 7 maggio 2025
- Installed the latest version of AWS Neuron SDK
-
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 28 aprile 2025
Miglioramenti per K8s
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
- Installed the latest version of AWS Neuron SDK
-
-
aws-neuronx-dkms.noarch: 2.20.28.0-dkms
-
aws-neuronx-oci-hook.x86_64: 2.4.4.0-1
-
aws-neuronx-tools.x86_64: 2.18.3.0-1
-
aws-neuron-dkms.noarch: 2.3.26.0-dkms
-
aws-neuron-k8-plugin.x86_64: 1.9.3.0-1
-
aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1
-
aws-neuron-runtime.x86_64: 1.6.24.0-1
-
aws-neuron-runtime-base.x86_64: 1.6.21.0-1
-
aws-neuron-tools.x86_64: 2.1.4.0-1
-
aws-neuronx-collectives.x86_64: 2.24.59.0_838c7fc8b-1
-
aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1
-
aws-neuronx-gpsimd-customop-lib.x86_64: 0.14.12.0-1
-
aws-neuronx-gpsimd-tools.x86_64: 0.14.6.0_241eb69f4-1
-
aws-neuronx-k8-plugin.x86_64: 2.24.23.0-1
-
aws-neuronx-k8-scheduler.x86_64: 2.24.23.0-1
-
aws-neuronx-runtime-lib.x86_64: 2.24.53.0_f239092cc-1
-
aws-neuronx-tools.x86_64: 2.22.61.0-1
-
tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 18 aprile 2025
Aggiornamenti generali AMI
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
Le AMI includono quanto segue:
- Deep Learning EKS AMI 1.32.1
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.32.1
-
Versione Containerd: 1.7.27
-
Versione Runc: 1.1.14
-
Autenticatore AWS IAM: 0.6.29
-
Agente Amazon SSM: 3.3.1611.0
-
Kernel Linux: 5.10.235
-
Driver OSS Nvidia: 550.163.01
-
NVIDIA CUDA: 12.4
-
Programma di installazione EFA: 1.38.0
-
GDRCopy: 2.4.1-1
-
Kit di strumenti per container Nvidia: 1.17.6
-
AWS OFI NCCL: 1.13.2
-
aws-neuronx-tools: 2.18.3.0
-
aws-neuronx-runtime-lib: 2.24.53.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.20.28.0
-
aws-neuronx-collectives: 2.24.59.0
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 18 febbraio 2025
Miglioramenti per K8s
-
Kit di strumenti per container Nvidia aggiornato dalla versione 1.17.3 alla versione 1.17.4.
-
È stato risolto il problema che impediva ai clienti di connettersi ai nodi dopo il riavvio.
-
Versione Elastic Fabric Adapter (EFA) aggiornata dalla 1.37.0 alla 1.38.0.
-
L’EFA ora include il plugin AWS OFI NCCL, che si trova nella directory /opt/amazon/ofi-nccl anziché nel percorso /opt/aws-ofi-nccl/ originale. Se devi aggiornare la variabile di ambiente LD_LIBRARY_PATH, assicurati di modificare il percorso in modo che punti alla nuova posizione /opt/amazon/ofi-nccl del plugin OFI NCCL.
-
Pacchetto emacs rimosso da queste DLAMI. Puoi installare emacs da GNU emac.
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
- Installed the latest version of neuron SDK
-
-
aws-neuronx-dkms.noarch: 2.19.64.0-dkms @neuron
-
aws-neuronx-oci-hook.x86_64: 2.4.4.0-1 @neuron
-
aws-neuronx-tools.x86_64: 2.18.3.0-1 @neuron
-
aws-neuronx-collectives.x86_64: 2.23.135.0_3e70920f2-1 neuron
-
aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1 neuron
-
aws-neuronx-gpsimd-customop-lib.x86_64
-
aws-neuronx-gpsimd-tools.x86_64: 0.13.2.0_94ba34927-1 neuron
-
aws-neuronx-k8-plugin.x86_64: 2.23.45.0-1 neuron
-
aws-neuronx-k8-scheduler.x86_64: 2.23.45.0-1 neuron
-
aws-neuronx-runtime-lib.x86_64: 2.23.112.0_9b5179492-1 neuron
-
aws-neuronx-tools.x86_64: 2.20.204.0-1 neuron
-
tensorflow-model-server-neuronx.x86_64
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 22 gennaio 2025
Aggiornamenti generali AMI
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
Le AMI includono quanto segue:
- Deep Learning EKS AMI 1.31
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.31.2
-
Versione Containerd: 1.7.23
-
Versione Runc: 1.1.14
-
Autenticatore AWS IAM: 0.6.26
-
Agente Amazon SSM: 3.3.987
-
Kernel Linux: 5.10.230
-
Driver OSS Nvidia: 550.127.05
-
NVIDIA CUDA: 12.4
-
Programma di installazione EFA: 1.37.0
-
GDRCopy: 2.4.1-1
-
Kit di strumenti per container Nvidia: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.133.0
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 21 dicembre 2024
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
Le AMI includono quanto segue:
- K8s v1.28
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.28.15
-
Versione Containerd: 1.7.23
-
Versione Runc: 1.1.14
-
Autenticatore AWS IAM: 0.6.26
-
Agente Amazon SSM: 3.3.987
-
Kernel Linux: 5.10.228
-
Driver OSS NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Programma di installazione EFA: 1.37.0
-
GDRCopy: 2.4
-
Kit di strumenti per container NVIDIA: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
- K8s v1.29
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.29.10
-
Versione Containerd: 1.7.23
-
Versione Runc: 1.1.14
-
Autenticatore AWS IAM: 0.6.26
-
Agente Amazon SSM: 3.3.987
-
Kernel Linux: 5.15.0
-
Driver OSS Nvidia: 550.127.05
-
NVIDIA CUDA: 12.4
-
Programma di installazione EFA: 1.37.0
-
GDRCopy: 2.4
-
Kit di strumenti per container Nvidia: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
- K8s v1.30
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.30.6
-
Versione Containerd: 1.7.23
-
Versione Runc: 1.1.14
-
Autenticatore AWS IAM: 0.6.26
-
Agente Amazon SSM: 3.3.987.0
-
Kernel Linux: 5.10.228
-
Driver OSS Nvidia: 550.127.05
-
NVIDIA CUDA: 12.4
-
Programma di installazione EFA: 1.37.0
-
GDRCopy: 2.4
-
Kit di strumenti per container Nvidia: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 13 dicembre 2024
Aggiornamento della DLAMI di SageMaker HyperPod per Amazon EKS
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 24 novembre 2024
Aggiornamenti generali AMI
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 15 novembre 2024
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
Le AMI includono quanto segue:
- Deep Learning EKS AMI 1.28
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.28.15
-
Versione Containerd: 1.7.23
-
Versione Runc: 1.1.14
-
Autenticatore AWS IAM: 0.6.26
-
Agente Amazon SSM: 3.3.987
-
Kernel Linux: 5.10.228
-
Driver OSS NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Programma di installazione EFA: 1.34.0
-
GDRCopy: 2.4
-
Kit di strumenti per container NVIDIA: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
- Deep Learning EKS AMI 1.29
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.29.10
-
Versione Containerd: 1.7.23
-
Versione Runc: 1.1.14
-
Autenticatore AWS IAM: 0.6.26
-
Agente Amazon SSM: 3.3.987
-
Kernel Linux: 5.10.228
-
Driver OSS Nvidia: 550.127.05
-
NVIDIA CUDA: 12.4
-
Programma di installazione EFA: 1.34.0
-
GDRCopy: 2.4
-
Kit di strumenti per container Nvidia: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
- Deep Learning EKS AMI 1.30
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.30.6
-
Versione Containerd: 1.7.23
-
Versione Runc: 1.1.14
-
Autenticatore AWS IAM: 0.6.26
-
Agente Amazon SSM: 3.3.987
-
Kernel Linux: 5.10.228
-
Driver OSS Nvidia: 550.127.05
-
NVIDIA CUDA: 12.4
-
Programma di installazione EFA: 1.34.0
-
GDRCopy: 2.4
-
Kit di strumenti per container Nvidia: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 11 novembre 2024
Aggiornamenti generali AMI
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 21 ottobre 2024
Aggiornamenti generali AMI
Rilasci dell’AMI SageMaker HyperPod per Amazon EKS: 10 settembre 2024
Supporto per la DLAMI di SageMaker HyperPod per Amazon EKS
Le AMI includono quanto segue:
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.28.11
-
Versione Containerd: 1.7.20
-
Versione Runc: 1.1.11
-
Autenticatore AWS IAM: 0.6.21
-
Agente Amazon SSM: 3.3.380
-
Kernel Linux: 5.10.223
-
Driver OSS NVIDIA: 535.183.01
-
NVIDIA CUDA: 12.2
-
Programma di installazione EFA: 1.32.0
-
GDRCopy: 2.4
-
Kit di strumenti per container NVIDIA: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
aws-neuronx-collectives: 2.21.46.0
- Deep Learning EKS AMI 1.29
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.29.6
-
Versione Containerd: 1.7.20
-
Versione Runc: 1.1.11
-
Autenticatore AWS IAM: 0.6.21
-
Agente Amazon SSM: 3.3.380
-
Kernel Linux: 5.10.223
-
Driver OSS Nvidia: 535.183.01
-
NVIDIA CUDA: 12.2
-
Programma di installazione EFA: 1.32.0
-
GDRCopy: 2.4
-
Kit di strumenti per container Nvidia: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
aws-neuronx-collectives: 2.21.46.0
- Deep Learning EKS AMI 1.30
-
-
Componenti Amazon EKS
-
Versione Kubernetes: 1.30.2
-
Versione Containerd: 1.7.20
-
Versione Runc: 1.1.11
-
Autenticatore AWS IAM: 0.6.21
-
Agente Amazon SSM: 3.3.380
-
Kernel Linux: 5.10.223
-
Driver OSS Nvidia: 535.183.01
-
NVIDIA CUDA: 12.2
-
Programma di installazione EFA: 1.32.0
-
GDRCopy: 2.4
-
Kit di strumenti per container Nvidia: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
aws-neuronx-collectives: 2.21.46.0