Versiones de la AMI de SageMaker HyperPod para Amazon EKS - Amazon SageMaker AI

Versiones de la AMI de SageMaker HyperPod para Amazon EKS

En las siguientes notas de la versión, se hace un seguimiento de las últimas actualizaciones de las versiones de la AMI de Amazon SageMaker HyperPod para la orquestación de Amazon EKS. Cada nota de versión incluye una lista resumida de los paquetes preinstalados o preconfigurados en las DLAMI de SageMaker HyperPod para la compatibilidad con Amazon EKS. Cada DLAMI se basa en Amazon Linux 2 (AL2) y es compatible con una versión de Kubernetes específica. Para ver las versiones de DLAMI de HyperPod para la orquestación de Slurm, consulte Versiones de la AMI de SageMaker HyperPod para Slurm. Para obtener más información sobre las versiones de las características de Amazon SageMaker HyperPod, consulte Notas de la versión de Amazon SageMaker HyperPod.

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 25 de agosto de 2025

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Esta versión incluye las siguientes actualizaciones:

Kubernetes v1.28

NVIDIA SMI:

  • Versión del controlador NVIDIA: 570.172.08

  • Versión de CUDA: 12.8

Paquetes agregados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Paquetes actualizados:

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

Paquetes eliminados:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositorio modificado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.29

NVIDIA SMI:

  • Versión del controlador NVIDIA: 570.172.08

  • Versión de CUDA: 12.8

Paquetes agregados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Paquetes actualizados:

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

Paquetes eliminados:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositorio modificado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.30

NVIDIA SMI:

  • Versión del controlador NVIDIA: 570.172.08

  • Versión de CUDA: 12.8

Paquetes agregados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Paquetes actualizados:

  • aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms

  • efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2

  • efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2

  • librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

  • rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

Paquetes eliminados:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositorio modificado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.31

NVIDIA SMI:

  • Versión del controlador NVIDIA: 570.172.08

  • Versión de CUDA: 12.8

Paquetes agregados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Paquetes actualizados:

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

Paquetes eliminados:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositorio modificado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.32

NVIDIA SMI:

  • Versión del controlador NVIDIA: 570.172.08

  • Versión de CUDA: 12.8

Paquetes agregados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Paquetes actualizados:

  • aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms

  • efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2

  • efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2

  • librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

  • rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

Paquetes eliminados:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositorio modificado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 6 de agosto de 2025

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Las AMI incluyen las siguientes actualizaciones:

K8s v1.28
  • Paquetes de Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

K8s v1.29
  • Paquetes de Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

K8s v1.30
  • Paquetes de Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

K8s v1.31
  • Paquetes de Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

K8s v1.32
  • Paquetes de Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

importante
  • AMI de base de aprendizaje profundo de controlador OSS Nvidia (Amazon Linux 2) versión 70.3

  • AMI de base de aprendizaje profundo de controlador propietario Nvidia (Amazon Linux 2) versión 68.4

  • Compatibilidad con la versión 12.8 de CUA más reciente

  • Se ha actualizado el controlador Nvidia de 570.158.01 a 570.172.08 para corregir los CVE, tal como aparece en el NVIDIA Security Bulletin de julio.

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 31 de julio de 2025

Amazon SageMaker HyperPod ahora admite una nueva AMI para los clústeres de Amazon EKS que actualiza el sistema operativo base a Amazon Linux 2023. Esta versión ofrece varias mejoras de Amazon Linux 2 (AL2). HyperPod publica nuevas AMI con regularidad, por ello le recomendamos que ejecute todos los clústeres de HyperPod en las versiones más recientes y seguras de las AMI para corregir las vulnerabilidades y eliminar gradualmente el software y las bibliotecas obsoletos.

Mejoras clave

  • Sistema operativo: Amazon Linux 2023 (actualizado de Amazon Linux 2 o AL2)

  • Gestor de paquetes: DNF es la herramienta de administración de paquetes predeterminada que reemplaza a YUM, utilizada en AL2

  • Servicio de red: systemd-networkd administra las interfaces de red y reemplaza el dhclient de ISC utilizado en AL2

  • Núcleo de Linux: versión 6.1, actualizada desde el núcleo utilizado en AL2

  • Glibc: versión 2.34, actualizada desde la versión de AL2

  • GCC: versión 11.5.0, actualizada desde la versión de AL2

  • NFS: versión 1:2.6.1, actualizada desde la versión 1:1.3.4 en AL2

  • Controlador NVIDIA: versión 570.172.08, una versión más actual del controlador

  • Python: versión 3.9, que reemplaza a Python 2.7 utilizado en AL2

  • NVME: versión 1.11.1, una versión más reciente del controlador NVMe

Antes de la actualización

Hay algunos puntos importantes que debe saber antes de actualizar la versión. Con AL2023, se han agregado, actualizado o eliminado varios paquetes en comparación con AL2. Le recomendamos encarecidamente que pruebe las aplicaciones con AL2023 antes de realizar la actualización de los clústeres. Para ver una lista completa de todos los cambios de paquetes en AL2023, consulte Cambios de paquetes en Amazon Linux 2023 en las Notas de la versión de Amazon Linux 2023.

A continuación se exponen algunos de los cambios significativos entre el AL2 y el AL2023:

  • Python 3.10: La actualización más importante, aparte del sistema operativo, es la actualización de la versión Python. Tras la actualización, los clústeres tienen Python 3.10 por defecto. Si bien algunas cargas de trabajo de entrenamiento distribuidas de Python 3.8 pueden ser compatibles con Python 3.10, te recomendamos encarecidamente que pruebes tus cargas de trabajo específicas por separado. Si la migración a Python 3.10 resulta difícil, pero aun así desea actualizar su clúster para incluir otras funciones nuevas, puede instalar una versión anterior de Python mediante el comando yum install python-xx.x con scripts de ciclo de vida antes de ejecutar cualquier carga de trabajo. Asegúrese de probar la compatibilidad tanto de los scripts de ciclo de vida existentes como del código de la aplicación.

  • Aplicación del tiempo de ejecución de NVIDIA: el AL2023 aplica estrictamente los requisitos de tiempo de ejecución de los contenedores de NVIDIA, lo que provoca que los contenedores con variables de entorno NVIDIA codificadas de forma rígida (por ejemploNVIDIA_VISIBLE_DEVICES: "all") fallen en los nodos que solo funcionan con CPU (mientras que AL2 ignora esta configuración cuando no hay controladores de GPU). Puede anular la aplicación configurando las especificaciones de su pod o utilizando imágenes solo de NVIDIA_VISIBLE_DEVICES: "void" la CPU.

  • cgroup v2: AL2023 presenta la siguiente generación de jerarquías de grupos de control unificados (cgroup v2). cgroup v2 se utiliza para tiempos de ejecución de contenedores y también lo usa. systemd Si bien AL2023 sigue incluyendo un código que puede hacer que el sistema funcione con , esta configuración no se recomienda ni se admite.

  • CNI y versiones de Amazon VPCeksctl: AL2023 también requiere que la versión de CNI de Amazon VPC sea 1.16.2 o superior y que su versión sea 0.176.0 o superior. eksctl

  • EFA en FSx for Lustre: ahora puede usar EFA en FSx for Lustre, lo que le permite lograr un rendimiento de aplicaciones comparable al de los clústeres de AI/ML o HPC (computación de alto rendimiento) en las instalaciones y, al mismo tiempo, beneficiarse de la escalabilidad, flexibilidad y elasticidad de la computación en la nube.

Además, la actualización a AL2023 requiere como mínimo una versión de 1.0.643.0_1.0.192.0 Health Monitoring Agent. Complete el siguiente procedimiento para actualizar el Health Monitoring Agent:

  1. Si utilizas scripts del ciclo de vida de HyperPod del repositorio de GitHub awsome-distributed-training, asegúrate de obtener la última versión. Las versiones anteriores no son compatibles con el AL2023. El nuevo script de ciclo de vida garantiza que se containerd utilice el almacenamiento montado adicional para extraer imágenes de contenedores en AL2023.

  2. Obtenga la última versión del repositorio de Git de la CLI de HyperPod.

  3. Actualice las dependencias con el siguiente comando: helm dependencies update helm_chart/HyperPodHelmChart

  4. Como se mencionó en el paso 4 del archivo README de HyperpodHelmChart, ejecute el siguiente comando para actualizar la versión de las dependencias que se ejecutan en el clúster: helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system

Cargas de trabajo que se han probado en clústeres EKS actualizados

Los siguientes son algunos casos de uso en los que se probó la actualización:

  • Compatibilidad con versiones anteriores: los trabajos de entrenamiento distribuidos populares que incluyen PyTorch deberían ser compatibles con versiones anteriores en la nueva AMI. Sin embargo, dado que sus cargas de trabajo pueden depender de bibliotecas específicas de Python o Linux, le recomendamos que primero realice pruebas en una escala más pequeña o en un subconjunto de nodos antes de actualizar los clústeres más grandes.

  • Pruebas de aceleración: se han probado los trabajos en varios tipos de instancias, utilizando aceleradores NVIDIA (para las familias de instancias P y G) y aceleradores AWS Neuron (para las instancias Trn).

Cómo actualizar la AMI y las cargas de trabajo asociadas

Puede crear una AMI personalizada utilizando uno de los métodos siguientes:

  • Utilice la API create-cluster para crear un clúster nuevo con la AMI más reciente.

  • Utilice la API update-cluster-software para actualizar el clúster existente. Tenga en cuenta que esta opción vuelve a ejecutar cualquier script de ciclo de vida.

El clúster no está disponible durante la actualización. Recomendamos planificar este tiempo de inactividad y reiniciar la carga de trabajo de entrenamiento desde un punto de comprobación existente una vez finalizada la actualización. Como práctica recomendada, le recomendamos que realice pruebas en un clúster más pequeño antes de actualizar los clústeres más grandes.

Si el comando update falla, identifique primero la causa del error. En caso de errores en los scripts del ciclo de vida, efectúe las correcciones necesarias en los scripts y vuelva a intentarlo. Para cualquier otro problema que no se pueda resolver, póngase en contacto con AWS Support.

Solución de problemas

Utilice la siguiente sección para solucionar cualquier problema que surja al realizar la actualización a AL2023.

¿Cómo puedo corregir errores, por ejemplo, "nvml error: driver not loaded: unknown" en los nodos de un clúster que solo utilizan CPU?

Si los contenedores que funcionaban en los nodos Amazon EKS de la CPU AL2 ahora fallan en el AL2023, es posible que la imagen del contenedor tenga variables de entorno NVIDIA codificadas de forma rígida. Puede comprobarlo si hay variables de entorno codificadas de forma rígida con el siguiente comando:

docker inspect image:tag | grep -i nvidia

La AL2023 aplica estrictamente estos requisitos, mientras que la AL2 fue más indulgente con los nodos que solo utilizan CPU. Una solución consiste en anular la aplicación de la norma AL2023 configurando determinadas variables de entorno de NVIDIA en la especificación del pod de Amazon EKS, como se muestra en el siguiente ejemplo:

yaml containers: - name: your-container image: your-image:tag env: - name: NVIDIA_VISIBLE_DEVICES value: "void" - name: NVIDIA_DRIVER_CAPABILITIES value: ""

Otra alternativa es utilizar imágenes de contenedor que solo estén en la CPU (por ejemplopytorch/pytorch:latest-cpu) o crear imágenes personalizadas sin depender de NVIDIA.

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 15 de julio de 2025

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Las AMI incluyen las siguientes actualizaciones:

K8s v1.28
  • Controlador NVIDIA más reciente: 550.163.01

  • CUDA predeterminado: 12.4

  • Instalador de EFA: 1.38.0

  • Paquetes de Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

K8s v1.29
  • Versión del controlador NVIDIA: 550.163.01

  • Versión de CUDA: 12.4

  • Instalador de EFA: 1.38.0

  • Paquetes de Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

K8s v1.30
  • Versión del controlador NVIDIA: 550.163.01

  • Versión de CUDA: 12.4

  • Versión del instalador de EFA: 1.38.0

  • Paquetes de Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

K8s v1.31
  • Versión del controlador NVIDIA: 550.163.01

  • Versión de CUDA: 12.4

  • Versión del instalador de EFA: 1.38.0

  • Paquetes de Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

K8s v1.32
  • Versión del controlador NVIDIA: 550.163.01

  • Versión de CUDA: 12.4

  • Versión del instalador de EFA: 1.38.0

  • Paquetes de Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 9 de junio de 2025

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Neuron SDK Updates
  • aws-neuronx-dkms.noarch: 2.21.37.0 (desde 2.20.74.0)

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 22 de mayo de 2025

Actualizaciones generales de la AMI

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Deep Learning Base AMI AL2
  • Controlador NVIDIA más reciente: 550.163.01

  • Actualizaciones de la pila CUDA:

    • CUDA predeterminado: 12.1

    • Versión de NCCL: 2.22.3

  • Instalador de EFA: 1.38.0

  • AWS OFI NCCL: 1.13.2

  • Núcleo de Linux: 5.10

  • GDRCopy: 2.4

importante
  • Actualización del kit de herramientas de contenedor NVIDIA 1.17.4: el montaje de las bibliotecas compatibles con CUDA ahora está desactivado

  • Actualizaciones de EFA de la versión 1.37 a la 1.38:

    • El complemento AWS OFI NCCL ahora está en /opt/amazon/ofi-nccl

    • La ubicación anterior /opt/aws-ofi-nccl/ está obsoleta.

Neuron SDK Updates
  • aws-neuronx-dkms.noarch: 2.20.74.0 (desde 2.20.28.0)

  • aws-neuronx-collectives.x86_64: 2.25.65.0_9858ac9a1-1 (desde la 2.24.59.0_838c7fc8b-1)

  • aws-neuronx-runtime-lib.x86_64: 2.25.57.0_166c7a468-1 (desde la 2.24.53.0_f239092cc-1)

  • aws-neuronx-tools.x86_64: 2.23.9.0 (desde la 2.22.61.0)

  • aws-neuronx-gpsimd-customop-lib.x86_64: 0.15.12.0 (desde la 0.14.12.0)

  • aws-neuronx-gpsimd-tools.x86_64: 0.15.1.0_5d31b6a3f (desde la 0.14.6.0_241eb69f4)

  • aws-neuronx-k8-plugin.x86_64: 2.25.24.0 (desde la 2.24.23.0)

  • aws-neuronx-k8-scheduler.x86_64: 2.25.24.0 (desde la 2.24.23.0)

Notas de soporte:

  • Los componentes de la AMI, incluidas las versiones de CUDA, se pueden eliminar o cambiar según la política de soporte del marco.

  • La versión del núcleo está anclada para garantizar la compatibilidad. Los usuarios deben evitar las actualizaciones a menos que sean necesarias para los parches de seguridad.

  • Para instancias de EC2 con varias tarjetas de red, consulte la guía de configuración de EFA para obtener una configuración adecuada.

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 7 de mayo de 2025

Installed the latest version of AWS Neuron SDK
  • tensorflow-model-server-neuron.x86_64 2.8.0.2.3.0.0-0 neuron

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 28 de abril de 2025

Mejoras de K8s

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-dkms.noarch: 2.20.28.0-dkms

  • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

  • aws-neuronx-tools.x86_64: 2.18.3.0-1

  • aws-neuron-dkms.noarch: 2.3.26.0-dkms

  • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

  • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

  • aws-neuron-runtime.x86_64:1.6.24.0-1

  • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

  • aws-neuron-tools.x86_64:2.1.4.0-1

  • aws-neuronx-collectives.x86_64: 2.24.59.0_838c7fc8b-1

  • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

  • aws-neuronx-gpsimd-customop-lib.x86_64: 0.14.12.0-1

  • aws-neuronx-gpsimd-tools.x86_64: 0.14.6.0_241eb69f4-1

  • aws-neuronx-k8-plugin.x86_64: 2.24.23.0-1

  • aws-neuronx-k8-scheduler.x86_64: 2.24.23.0-1

  • aws-neuronx-runtime-lib.x86_64: 2.24.53.0_f239092cc-1

  • aws-neuronx-tools.x86_64: 2.22.61.0-1

  • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 18 de abril de 2025

Actualizaciones generales de la AMI

  • Nueva AMI de SageMaker HyperPod para Amazon EKS 1.32.1.

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Las AMI son las siguientes:

Deep Learning EKS AMI 1.32.1
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.32.1

    • Versión de Containerd: 1.7.27

    • Versión de Runc: 1.1.14

    • Autenticador de IAM de AWS: 0.6.29

  • Agente de Amazon SSM: 3.3.1611.0

  • Núcleo de Linux: 5.10.235

  • Controlador con software de código abierto de NVIDIA: 550.163.01

  • NVIDIA CUDA: 12.4

  • Instalador de EFA: 1.38.0

  • GDRCopy: 2.4.1-1

  • Kit de herramientas de contenedor de NVIDIA: 1.17.6

  • AWS OFI NCCL: 1.13.2

  • aws-neuronx-tools: 2.18.3.0

  • aws-neuronx-runtime-lib: 2.24.53.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-collectives: 2.24.59.0

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 18 de febrero de 2025

Mejoras de K8s

  • Se ha actualizado el kit de herramientas de contenedores de Nvidia de la versión 1.17.3 a la versión 1.17.4.

  • Se ha solucionado el problema por el que los clientes no podían conectarse a los nodos después de reiniciar.

  • Actualización de la versión del Elastic Fabric Adapter (EFA) de 1.37.0 a 1.38.0.

  • EFA ahora incluye el complemento AWS OFI NCCL, que se encuentra en el directorio /opt/amazon/ofi-nccl en lugar de en la ruta /opt/aws-ofi-nccl/ original. Si necesita actualizar la variable de entorno LD_LIBRARY_PATH, asegúrese de modificar la ruta para que apunte hacia la nueva ubicación /opt/amazon/ofi-nccl del complemento OFI NCCL.

  • Se ha eliminado el paquete emacs de estas DLAMI. Puede instalar emacs desde emac GNU.

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Installed the latest version of neuron SDK
  • aws-neuronx-dkms.noarch: 2.19.64.0-dkms @neuron

  • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1 @neuron

  • aws-neuronx-tools.x86_64: 2.18.3.0-1 @neuron

  • aws-neuronx-collectives.x86_64: 2.23.135.0_3e70920f2-1 neuron

  • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1 neuron

  • aws-neuronx-gpsimd-customop-lib.x86_64

  • aws-neuronx-gpsimd-tools.x86_64: 0.13.2.0_94ba34927-1 neuron

  • aws-neuronx-k8-plugin.x86_64: 2.23.45.0-1 neuron

  • aws-neuronx-k8-scheduler.x86_64: 2.23.45.0-1 neuron

  • aws-neuronx-runtime-lib.x86_64: 2.23.112.0_9b5179492-1 neuron

  • aws-neuronx-tools.x86_64: 2.20.204.0-1 neuron

  • tensorflow-model-server-neuronx.x86_64

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 22 de enero de 2025

Actualizaciones generales de la AMI

  • Nueva AMI de SageMaker HyperPod para Amazon EKS 1.31.2.

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Las AMI son las siguientes:

Deep Learning EKS AMI 1.31
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.31.2

    • Versión de Containerd: 1.7.23

    • Versión de Runc: 1.1.14

    • Autenticador de IAM de AWS: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Núcleo de Linux: 5.10.230

  • Controlador con software de código abierto de NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador de EFA: 1.37.0

  • GDRCopy: 2.4.1-1

  • Kit de herramientas de contenedor de NVIDIA: 1.17.3

  • AWS OFI NCCL: 1.13.0

  • aws-neuronx-tools: 2.18.3

  • aws-neuronx-runtime-lib: 2.23.112.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.23.133.0

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 21 de diciembre de 2024

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Las AMI son las siguientes:

K8s v1.28
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.28.15

    • Versión de Containerd: 1.7.23

    • Versión de Runc: 1.1.14

    • Autenticador de IAM de AWS: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Núcleo de Linux: 5.10.228

  • Controlador con software de código abierto de NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador de EFA: 1.37.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.17.3

  • AWS OFI NCCL: 1.13.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.23.112.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.23.135.0

K8s v1.29
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.29.10

    • Versión de Containerd: 1.7.23

    • Versión de Runc: 1.1.14

    • Autenticador de IAM de AWS: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Kernel de Linux: 5.15.0

  • Controlador con software de código abierto de NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador de EFA: 1.37.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.17.3

  • AWS OFI NCCL: 1.13.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.23.112.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.23.135.0

K8s v1.30
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.30.6

    • Versión de Containerd: 1.7.23

    • Versión de Runc: 1.1.14

    • Autenticador de IAM de AWS: 0.6.26

  • Amazon SSM Agent: 3.3.987.0

  • Núcleo de Linux: 5.10.228

  • Controlador con software de código abierto de NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador de EFA: 1.37.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.17.3

  • AWS OFI NCCL: 1.13.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.23.112.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.23.135.0

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 13 de diciembre de 2024

Actualización de la DLAMI de SageMaker HyperPod para Amazon EKS

  • Se ha actualizado el agente SSM a la versión 3.3.1311.0.

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 24 de noviembre de 2024

Actualizaciones generales de la AMI

  • Publicado en la región MEL (Melbourne).

  • Se ha actualizado la DLAMI de base de Sagemaker HyperPod a las siguientes versiones:

    • Kubernetes: 1/11/2024

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 15 de noviembre de 2024

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Las AMI son las siguientes:

Deep Learning EKS AMI 1.28
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.28.15

    • Versión de Containerd: 1.7.23

    • Versión de Runc: 1.1.14

    • Autenticador de IAM de AWS: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Núcleo de Linux: 5.10.228

  • Controlador con software de código abierto de NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador de EFA: 1.34.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.17.3

  • AWS OFI NCCL: 1.11.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.22.19.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.22.33.0

Deep Learning EKS AMI 1.29
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.29.10

    • Versión de Containerd: 1.7.23

    • Versión de Runc: 1.1.14

    • Autenticador de IAM de AWS: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Núcleo de Linux: 5.10.228

  • Controlador con software de código abierto de NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador de EFA: 1.34.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.17.3

  • AWS OFI NCCL: 1.11.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.22.19.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.22.33.0

Deep Learning EKS AMI 1.30
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.30.6

    • Versión de Containerd: 1.7.23

    • Versión de Runc: 1.1.14

    • Autenticador de IAM de AWS: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Núcleo de Linux: 5.10.228

  • Controlador con software de código abierto de NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador de EFA: 1.34.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.17.3

  • AWS OFI NCCL: 1.11.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.22.19.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.22.33.0

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 11 de noviembre de 2024

Actualizaciones generales de la AMI

  • Se ha actualizado la DLAMI de SageMaker HyperPod con las versiones 1.28.13, 1.29.8 y 1.30.4 de Amazon EKS.

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 21 de octubre de 2024

Actualizaciones generales de la AMI

  • Se ha actualizado la DLAMI de base de Sagemaker HyperPod a las siguientes versiones:

    • Amazon EKS: 1.28.11, 1.29.6 y 1.30.2.

Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 10 de septiembre de 2024

DLAMI de SageMaker HyperPod para compatibilidad con Amazon EKS

Las AMI son las siguientes:

  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.28.11

    • Versión de Containerd: 1.7.20

    • Versión de Runc: 1.1.11

    • Autenticador de IAM de AWS: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Kernel de Linux: 5.10.223

  • Controlador con software de código abierto de NVIDIA: 535.183.01

  • NVIDIA CUDA: 12.2

  • Instalador de EFA: 1.32.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.29
  • Componentes de Amazon EKS

    • Versión de Kubernetes: 1.29.6

    • Versión de Containerd: 1.7.20

    • Versión de Runc: 1.1.11

    • Autenticador de IAM de AWS: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Kernel de Linux: 5.10.223

  • Controlador con software de código abierto de NVIDIA: 535.183.01

  • NVIDIA CUDA: 12.2

  • Instalador de EFA: 1.32.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.30
  • Componentes de Amazon EKS

    • Versión de Kubernetes 1.30.2

    • Versión de Containerd: 1.7.20

    • Versión de Runc: 1.1.11

    • Autenticador de IAM de AWS: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Kernel de Linux: 5.10.223

  • Controlador con software de código abierto de NVIDIA: 535.183.01

  • NVIDIA CUDA: 12.2

  • Instalador de EFA: 1.32.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedor de NVIDIA: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0