SageMaker HyperPod Lanzamientos de AMI para Slurm - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker HyperPod Lanzamientos de AMI para Slurm

Las siguientes notas de la versión incluyen las últimas actualizaciones de las versiones de Amazon SageMaker HyperPod AMI para la orquestación de Slurm. HyperPod AMIs Se basan en la AMI de GPU AWS Deep Learning Base (Ubuntu 22.04). El equipo HyperPod de servicio distribuye los parches de software a través de ellos. SageMaker HyperPod DLAMI Para ver las versiones de HyperPod AMI para la orquestación de Amazon EKS, consulteSageMaker HyperPod Lanzamientos de AMI para Amazon EKS. Para obtener información sobre las versiones de SageMaker HyperPod funciones de Amazon, consulteNotas de SageMaker HyperPod lanzamiento de Amazon.

nota

Para actualizar los HyperPod clústeres existentes con la última DLAMI, consulte. Actualice el software de la SageMaker HyperPod plataforma de un clúster

SageMaker HyperPod Lanzamientos de AMI para Slurm: 22 de noviembre de 2025

Actualizaciones generales de la AMI

SageMaker HyperPod Soporte de DLAMI para Slurm

Esta versión incluye las siguientes actualizaciones:

Slurm (arm64)
  • Versión del núcleo de Linux: 6.8

  • Versión Glibc: 2.35

  • Versión OpenSSL: 3.0.2

  • FSx Versión de Lustre Client: 2.15.6-1fsx21

  • Versión Runc: 1.3.3

  • Versión contenedora: containerd containerd.io v2.1.5

  • Versión del controlador NVIDIA: 580.95.05

  • Versión CUDA: 12.6, 12.8, 12.9, 13.0

  • Versión del instalador de EFA: 2.1.0amzn5.0

  • Versión de Python: 3.10.12

  • Versión de Slurm: 24.11.0

  • Versión nvme-cli: 1.16

  • versión recopilada: 5.12.0.

  • Versión lustre-client: 2.15.6-1fsx21

  • Versión nvidia-imex: 580.95.05-1

  • versión systemd: 249

  • versión openssh: 8.9

  • versión sudo: 1.9.9

  • versión ufw: 0.36.1

  • versión gcc: 11.4.0

  • versión cmake: 3.2.1

  • versión de git: 2.34.1

  • crear la versión: 4.3

  • versión cloudwatch-agent: 1.300062.0b1304-1

  • Versión nfs-utils: 1:2.6 .1-1ubuntu1.2

  • iscsi-initiator-utils versión: 2.1.5-1ubuntu1.1

  • versión lvm2:2.03.11

  • Versión ec2-instance-connect: 1.1.14-0ubuntu1.1

  • versión rdma-core: 58.amzn0-1

Slurm (x86_64)
  • Versión del kernel de Linux: 6.8

  • Versión Glibc: 2.35

  • Versión OpenSSL: 3.0.2

  • FSx Versión de Lustre Client: 2.15.6-1fsx21

  • Versión Runc: 1.3.3

  • Versión contenedora: containerd containerd.io v2.1.5

  • Versión DMS de AWS Neuronx: 2.24.7.0

  • Versión del controlador NVIDIA: 580.95.05

  • Versión CUDA: 12.6, 12.8, 12.9, 13.0

  • Versión del instalador de EFA: 2.3.1amzn1.0

  • Versión de Python: 3.10.12

  • Versión de Slurm: 24.11.0

  • Versión nvme-cli: 1.16

  • versión stress: 1.0.5

  • versión recopilada: 5.12.0.

  • Versión lustre-client: 2.15.6-1fsx21

  • versión systemd: 249

  • versión openssh: 8.9

  • versión sudo: 1.9.9

  • versión ufw: 0.36.1

  • versión gcc: 11.4.0

  • versión cmake: 3.2.1

  • hacer versión: 4.3

  • versión cloudwatch-agent: 1.300062.0b1304-1

  • Versión nfs-utils: 1:2.6 .1-1ubuntu1.2

  • iscsi-initiator-utils versión: 2.1.5-1ubuntu1.1

  • versión lvm2:2.03.11

  • Versión ec2-instance-connect: 1.1.14-0ubuntu1.1

  • versión rdma-core: 59.amzn0-1

SageMaker HyperPod notas de lanzamiento: 7 de noviembre de 2025

La AMI incluye lo siguiente:

  • CompatibleServicio de AWS: Amazon EC2

  • Sistema operativo: Ubuntu 22.04

  • Arquitectura de cómputo: ARM64

  • Paquetes actualizados: controlador NVIDIA: 580.95.05

  • Versiones de CUDA: cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0

  • Correcciones de seguridad: parche de seguridad Runc

SageMaker HyperPod notas de lanzamiento: 29 de septiembre de 2025

La AMI incluye lo siguiente:

  • CompatibleServicio de AWS: Amazon EC2

  • Sistema operativo: Ubuntu 22.04

  • Arquitectura de cómputo: ARM64

  • Paquetes actualizados: controlador NVIDIA: 570.172.08

  • Correcciones de seguridad:

SageMaker HyperPod notas de publicación: 12 de agosto de 2025

La AMI incluye lo siguiente:

  • CompatibleServicio de AWS: Amazon EC2

  • Sistema operativo: Ubuntu 22.04

  • Arquitectura de cómputo: ARM64

  • La última versión disponible está instalada para los siguientes paquetes:

    • Núcleo de Linux: 6.8

    • FSx Lustre

    • Docker

    • AWS CLIv2 en /usr/bin/aws

    • DCGM de NVIDIA

    • Kit de herramientas de contenedor de NVIDIA:

      • Comando de versión: nvidia-container-cli -V

    • Nvidia-Docker2:

      • Comando de versión: nvidia-docker version

    • NVIDIA-IMEX: v570.172.08-1

  • Controlador NVIDIA: 570.158.01

  • Pila NVIDIA CUDA 12.4, 12.5, 12.6, 12.8:

    • Directorios de instalación de CUDA, NCCL y CUDDN: /usr/local/cuda-xx.x/

      • Ejemplo: /usr/local/cuda-12.8/, /usr/local/cuda-12.8/

    • Versión NCCL compilada:

      • Para el directorio CUDA de 12.4, compiló la versión 2.22.3+ .4 de NCCL. CUDA12

      • Para el directorio CUDA de 12.5, compiló la versión 2.22.3+ .5 de NCCL CUDA12

      • Para el directorio CUDA de 12.6, compiló la versión 2.24.3+ .6 de NCCL CUDA12

      • Para el directorio CUDA de 12.8, compiló la versión 2.27.5+ .8 de NCCL CUDA12

    • CUDA predeterminado: 12.8

      • PATH /usr/local/cuda apunta a CUDA 12.8

      • Se han actualizado las siguientes variables de entorno:

        • LD_LIBRARY_PATHtener /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATHtener /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Para cualquier versión de CUDA diferente, actualícela LD_LIBRARY_PATH en consecuencia.

  • Instalador de EFA: 1.42.0

  • Nvidia: 2.5.1 GDRCopy

  • AWSEl complemento OFI NCCL viene con el instalador EFA

    • Las rutas /opt/amazon/ofi-nccl/lib/aarch64-linux-gnu y /opt/amazon/ofi-nccl/efa se añaden a. LD_LIBRARY_PATH

  • AWS CLIv2 en /usr/local/bin/aws2 y AWS CLI v1 en /usr/bin/aws

  • Tipo de volumen EBS: gp3

  • Python: /usr/bin/python3.10

SageMaker HyperPod notas de lanzamiento: 27 de mayo de 2025

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características y mejoras

  • Se ha actualizado la AMI de base Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523 a los siguientes componentes clave:

    • Controlador Nvidia: 570.133.20

    • CUDA: 12.8 (predeterminado), compatible con CUDA 12.4-12.6

    • Versión de NCCL: 2.26.5

    • Instalador de EFA: 1.40.0

    • AWSOFI NCCL: 1.14.2-aws

  • Paquetes de SDK de Neuron actualizados:

    • aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (desde 2.24.59.0-838c7fc8b)

    • aws-neuronx-dkms: 2.21.37.0 (desde 2.20.28.0)

    • aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (desde 2.24.53,0-f239092 cc)

    • aws-neuronx-tools: 2.23.9.0 (desde 2.22.61.0)

Notas importantes

  • El NVIDIA Container Toolkit 1.17.4 ha desactivado el montaje de bibliotecas compatibles con CUDA.

  • Se ha actualizado la configuración de EFA de 1.37 a 1.38. EFA ahora incluye AWS OFI NCCL, que se encuentra en el directorio /opt/amazon/ofi-nccl en lugar de en la ruta /opt/aws-ofi-nccl/ original. (Publicado el 18 de febrero de 2025)

  • La versión del núcleo está anclada para garantizar la estabilidad y la compatibilidad de los controladores.

SageMaker HyperPod Lanzamientos de AMI para Slurm: 13 de mayo de 2025

Amazon SageMaker HyperPod ha publicado una AMI actualizada que admite Ubuntu 22.04 LTS para clústeres de Slurm. AWSse actualiza periódicamente AMIs para garantizar que tenga acceso a la pila de software más reciente. La actualización a la AMI más reciente mejora la seguridad mediante actualizaciones integrales de paquetes, un rendimiento y una estabilidad mejorados para las cargas de trabajo y compatibilidad con los nuevos tipos de instancia y las últimas características del núcleo.

importante

La actualización de Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce cambios importantes que pueden afectar a la compatibilidad con el software y las configuraciones diseñadas para Ubuntu 20.04.

Actualizaciones clave de la AMI de Ubuntu 22.04

En la tabla siguiente se muestran las versiones de los componentes de la AMI de Ubuntu 22.04 en comparación con la AMI anterior.

Versiones de los componentes de la AMI de Ubuntu 22.04 en comparación con la AMI anterior
Componente Versión anterior Versión actualizada

Sistema operativo Ubuntu

20.04 LTS

22.04 LTS

Slurm

24.11

24.11 (sin cambios)

Python

3.8 (predeterminada)

3.10 (predeterminada)

Elastic Fabric Adapter (EFA) en Amazon FSx

No compatible

compatible

Núcleo de Linux

5.15

6.8

Biblioteca C GNU (glibc)

2.31

2.35

Recopilación de compiladores de GNU (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

Compatible con ≥ 2.35

Sistema de archivos de red (NFS)

1:1.3.4

1:2.6.1

nota

Si bien la versión de Slurm (24.11) permanece sin cambios, las actualizaciones subyacentes del sistema operativo y de la biblioteca de esta AMI pueden afectar al comportamiento de su sistema y a la compatibilidad de la carga de trabajo. Debe probar sus cargas de trabajo antes de actualizar los clústeres de producción.

Actualización a la AMI de Ubuntu 22.04

Antes de actualizar el clúster a la AMI de Ubuntu 22.04, complete estos pasos de preparación y revise los requisitos de actualización. Para solucionar errores de actualización, consulte Resolución de problemas de errores de actualización.

Revisión de la compatibilidad con Python

La AMI de Ubuntu 22.04 usa Python 3.10 como versión predeterminada, actualizada desde Python 3.8. Aunque Python 3.10 mantiene la compatibilidad con la mayoría del código de Python 3.8, debe probar las cargas de trabajo existentes antes de realizar la actualización. Si sus cargas de trabajo requieren Python 3.8, puede instalarlo mediante el siguiente comando en el script de ciclo de vida:

yum install python-3.8

Antes de actualizar el clúster, asegúrese de hacer lo siguiente:

  1. Pruebe la compatibilidad de su código con Python 3.10.

  2. Compruebe que los scripts de su ciclo de vida funcionan en el nuevo entorno.

  3. Compruebe que todas las dependencias sean compatibles con la nueva versión de Python.

  4. Si ha creado el HyperPod clúster copiando el script de ciclo de vida predeterminado desde GitHub, añada el siguiente comando al setup_mariadb_accounting.sh archivo antes de actualizar a Ubuntu 22. Para ver el script completo, consulta setup_mariadb_accounting.sh en GitHub.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Actualización del clúster de Slurm

Puede actualizar su clúster de Slurm para usar la nueva AMI de dos maneras:

  1. Cree un nuevo clúster con la API CreateCluster.

  2. Actualice el software de un clúster existente con la API UpdateClusterSoftware.

Configuraciones validadas

AWSha probado una amplia gama de cargas de trabajo de formación distribuidas y funciones de infraestructura en instancias G5, G6, G6e, P4d, P5 y Trn1, entre las que se incluyen:

Tiempo de inactividad y disponibilidad del clúster

Durante el proceso de actualización, el clúster no estará disponible. Para minimizar las interrupciones, haga lo siguiente:

  • Pruebe el proceso de actualización en clústeres más pequeños.

  • Cree puntos de comprobación antes de la actualización y, una vez finalizada la actualización, reinicie las cargas de trabajo de entrenamiento desde los puntos de comprobación existentes.

Resolución de problemas de errores de actualización

Cuando se produce un error en una actualización, primero debe determinar si el error está relacionado con los scripts del ciclo de vida. Estos scripts suelen fallar por errores de sintaxis, falta de dependencias o por configuraciones incorrectas.

Para investigar los errores relacionados con los scripts del ciclo de vida, consulta los registros. CloudWatch Todos los SageMaker HyperPod eventos y registros se almacenan en el grupo de registros:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Observe específicamente el flujo de registro LifecycleConfig/[instance-group-name]/[instance-id], que proporciona información detallada sobre cualquier error durante la ejecución del script.

Si el error de actualización no está relacionado con los scripts del ciclo de vida, recopile la información relevante, como el ARN del clúster, los registros de errores y las marcas de tiempo. A continuación, póngase en contacto con AWS support para obtener más ayuda.

SageMaker HyperPod Lanzamientos de AMI para Slurm: 7 de mayo de 2025

Amazon SageMaker HyperPod for Slurm publicó una importante actualización de la versión del sistema operativo a Ubuntu 22.04 (desde la versión anterior de Ubuntu 20.04). Consulte DLAMI Ubuntu 22.04 (notas de la versión) para obtener más información: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.

Actualizaciones de paquetes clave:

  • Ubuntu 22.04 LTS (a partir de la 20.04)

  • Versión de Python:

    • Python 3.10 es ahora la versión predeterminada de Python en la AMI de Slurm de Ubuntu 22.04.

    • Esta actualización da acceso a las características más recientes, mejoras de rendimiento y correcciones de errores introducidas en Python 3.10.

  • Support for EFA on FSx

  • Nueva versión del núcleo de Linux 6.8 (actualizada desde la versión 5.15)

  • Versión de Glibc: 2.35 (actualizada desde la versión 2.31)

  • Versión de GCC: 11.4.0 (actualizada desde la versión 9.4.0)

  • Compatibilidad con la versión libc6 más reciente (desde la versión libc6 <= 2.31)

  • Versión de NFS: 1:2.6.1 (actualizada desde la 1:1.3.4)

SageMaker HyperPod Lanzamientos de AMI para Slurm: 28 de abril de 2025

Mejoras de Slurm

Compatibilidad con Amazon SageMaker HyperPod DLAMI para Slurm

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-collectives: 2.24.59.0-838c7fc8b

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092 cc

  • aws-neuronx-tools/desconocido: 2.22.61.0

SageMaker HyperPod Lanzamientos de AMI para Slurm: 18 de febrero de 2025

Mejoras de Slurm

  • Se ha actualizado Slurm a la versión 24.11.

  • Actualización de la versión del Elastic Fabric Adapter (EFA) de 1.37.0 a 1.38.0.

  • La EFA ahora incluye el complemento AWS OFI NCCL. Puede buscar este complemento en el directorio /opt/amazon/ofi-nccl, en lugar de en la ubicación /opt/aws-ofi-nccl/ original. Si necesita actualizar la variable de entorno LD_LIBRARY_PATH, asegúrese de modificar la ruta para que apunte hacia la nueva ubicación /opt/amazon/ofi-nccl del complemento OFI NCCL.

  • Se ha eliminado el paquete emacs de estos. DLAMIs Puede instalar emacs desde emac GNU.

Compatibilidad con Amazon SageMaker HyperPod DLAMI para Slurm

Installed the latest version ofAWSNeuron SDK 2.19
  • aws-neuronx-collectives/desconocido: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/desconocido: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/desconocido: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/desconocido: 2.20.204.0 amd64

SageMaker HyperPod Lanzamientos de AMI para Slurm: 21 de diciembre de 2024

SageMaker HyperPod Soporte de DLAMI para Slurm

Deep Learning Slurm AMI
  • Controlador NVIDIA: 550.127.05

  • Controlador EFA: 2.13.0-1

  • Se instaló la última versión del SDK de Neuron AWS

    • aws-neuronx-collectives: 2.22.3.0

    • aws-neuronx-dkms: 2.18.20.0

    • aws-neuronx-oci-hook: 2.5.8.0

    • aws-neuronx-runtime-lib: 2.22.19.0

    • aws-neuronx-tools: 2.19.0.0

SageMaker HyperPod Lanzamientos de AMI para Slurm: 24 de noviembre de 2024

Actualizaciones generales de la AMI

  • Publicado en la región MEL (Melbourne).

  • Se actualizó el DLAMI SageMaker HyperPod base a las siguientes versiones:

    • Slurm: 2024-11-22.

SageMaker HyperPod Lanzamientos de AMI para Slurm: 15 de noviembre de 2024

Actualizaciones generales de la AMI

  • Se ha instalado el paquete de libnvidia-nscq-xxx más reciente.

SageMaker HyperPod Soporte de DLAMI para Slurm

Deep Learning Slurm AMI
  • Controlador NVIDIA: 550.127.05

  • Controlador EFA: 2.13.0-1

  • Se instaló la última versión del SDK de Neuron AWS

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Lanzamientos de AMI para Slurm: 11 de noviembre de 2024

Actualizaciones generales de la AMI

  • Se actualizó el DLAMI SageMaker HyperPod base a la siguiente versión:

    • Slurm: 23/10/2024.

SageMaker HyperPod Lanzamientos de AMI para Slurm: 21 de octubre de 2024

Actualizaciones generales de la AMI

  • Se actualizó el DLAMI SageMaker HyperPod base a las siguientes versiones:

    • Slurm: 27/9/2024.

SageMaker HyperPod Lanzamientos de AMI para Slurm: 10 de septiembre de 2024

SageMaker HyperPod Soporte de DLAMI para Slurm

Deep Learning Slurm AMI
  • Se ha instalado el controlador de NVIDIA v550.90.07

  • Se ha instalado el controlador de EFA v2.10

  • Se instaló la última versión del SDK de Neuron AWS

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Lanzamientos de AMI para Slurm: 14 de marzo de 2024

HyperPod Parche de software DLAMI para Slurm

  • Se ha actualizado Slurm a la versión 23.11.1

  • Se agregó Open PMIx v4.2.6 para habilitar Slurm con. PMIx

  • Se basa en la AMI de GPU de base de aprendizaje profundo de AWS (Ubuntu 20.04) publicada el 26 de octubre de 2023

  • Una lista completa de los paquetes preinstalados en esta HyperPod DLAMI además de la AMI básica

    • Slurm: v23.11.1

    • Abierto: v4.2.6 PMIx

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática

Pasos de actualización

  • Ejecute el siguiente comando para llamar a la UpdateClusterSoftwareAPI y actualizar sus HyperPod clústeres existentes con la última HyperPod DLAMI. Para obtener más instrucciones, consulte Actualice el software de la SageMaker HyperPod plataforma de un clúster.

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar esta API. El proceso de aplicación de parches reemplaza el volumen raíz por la AMI actualizada, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

SageMaker HyperPod Versión AMI para Slurm: 29 de noviembre de 2023

HyperPod Parche de software DLAMI para Slurm

El equipo de HyperPod servicio distribuye los parches de software a través de. SageMaker HyperPod DLAMI Consulte los siguientes detalles sobre la última versión de HyperPod DLAMI.

  • Se basa en la AMI de GPU de base de aprendizaje profundo de AWS (Ubuntu 20.04) publicada el 18 de octubre de 2023

  • Una lista completa de los paquetes preinstalados en esta HyperPod DLAMI además de la AMI básica

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática