Notas de la versión de Amazon SageMaker HyperPod - Amazon SageMaker AI

Notas de la versión de Amazon SageMaker HyperPod

En este tema se muestran las notas de la versión que hacen un seguimiento de las actualizaciones, las correcciones y las nuevas características de Amazon SageMaker HyperPod. Si busca versiones, actualizaciones y mejoras de características generales de Amazon SageMaker HyperPod, puede que esta página le resulte útil.

Las versiones de la AMI de HyperPod se documentan por separado pues incluyen información sobre los componentes clave, como las versiones, las dependencias y las versiones generales de la AMI. Si busca esta información relacionada con las versiones de la AMI de HyperPod, consulte AMI de Amazon SageMaker HyperPod.

Notas de la versión de SageMaker HyperPod: 4 de agosto de 2025

SageMaker HyperPod lanza nuevas AMI públicas para la orquestación de EKS. Las AMI públicas se pueden usar solas o para crear AMI personalizadas. Para obtener más información sobre las AMI públicas, consulte Versiones de AMI públicas. Para obtener más información sobre cómo crear una AMI personalizada, consulte Imágenes de máquina de Amazon (AMI) personalizadas para clústeres de SageMaker HyperPod.

Notas de la versión de SageMaker HyperPod: 31 de julio de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características y mejoras

  • Se ha publicado una nueva AMI que actualiza el sistema operativo de Amazon Linux 2 a Amazon Linux 2023 para los clústeres de EKS. Las actualizaciones clave incluyen Linux Kernel 6.1, Python 3.10, el controlador NVIDIA 560.35.03 y el administrador de paquetes DNF que reemplaza a YUM.

    importante

    La actualización de Amazon Linux 2 a AL2023 introduce cambios importantes que pueden afectar a la compatibilidad con el software y las configuraciones diseñadas para AL2. Le recomendamos encarecidamente que pruebe las aplicaciones con AL2023 antes de realizar la actualización completa de los clústeres.

    Para obtener más información acerca de la nueva AMI y cómo actualizar los clústeres, consulte Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 31 de julio de 2025.

Notas de la versión de SageMaker HyperPod: 13 de mayo de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características y mejoras

Notas de la versión de SageMaker HyperPod: 1 de mayo de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características

  • Se han añadido informes de uso de los clústeres orquestados por EKS, que permiten a las organizaciones implementar una asignación de costos transparente y basada en el uso entre los equipos, los proyectos o los departamentos. Esta característica complementa la funcionalidad de gobernanza de tareas de HyperPod para garantizar una distribución justa de los costos en entornos de IA/ML compartidos de varios inquilinos. Para obtener más información, consulte Informes sobre el uso de computación en HyperPod.

Notas de la versión de SageMaker HyperPod: 28 de abril de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm y Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características y mejoras

Para obtener más información acerca de las versiones de AMI, consulte Versiones de la AMI de SageMaker HyperPod para Slurm: 28 de abril de 2025 y Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 28 de abril de 2025.

Notas de la versión de SageMaker HyperPod: 18 de abril de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características

Notas de la versión de SageMaker HyperPod: 10 de abril de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características y mejoras

  • Se ha añadido un tutorial de fórmulas de optimización de preferencias directas (DPO) para SageMaker HyperPod con orquestación de Slurm. Este tutorial de refinamiento detallado es una guía paso a paso para optimizar la alineación del modelo con el método DPO en clústeres de SageMaker HyperPod Slurm con tecnología GPU. Para obtener más información, consulte Tutorial de DPO del clúster de HyperPod Slurm (GPU).

Notas de la versión de SageMaker HyperPod: 3 de abril de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm y Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características y mejoras

  • Se ha añadido una página Inicio rápido para implementar los clústeres de SageMaker HyperPod. La página aprovecha los flujos de trabajo de configuración simplificados de los talleres especializados de SageMaker HyperPod y automatiza la implementación mediante plantillas de AWS CloudFormation prediseñadas. Es compatible con las preferencias de infraestructura, como Slurm o Amazon EKS, para facilitar la configuración y la implementación de los clústeres de referencia.

  • SageMaker HyperPod ahora admite los siguientes tipos de instancia para los clústeres de Slurm y Amazon EKS.

    • Nuevos tipos de instancia: instancias I3en, M7i y R7i. Para ver la lista completa de instancias compatibles, consulte el campo InstanceType en ClusterInstanceGroupDetails.

Notas de la versión de SageMaker HyperPod: 16 de marzo de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm y Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características y mejoras

  • Se han agregado las siguientes claves de condición de IAM para un control de acceso más detallado en las operaciones de la API CreateCluster y UpdateCluster.

    Clave de condición Descripción
    sagemaker:InstanceTypes Controle el acceso en función de los tipos de instancia especificados.
    sagemaker:VpcSubnets Restrinja la creación o las actualizaciones de clústeres a subredes de Amazon VPC específicas.
    sagemaker:VpcSecurityGroupIds Administre el acceso en función de los ID de grupo de seguridad de Amazon VPC.

Notas de la versión de SageMaker HyperPod: 20 de febrero de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm y Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características y mejoras

Notas de la versión de SageMaker HyperPod: 18 de febrero de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm y Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características

  • Esta versión de SageMaker HyperPod incorpora una actualización de seguridad del kit de herramientas de contenedores de Nvidia (de la versión 1.17.3 a la versión 1.17.4). Para obtener más información, consulte la nota de la versión de 1.17.4.

    nota

    Para todas las cargas de trabajo de contenedores incluidas en la versión 1.17.4 del kit de herramientas de contenedores de Nvidia, el montaje de bibliotecas de compatibilidad con CUDA ahora está desactivado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, actualice su LD_LIBRARY_PATH para que incluya las bibliotecas de compatibilidad de CUDA. Puede consultar los pasos específicos en Si utiliza una capa de compatibilidad CUDA.

Para obtener más información acerca de las versiones de AMI, consulte Versiones de la AMI de SageMaker HyperPod para Slurm: 18 de febrero de 2025 y Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 18 de febrero de 2025.

Notas de la versión de SageMaker HyperPod: 6 de febrero de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm y Orquestación de clústeres de SageMaker HyperPod con Amazon EKS.

Nuevas características y mejoras

  • Compatibilidad mejorada con múltiples zonas de disponibilidad de SageMaker HyperPod puede especificar diferentes subredes y grupos de seguridad que abarquen distintas zonas de disponibilidad para los grupos de instancias individuales de su clúster. Para obtener más información sobre la compatibilidad con múltiples zonas de disponibilidad de SageMaker HyperPod, consulte Configuración de clústeres de SageMaker HyperPod en múltiples zonas de disponibilidad.

Notas de la versión de SageMaker HyperPod: 22 de enero de 2025

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 9 de enero de 2025

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características y mejoras

Notas de la versión de SageMaker HyperPod: 21 de diciembre de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características

  • SageMaker HyperPod ahora admite los siguientes tipos de instancia para los clústeres de Slurm y Amazon EKS.

    • Nuevos tipos de instancia: C6gn, C6i, M6i y R6i.

    • Nuevos tipos de instancia de Trainium: Trn1 y Trn1n.

Mejoras

  • Se ha mejorado la visibilidad del registro de errores cuando Slurm interrumpe los trabajos y se ha evitado la finalización innecesaria de los trabajos durante las cancelaciones de trabajos iniciados por Slurm.

  • Se ha actualizado la DLAMI básica para p5en para los clústeres de Slurm y Amazon EKS.

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 13 de diciembre de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nueva característica

  • SageMaker HyperPod ha publicado un conjunto de métricas de Amazon CloudWatch para supervisar el estado y el rendimiento de los clústeres de SageMaker HyperPod Slurm. Estas métricas están relacionadas con la CPU, la GPU, el uso de la memoria y la información de las instancias del clúster, como el número de nodos y los nodos con errores. Esta característica de supervisión está activada de forma predeterminada. Además, se puede acceder a las métricas en el espacio de nombres de CloudWatch /aws/sagemaker/Clusters. También puede configurar las alarmas de CloudWatch en función de estas métricas para detectar y abordar de forma proactiva los posibles problemas en sus clústeres de HyperPod basados en Slurm. Para obtener más información, consulte Métricas de Amazon SageMaker HyperPod Slurm.

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 24 de noviembre de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 15 de noviembre de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm. Para obtener más información, consulte Versiones de la AMI de SageMaker HyperPod para Amazon EKS: 15 de noviembre de 2024.

Nuevas características y mejoras

  • Se ha añadido compatibilidad con los tipos de instancia trn1 y trn1n para los clústeres orquestados por Amazon EKS y Slurm.

  • Ha mejorado la administración de registros para los clústeres de Slurm:

    • Se ha implementado la rotación de registros: semanal o diaria según el tamaño.

    • Se ha establecido una retención de registros de 3 semanas.

    • Se han comprimido los registros para reducir el impacto en el almacenamiento.

    • Se han seguido cargando registros a CloudWatch para conservarlos a largo plazo.

      nota

      Algunos registros siguen guardados en syslogs.

  • Se ha ajustado la configuración de Fluent Bit para evitar problemas de seguimiento con archivos que contienen líneas largas.

Correcciones de errores

  • Se ha evitado el truncamiento involuntario al actualizar nodos del controlador Slurm en el archivo de configuración slurm.config.

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 11 de noviembre de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nueva característica

  • La AMI de SageMaker HyperPod ahora admite tipos de instancia G6e.

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 31 de octubre de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características

Notas de la versión de SageMaker HyperPod: 21 de octubre de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nueva característica

  • SageMaker HyperPod ahora admite los tipos de instancia P5e[n], G6, Gr6 y Trn2[n] para los clústeres orquestados por Slurm y Amazon EKS.

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 10 de septiembre de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Amazon EKS y Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 20 de agosto de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características

  • Se ha mejorado la función de reanudación automática de SageMaker HyperPod, lo que amplía la capacidad de resiliencia de los nodos de Slurm asociados a Generic RESources (GRES).

    Cuando hay Generic Resources (GRES) asociados a un nodo de Slurm, Slurm no suele permitir cambios en la asignación de nodos, como la sustitución de nodos, y, por tanto, no permite reanudar un trabajo fallido. A menos que se prohíba explícitamente, la función de reanudación automática de HyperPod vuelve a poner en cola automáticamente cualquier trabajo defectuoso asociado a nodos habilitados para GRES. Este proceso implica detener el trabajo, volver a ponerlo en la cola de trabajos y, a continuación, reiniciarlo desde el principio.

Otros cambios

  • Se ha empaquetado previamente slurmrestd en la AMI de SageMaker HyperPod.

  • Se han modificado los valores predeterminados de ResumeTimeout y UnkillableStepTimeout de 60 a 300 segundos en slurm.conf para mejorar la capacidad de respuesta del sistema y la gestión de los trabajos.

  • Se han realizado pequeñas mejoras en las comprobaciones de estado de NVIDIA Data Center GPU Manager (DCGM) y de NVIDIA System Management Interface (nvidia-smi).

Correcciones de errores

  • El complemento de reanudación automática de HyperPod puede utilizar nodos inactivos para reanudar un trabajo.

Notas de la versión de SageMaker HyperPod: 20 de junio de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características

  • Se ha añadido una nueva capacidad de asociar almacenamiento adicional a las instancias del clúster de SageMaker HyperPod. Con esta capacidad, puede configurar almacenamiento adicional en el nivel de configuración del grupo de instancias durante los procesos de creación o actualización del clúster, ya sea a través de la consola de SageMaker HyperPod o de las API CreateCluster y UpdateCluster. El volumen de EBS adicional se asocia a cada instancia de un clúster de SageMaker HyperPod y se monta en /opt/sagemaker. Para obtener más información sobre su implementación en el clúster de SageMaker HyperPod, consulte la documentación actualizada en las páginas siguientes.

    Tenga en cuenta que debe actualizar el software del clúster de HyperPod para utilizar esta capacidad. Tras aplicar los parches al software del clúster de HyperPod, puede utilizar esta capacidad para los clústeres de SageMaker HyperPod existentes creados antes del 20 de junio de 2024 añadiendo nuevos grupos de instancias. Esta capacidad estará totalmente disponible para todos los clústeres de SageMaker HyperPod creados a partir del 20 de junio de 2024.

Pasos de actualización

  • Ejecute el siguiente comando para llamar a la API UpdateClusterSoftware y actualizar los clústeres de HyperPod existentes con la última DLAMI de HyperPod. Para obtener más instrucciones, consulte Actualización del software de la plataforma de un clúster de SageMaker HyperPod.

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar esta API. El proceso de aplicación de parches reemplaza el volumen raíz por la AMI actualizada, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx para Lustre. Para obtener más información, consulte Utilice el script de copia de seguridad que le proporciona SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Tenga en cuenta que debe ejecutar el comando de la AWS CLI para actualizar el clúster de HyperPod. La actualización del software de HyperPod a través de la interfaz de usuario de la consola de SageMaker HyperPod no está disponible actualmente.

Notas de la versión de SageMaker HyperPod: 24 de abril de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Correcciones de errores

  • Se ha corregido un error con el parámetro ThreadsPerCore de la API ClusterInstanceGroupSpecification. Con esta corrección, las API CreateCluster y UpdateCluster reciben y aplican correctamente las entradas del usuario a través de ThreadsPerCore. Esta corrección resulta eficaz en clústeres de HyperPod creados a partir del 24 de abril de 2024. Si ha tenido problemas con este error y desea aplicar esta corrección a su clúster, debe crear un clúster nuevo. Asegúrese de hacer copia de seguridad de su trabajo y restaurarlo al trasladarse a un clúster nuevo siguiendo las instrucciones que se indican en Utilice el script de copia de seguridad que le proporciona SageMaker HyperPod.

Notas de la versión de SageMaker HyperPod: 27 de marzo de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Parche del software de HyperPod

El equipo de servicio de HyperPod distribuye los parches de software a través de DLAMI de SageMaker HyperPod. Consulte los siguientes detalles sobre la última DLAMI de HyperPod.

  • En esta versión de la DLAMI de HyperPod, Slurm se ha compilado con el servicio REST (slurmestd) con compatibilidad con JSON, YAML y JWT.

  • Se ha actualizado Slurm a la versión 23.11.3.

Mejoras

  • Se ha incrementado el tiempo de espera del servicio de reanudación automática a 60 minutos.

  • Se ha mejorado el proceso de sustitución de instancias para no reiniciar el controlador Slurm.

  • Se han mejorado los mensajes de error al ejecutar scripts de ciclo de vida, como los errores de descarga y los errores de comprobación de estado de la instancia al iniciar la instancia.

Correcciones de errores

  • Se ha corregido un error en el servicio Chrony que provocaba un problema con la sincronización horaria.

  • Se ha corregido un error con el análisis de slurm.conf.

  • Se ha corregido un problema con la biblioteca go-dcgm de NVIDIA.

Notas de la versión de SageMaker HyperPod: 14 de marzo de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Mejoras

Versiones de AMI

Notas de la versión de SageMaker HyperPod: 15 de febrero de 2024

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características

  • Se ha añadido una nueva API UpdateClusterSoftware para los parches de seguridad de SageMaker HyperPod. Cuando haya parches de seguridad disponibles, le recomendamos que actualice los clústeres de SageMaker HyperPod existentes en su cuenta ejecutando aws sagemaker update-cluster-software --cluster-name your-cluster-name. Para estar al día de los futuros parches de seguridad, no deje de consultar esta página de notas de la versión de Amazon SageMaker HyperPod. Para obtener más información sobre cómo trabaja la API UpdateClusterSoftware, consulte Actualización del software de la plataforma de un clúster de SageMaker HyperPod.

Notas de la versión de SageMaker HyperPod: 29 de noviembre de 2023

SageMaker HyperPod publica lo siguiente para Orquestación de clústeres de SageMaker HyperPod con Slurm.

Nuevas características

  • Se ha presentado Amazon SageMaker HyperPod en AWS re:Invent 2023.

Versiones de AMI