View a markdown version of this page

Amazon SageMaker HyperPod - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon SageMaker HyperPod

SageMaker HyperPod le ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de aprendizaje automático (ML) y desarrollar modelos de última generación, como modelos de lenguaje de gran tamaño (LLM), modelos de difusión y modelos básicos (FM). Acelera el desarrollo de las máquinas virtuales, ya que elimina el trabajo pesado e indiferenciado que supone crear y mantener clústeres de cómputo a gran escala alimentados por miles de aceleradores, como AWS Trainium y las unidades de procesamiento gráfico (GPU) NVIDIA A100 y H100. Cuando los aceleradores fallan, las funciones de resiliencia de las instancias del SageMaker HyperPod clúster detectan y sustituyen automáticamente el hardware defectuoso sobre la marcha para que pueda centrarse en ejecutar cargas de trabajo de aprendizaje automático.

Para empezar, compruebe Requisitos previos para su uso SageMaker HyperPodAWS Identity and Access Management para SageMaker HyperPod, configure y elija una de las siguientes opciones de orquestación compatibles con. SageMaker HyperPod

Soporte para Slurm en SageMaker HyperPod

SageMaker HyperPod proporciona soporte para ejecutar cargas de trabajo de aprendizaje automático en clústeres resilientes mediante la integración con Slurm, un administrador de cargas de trabajo de código abierto. La compatibilidad con Slurm SageMaker HyperPod permite una organización fluida de los clústeres mediante la configuración de los clústeres de Slurm, lo que permite configurar nodos principales, de inicio de sesión y de trabajo en los SageMaker HyperPod clústeres. La integración también facilita la programación de los trabajos para ejecutar cargas de Slurm-based trabajo de aprendizaje automático en el clúster, así como el acceso directo a los nodos del clúster para la programación de los trabajos. Gracias a la compatibilidad con HyperPod la configuración del ciclo de vida, puede personalizar el entorno informático de los clústeres para adaptarlo a sus requisitos específicos. Además, al aprovechar las bibliotecas de formación distribuidas de Amazon SageMaker AI, puede optimizar el rendimiento de los clústeres en los recursos AWS informáticos y de red. Para obtener más información, consulte Organización de clústeres con Slurm SageMaker HyperPod.

Soporte de Amazon EKS en SageMaker HyperPod

SageMaker HyperPod también se integra con Amazon EKS para permitir el entrenamiento a gran escala de modelos básicos en clústeres de cómputo resilientes y de larga duración. Esto permite a los usuarios administradores de HyperPod clústeres aprovisionar los clústeres y conectarlos a un plano de control de EKS, lo que permite una administración dinámica de la capacidad, el acceso directo a las instancias del clúster y las capacidades de resiliencia. Para los científicos de datos, el soporte de Amazon EKS HyperPod permite ejecutar cargas de trabajo en contenedores para entrenar modelos básicos, realizar inferencias en el clúster de EKS y aprovechar la capacidad de reanudación automática de tareas para la formación de Kubeflow. PyTorch La arquitectura implica un mapeo uno a uno entre un clúster EKS (plano de control) y un HyperPod clúster (nodos de trabajo) dentro de una VPC, lo que proporciona una solución perfectamente integrada para ejecutar cargas de trabajo de aprendizaje automático a gran escala. Para obtener más información, consulte Organización de SageMaker HyperPod clústeres con Amazon EKS.

UltraServers with HyperPod

HyperPod with UltraServers ofrece la potencia de cómputo de la IA al integrar los superchips de NVIDIA en una infraestructura cohesiva y de alto rendimiento. Cada NVL72 UltraServer combina 18 instancias con 72 GPU NVIDIA Blackwell interconectadas a través de NVLink, lo que permite inferencias más rápidas y un rendimiento de entrenamiento más rápido en comparación con las instancias de la generación anterior. Esta arquitectura es especialmente valiosa para las organizaciones que trabajan con modelos básicos de un billón de parámetros, ya que la memoria unificada de la GPU permite que todos los modelos permanezcan dentro de un único dominio NVLink, lo que elimina los cuellos de botella en las redes entre nodos. HyperPod mejora esta ventaja del hardware con una programación inteligente basada en la topología que optimiza la ubicación de las cargas de trabajo, el reemplazo automático de instancias para minimizar las interrupciones y opciones de implementación flexibles que admiten configuraciones de recursos dedicados y compartidos. Para los equipos que fuerzan los límites del tamaño y el rendimiento de los modelos, esta integración proporciona la base computacional necesaria para entrenar e implementar los modelos de IA más avanzados con una eficiencia sin precedentes.

SageMaker HyperPod optimiza automáticamente la ubicación de las instancias en todo su. UltraServers De forma predeterminada, HyperPod prioriza todas las instancias de una UltraServer antes de usar una diferente. Por ejemplo, si quieres 14 instancias y tienes 2 UltraServers en tu plan, la SageMaker IA usa todas las instancias de la primera. UltraServer Si quieres 20 instancias, la SageMaker IA usa las 18 instancias de la primera UltraServer y luego usa 2 más de la segunda.

Regiones de AWS con el apoyo de SageMaker HyperPod

SageMaker HyperPod está disponible de la siguiente manera Regiones de AWS.

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-south-2

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-southeast-3

  • ap-southeast-4

  • ap-northeast-1

  • sa-east-1