Orquestación de clústeres de SageMaker HyperPod con Amazon EKS - Amazon SageMaker AI

Orquestación de clústeres de SageMaker HyperPod con Amazon EKS

SageMaker HyperPod es un servicio administrado por SageMaker AI que permite el entrenamiento a gran escala de modelos fundacionales en clústeres de computación resilientes y de larga duración, que se integran con Amazon EKS para orquestar los recursos de computación de HyperPod. Puede ejecutar trabajos de entrenamiento de forma ininterrumpida que abarquen semanas o meses a gran escala mediante clústeres de Amazon EKS con características de resiliencia de HyperPod que comprueban diversos errores de hardware y recuperan automáticamente los nodos defectuosos.

Entre las principales características para los usuarios administradores de clústeres se incluyen las siguientes.

  • Aprovisionamiento de clústeres resilientes de HyperPod y la asociación de los mismos a un plano de control de EKS

  • Administración dinámica de la capacidad, como, por ejemplo, la incorporación de más nodos, la actualización del software y la eliminación de clústeres

  • Acceso a las instancias del clúster directamente a través de kubectl o SSM/SSH

  • Capacidades de resiliencia, que incluyen comprobaciones de estado básicas, comprobaciones de estado exhaustivas, un agente de supervisión del estado y compatibilidad con la reanudación automática de trabajos en PyTorch

  • Integración con herramientas de observabilidad, como, por ejemplo, Información de contenedores de Amazon CloudWatch, Amazon Managed Service for Prometheus y Amazon Managed Grafana

En el caso de usuarios científicos de datos, la compatibilidad con EKS en HyperPod permite lo siguiente.

  • Ejecutar cargas de trabajo en contenedores para entrenar modelos fundacionales en el clúster de HyperPod

  • Ejecutar inferencias en el clúster de EKS, sacando partido de la integración entre HyperPod y EKS

  • Sacar partido de la capacidad de reanudación automática de trabajos para el entrenamiento de Kubeflow PyTorch (PyTorchJob)

nota

Amazon EKS permite la orquestación administrada por el usuario de las tareas y la infraestructura en SageMaker HyperPod a través del plano de control de Amazon EKS. Asegúrese de que el acceso de los usuarios al clúster a través del punto de conexión del servidor API de Kubernetes siga el principio de privilegio mínimo y de que la salida de la red del clúster de HyperPod sea segura.

Para obtener más información sobre cómo proteger el acceso al servidor de API de Amazon EKS, consulte Controlar el acceso de la red al punto de conexión del servidor de API del clúster.

Para obtener más información sobre cómo proteger el acceso a la red en HyperPod, consulte Configuración de SageMaker HyperPod con una Amazon VPC personalizada.

La compatibilidad con la arquitectura de alto nivel de Amazon EKS en HyperPod implica una asignación 1 a 1 entre un clúster de EKS (plano de control) y un clúster de HyperPod (nodos de trabajo) en una VPC, tal y como se muestra en el siguiente diagrama.

EKS and HyperPod VPC architecture with control plane, clúster nodes, and Servicios de AWS.