Creación de un clúster de SageMaker HyperPod con la orquestación de Amazon EKS
En el siguiente tutorial, se muestra cómo crear un nuevo clúster de SageMaker HyperPod y configurarlo con la orquestación de Amazon EKS a través de la interfaz de usuario de la consola de SageMaker AI.
En este tema:
Crear un clúster
Para ir a la página Clústeres de SageMaker HyperPod y elegir la orquestación de Amazon EKS, siga estos pasos.
Abra la consola de Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/
. -
Seleccione Clústeres de HyperPod en el panel de navegación izquierdo y, a continuación, Administración de clústeres.
-
En la página Clústeres de SageMaker HyperPod, elija Crear clúster de HyperPod.
-
En el menú desplegable Crear clúster de HyperPod, seleccione Orquestado por Amazon EKS.
-
En la página de creación de clústeres de EKS, verá dos opciones. Elija la opción que mejor se adapte a sus necesidades.
-
Configuración rápida: para comenzar de inmediato con la configuración predeterminada, seleccione Configuración rápida. Con esta opción, SageMaker AI creará nuevos recursos como VPC, subredes, grupos de seguridad, un bucket de Amazon S3, un rol de IAM y FSx para Lustre durante el proceso de creación del clúster.
-
Configuración personalizada: para integrarse con los recursos de AWS existentes o tener requisitos específicos de red, seguridad o almacenamiento, seleccione Configuración personalizada. Con esta opción, puede optar por utilizar los recursos existentes o crear unos nuevos. Además, puede personalizar la configuración que mejor se adapte a sus necesidades.
-
En la sección Configuración rápida, siga estos pasos para crear su clúster de HyperPod con la orquestación de Amazon EKS.
Configuración general
Especifique un nombre para el nuevo clúster. Después de crear el clúster no puede cambiarle el nombre.
Grupos de instancias
Para añadir un grupo de instancias, elija Agregar grupo. Cada grupo de instancias se puede configurar de una forma diferente y se puede crear un clúster heterogéneo que conste de varios grupos de instancias con diversos tipos de instancias. Para implementar un clúster, debe agregar al menos un grupo de instancias. Siga estos pasos para agregar un grupo de instancias.
-
Para Tipo del grupo de instancias, seleccione Estándar o Grupo de instancias restringido (RIG). En general, se selecciona Estándar pues proporciona un entorno computacional de uso general sin restricciones de seguridad adicionales. Grupo de instancias restringido (RIG) es un entorno especializado para la personalización de modelos fundacionales, como Amazon Nova. Para obtener más información sobre la configuración de RIG para la personalización de modelos de Amazon Nova, consulte Personalización de Amazon Nova en Amazon SageMaker HyperPod.
-
En Nombre, especifique un nombre para el grupo de instancias.
-
En Capacidad de instancia, elija la capacidad bajo demanda o un plan de entrenamiento para reservar recursos de computación.
-
En Tipo de instancia, elija la instancia del grupo de instancias.
importante
Asegúrese de elegir un tipo de instancia con bastantes cuotas y que tenga suficientes direcciones IP sin asignar para su cuenta. Para ver o solicitar cuotas adicionales, consulte Cuotas de SageMaker HyperPod.
-
En Cantidad de instancias, especifique un número entero que no supere la cuota de instancias de uso del clúster. Para este tutorial, introduzca 1 para los tres grupos.
-
En Zona de disponibilidad de destino, elija la zona de disponibilidad en la que se aprovisionarán las instancias. La zona de disponibilidad debe corresponder a la ubicación de la capacidad de computación acelerada.
-
En Volumen de almacenamiento adicional por instancia (GB) - opcional, especifique un número entero entre 1 y 16 384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El volumen de EBS está asociado a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el volumen de EBS adicional es
/opt/sagemaker. Una vez que el clúster se haya creado correctamente, puede utilizar SSH en las instancias del clúster (nodos) y verificar si el volumen de EBS está montado correctamente ejecutando el comandodf -h. La conexión de un volumen de EBS adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección Amazon EBS volumes de la Guía del usuario de Amazon Elastic Block Store. -
En Comprobaciones exhaustivas del estado de las instancias, elija la opción deseada. Las comprobaciones exhaustivas de estado supervisan el estado de las instancias durante la creación y después de las actualizaciones de software, y recuperan automáticamente las instancias con error mediante reinicios o sustituciones cuando están habilitadas.
-
Elija Agregar grupo de instancias.
Valores predeterminados de la configuración rápida
En esta sección se enumeran todos los ajustes predeterminados para la creación de clústeres, incluidos los nuevos recursos de AWS que se crearán durante el proceso de creación de clústeres. Revise la configuración predeterminada.
En la sección Configuración personalizada, siga estos pasos para crear su primer clúster de HyperPod con la orquestación de Amazon EKS.
Configuración general
Especifique un nombre para el nuevo clúster. Después de crear el clúster no puede cambiarle el nombre.
En Recuperación de instancias, elija Automática - recomendado o Ninguna.
Red
Defina la configuración de red en el clúster y dentro y fuera de este. Para la orquestación del clúster de SageMaker HyperPod con Amazon EKS, la VPC se establece automáticamente en la que se ha configurado con el clúster de EKS que ha seleccionado.
-
En VPC, seleccione su propia VPC si ya dispone de una que permita a SageMaker AI acceder a su VPC. Para crear una VPC nueva, siga las instrucciones de la sección Creación de una VPC de la Guía del usuario de Amazon Virtual Private Cloud. Puede seleccionar la opción Ninguna para usar la VPC predeterminada de SageMaker AI.
-
En Bloque de CIDR de VPC IPv4, introduzca la IP de inicio de la VPC.
-
En Zonas de disponibilidad, elija las zonas de disponibilidad (AZ) en las que HyperPod creará las subredes para su clúster. Elija las AZ que coincidan con la ubicación de su capacidad de computación acelerada.
-
En Grupos de seguridad, elija grupos de seguridad que estén asociados al clúster de Amazon EKS o cuyo tráfico entrante esté permitido por el grupo de seguridad asociado al clúster de Amazon EKS. Para crear nuevos grupos de seguridad, vaya a la consola de Amazon VPC.
Orquestación
Siga estos pasos para crear o seleccionar un clúster de Amazon EKS para usarlo como orquestador.
-
En Clúster de EKS, elija crear un nuevo clúster de Amazon EKS o utilizar uno existente.
Si debe crear un nuevo clúster de EKS, puede crearlo en la sección Clúster de EKS sin abrir la consola de Amazon EKS.
nota
La subred de VPC que elija para HyperPod debe ser privada.
Tras enviar una solicitud de creación de un nuevo clúster de EKS, espere a que el clúster de EKS pase a estar
Active. -
En Versión de Kubernetes, elija una versión en el menú desplegable. Para obtener más información sobre las versiones de Kubernetes, consulte Descripción del ciclo de vida de las versiones de Kubernetes en EKS en la Guía del usuario de Amazon EKS.
-
En Operadores, elija Usa gráficos y complementos predeterminados de Helm o No instales operadores. La opción predeterminada es Usar gráficos y complementos predeterminados de Helm, que se utilizará para instalar los operadores en el clúster de EKS. Para obtener más información sobre los gráficos y complementos predeterminados de Helm, consulte
helm_charten el repositorio de GitHub. Para obtener más información, consulte Instalación de paquetes en el clúster de Amazon EKS mediante Helm. -
En Operadores habilitados, consulte la lista de operadores habilitados. Para editar los operadores, desmarque la casilla situada en la parte superior y elija los operadores que desee activar en el clúster de EKS.
nota
Para usar HyperPod con EKS, debe instalar los gráficos y complementos de Helm que habilitan los operadores en el clúster de EKS. Estos componentes configuran EKS como el plano de control para HyperPod y proporcionan la configuración necesaria para administrar y orquestar las cargas de trabajo.
Grupos de instancias
Para añadir un grupo de instancias, elija Agregar grupo. Cada grupo de instancias se puede configurar de una forma diferente y se puede crear un clúster heterogéneo que conste de varios grupos de instancias con diversos tipos de instancias. Para implementar un clúster, debe agregar al menos un grupo de instancias. Siga estos pasos para agregar un grupo de instancias.
-
Para Tipo del grupo de instancias, seleccione Estándar o Grupo de instancias restringido (RIG). En general, se selecciona Estándar pues proporciona un entorno computacional de uso general sin restricciones de seguridad adicionales. Grupo de instancias restringido (RIG) es un entorno especializado para la personalización de modelos fundacionales, como Amazon Nova. Para obtener más información sobre la configuración de RIG para la personalización de modelos de Amazon Nova, consulte Personalización de Amazon Nova en Amazon SageMaker HyperPod.
-
En Nombre, especifique un nombre para el grupo de instancias.
-
En Capacidad de instancia, elija la capacidad bajo demanda o un plan de entrenamiento para reservar recursos de computación.
-
En Tipo de instancia, elija la instancia del grupo de instancias.
importante
Asegúrese de elegir un tipo de instancia con bastantes cuotas y que tenga suficientes direcciones IP sin asignar para su cuenta. Para ver o solicitar cuotas adicionales, consulte Cuotas de SageMaker HyperPod.
-
En Cantidad de instancias, especifique un número entero que no supere la cuota de instancias de uso del clúster. Para este tutorial, introduzca 1 para los tres grupos.
-
En Zona de disponibilidad de destino, elija la zona de disponibilidad en la que se aprovisionarán las instancias. La zona de disponibilidad debe corresponder a la ubicación de la capacidad de computación acelerada.
-
En Volumen de almacenamiento adicional por instancia (GB) - opcional, especifique un número entero entre 1 y 16 384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El volumen de EBS está asociado a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el volumen de EBS adicional es
/opt/sagemaker. Una vez que el clúster se haya creado correctamente, puede utilizar SSH en las instancias del clúster (nodos) y verificar si el volumen de EBS está montado correctamente ejecutando el comandodf -h. La conexión de un volumen de EBS adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección Amazon EBS volumes de la Guía del usuario de Amazon Elastic Block Store. -
En Comprobaciones exhaustivas del estado de las instancias, elija la opción deseada. Las comprobaciones exhaustivas de estado supervisan el estado de las instancias durante la creación y después de las actualizaciones de software, y recuperan automáticamente las instancias con error mediante reinicios o sustituciones cuando están habilitadas. Para obtener más información, consulte Comprobaciones de estado exhaustivas
-
Elija Agregar grupo de instancias.
Scripts de ciclo de vida
Puede optar por utilizar los scripts de ciclo de vida predeterminados o los scripts de ciclo de vida personalizados, que se almacenarán en su bucket de Amazon S3. Puede ver los scripts de ciclo de vida de ejemplo predeterminados en el Awesome Distributed Training GitHub repository
-
En Scripts de ciclo de vida, elija usar scripts de ciclo de vida predeterminados o personalizados.
-
En bucket de S3 para scripts de ciclo de vida, elija crear un nuevo bucket o utilizar un bucket existente para almacenar los scripts de ciclo de vida.
Permisos
Elija o cree un rol de IAM que permita ejecutar HyperPod y acceder a los recursos de AWS necesarios en su nombre. Para obtener más información, consulte Rol de IAM para SageMaker HyperPod.
Almacenamiento
Configure el sistema de archivos de FSx para Lustre para que se aprovisione en el clúster de HyperPod.
-
En Sistema de archivos, elija un sistema de archivos de FSx para Lustre existente para crear un nuevo sistema de archivos de FSx para Lustre o no aprovisione ningún sistema de archivos de FSx para Lustre.
-
En Rendimiento por unidad de almacenamiento, elija el rendimiento que estará disponible por TiB de almacenamiento aprovisionado.
-
En Capacidad de almacenamiento, introduzca un valor de capacidad en TB.
-
En Tipo de compresión, elija LZ4 para habilitar la compresión de datos.
-
En Versión Lustre, consulte el valor recomendado para los nuevos sistemas de archivos.
Etiquetas: opcional
En Etiquetas: opcional, añada pares clave-valor al nuevo clúster y administre el clúster como un recurso de AWS. Para obtener más información, consulte Tagging your AWS resources.
Implementación de recursos
Después de completar las configuraciones del clúster desde Configuración rápida o Configuración personalizada, elija la siguiente opción para iniciar el aprovisionamiento de recursos y la creación del clúster.
-
Enviar: SageMaker AI empezará a aprovisionar los recursos de configuración predeterminados y a crear el clúster.
-
Descargar los parámetros de la plantilla de CloudFormation: descargará el archivo JSON de los parámetros de configuración y ejecutará el comando de la AWS CLI para implementar la pila de CloudFormation a fin de aprovisionar los recursos de configuración y crear el clúster. Si es necesario, puede editar el archivo JSON de parámetros descargado. Si elige esta opción, puede ver más instrucciones en Creación de clústeres de SageMaker HyperPod con plantillas de CloudFormation.