Creación de un clúster de HyperPod EKS con un grupo de instancias restringido (RIG) - Amazon SageMaker AI

Creación de un clúster de HyperPod EKS con un grupo de instancias restringido (RIG)

En este tema se describen los pasos para crear un clúster de Amazon SageMaker HyperPod EKS con un grupo de instancias restringido (RIG). Una configuración de RIG en los clústeres de SageMaker HyperPod EKS proporciona un entorno especializado para el entrenamiento de modelos de Amazon Nova. RIG presenta las siguientes restricciones:

  • Las cargas de trabajo de RIG se ejecutan en una VPC sin Internet y todas las entradas y salidas están reguladas estrictamente.

  • RIG restringe la observabilidad de las funciones de Kubernetes, como kubectl exec y registros, con el fin de garantizar un entorno seguro para el entrenamiento de modelos de Nova.

  • RIG solo permite imágenes de personalización de Nova y se rechazarán los trabajos que se ejecuten con otras imágenes.

Puede crear un RIG al configurar grupos de instancias en el clúster de HyperPod EKS. Si bien puede controlar el tamaño y la escala de estos recursos, no puede acceder directamente a los nodos de trabajo. Esta arquitectura garantiza que solo se pueda acceder a los componentes de Nova (pesos del modelo, puntos de comprobación, datos de entrenamiento y código) a través de canales regulados y un sistema de cuentas administradas por el servicio.

La personalización de modelos de Nova en SageMaker HyperPod se basa en un sistema de archivos de FSx para Lustre administrado por el servicio para lograr un rendimiento óptimo. Al crear un RIG, debe especificar el tamaño del volumen y el rendimiento del sistema de archivos de FSx para Lustre, que se montará en todos los nodos de trabajo del grupo de instancias. FSx para Lustre se utiliza para almacenar puntos de comprobación intermedios y estados de modelos internos durante el entrenamiento distribuido. Siga las instrucciones que se proporcionan en la fórmula para elegir un tamaño de volumen y un rendimiento adecuados para garantizar capacidad y rendimiento suficientes. Los costos de uso de FSx para Lustre se aplicarán a su Cuenta de AWS.

Notas importantes sobre RIG en clústeres de HyperPod EKS

  • RIG solo admite el rol de ejecución para permisos. Asegúrese de que el rol de ejecución incluya los permisos de IAM necesarios, como acceso a Amazon S3.

  • Cuando utilice Amazon FSx para Lustre y Amazon S3 administrados por servicios, asegúrese de que el sistema de archivos de FSx para Lustre tenga el tamaño adecuado para la carga de trabajo. El manifiesto de datos de entrenamiento se carga en Amazon S3, al que debe poder acceder el rol de ejecución.

  • El RIG debe crearse o actualizarse en un nuevo clúster de SageMaker HyperPod EKS específicamente, creado el 16 de julio de 2025 o después. Los clústeres creados antes de esta fecha pueden contener versiones de software o configuraciones incompatibles que RIG no admite.

  • La creación de clústeres de HyperPod EKS con RIG solo se admite en la siguiente Región de AWS: us-east-1.

Creación de un clúster de HyperPod EKS con un grupo de instancias restringido (Consola - recomendado)

En esta sección se proporcionan instrucciones detalladas para crear un clúster de HyperPod EKS con un grupo de instancias restringido para la personalización de Amazon Nova mediante la Consola de administración de AWS. Para obtener más información, consulte Creación de un clúster de SageMaker HyperPod con la orquestación de Amazon EKS.

nota

Debe crear el clúster en us-east-1 porque es la única Región de AWS que se admite para grupos de instancias restringido.

  1. Abra la consola de Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/.

  2. Seleccione Clústeres de HyperPod en el panel de navegación izquierdo y, a continuación, Administración de clústeres.

  3. En la página Clústeres de SageMaker HyperPod, elija Crear clúster de HyperPod.

  4. En el menú desplegable Crear clúster de HyperPod, seleccione Orquestado por Amazon EKS.

  5. En la página de creación de clústeres, seleccione Configuración rápida. Con esta opción puede empezar inmediatamente con la configuración predeterminada. SageMaker AI creará nuevos recursos como VPC, subredes, grupos de seguridad, un bucket de Amazon S3, un rol de IAM y FSx para Lustre durante el proceso de creación del clúster.

  6. En Configuración general, especifique un nombre para el nuevo clúster. Después de crear el clúster, no puede cambiarle el nombre.

  7. En Grupos de instancias, elija Agregar grupo. Cada grupo de instancias se puede configurar de una forma diferente y se puede crear un clúster heterogéneo que conste de varios grupos de instancias con diversos tipos de instancias. Para implementar un clúster, debe agregar al menos un grupo de instancias. Puede añadir un grupo de instancias cada vez. Si desea crear varios grupos de instancias, repita el proceso para cada uno de ellos.

    Siga estos pasos para agregar un grupo de instancias.

    1. En Tipo de grupo de instancias, seleccione Grupo de instancias restringido (RIG). Grupo de instancias restringido (RIG) es un entorno especializado para la personalización de modelos fundacionales, como Amazon Nova. Estándar proporciona un entorno computacional de uso general sin restricciones de seguridad adicionales.

    2. En Nombre, especifique un nombre para el grupo de instancias.

    3. En Capacidad de instancia, elija la capacidad bajo demanda o un plan de entrenamiento para reservar recursos de computación.

    4. En Tipo de instancia, elija la instancia del grupo de instancias. Debe elegir un tipo de instancia que admita personalización de modelos de Amazon Nova, como, por ejemplo, ml.p5.48xlarge. Asegúrese de elegir también el tipo de instancia con cuotas suficientes en su Cuenta de AWS. Para solicitar cuotas adicionales, consulte Cuotas de SageMaker HyperPod.

    5. En Cantidad de instancias, especifique un número entero que no supere la cuota de instancias de uso del clúster. Para esta guía de inicio rápido, introduzca 1 para la instancia restringida que está creando.

    6. En Zona de disponibilidad de destino, elija la zona de disponibilidad en la que se aprovisionarán las instancias. La zona de disponibilidad debe corresponder a la ubicación de la capacidad de computación acelerada.

    7. En Volumen de almacenamiento adicional por instancia (GB) - opcional, especifique un número entero entre 1 y 16384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El volumen de EBS está asociado a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el volumen de EBS adicional es /opt/sagemaker. Una vez que el clúster se haya creado correctamente, puede utilizar SSH en las instancias del clúster (nodos) y verificar si el volumen de EBS está montado correctamente ejecutando el comando df -h. La conexión de un volumen de EBS adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección Amazon EBS volumes de la Guía del usuario de Amazon Elastic Block Store.

    8. En Comprobaciones exhaustivas de estado de instancias, elija la opción deseada. Las comprobaciones exhaustivas de estado supervisan el estado de las instancias durante la creación y después de las actualizaciones de software, y recuperan automáticamente las instancias con error mediante reinicios o sustituciones cuando están habilitadas.

    9. Elija Agregar grupo de instancias.

  8. En Configuración rápida predeterminada, revise los ajustes predeterminados. En esta sección se enumeran todos los ajustes predeterminados para la creación de clústeres, incluidos los nuevos recursos de AWS que se crearán durante el proceso de creación de clústeres.

  9. Elija Enviar.

Creación de un clúster de HyperPod EKS con un grupo de instancias restringido (CLI)

Siga estas instrucciones para crear un clúster de HyperPod EKS con un RIG mediante la AWS CLI.