Requisitos previos para utilizar SageMaker HyperPod - Amazon SageMaker AI

Requisitos previos para utilizar SageMaker HyperPod

En las siguientes secciones, se explican los requisitos previos antes de empezar a utilizar SageMaker HyperPod.

Cuotas de SageMaker HyperPod

Puede crear clústeres de SageMaker HyperPod en función de las cuotas de uso del clúster de su cuenta de AWS.

importante

Para obtener más información sobre los precios de SageMaker HyperPod, consulte Precios de SageMaker HyperPod y Precios de Amazon SageMaker.

Visualización de las cuotas de Amazon SageMaker HyperPod desde la Consola de administración de AWS

Busque los valores predeterminados y aplicados de una cuota, también denominada límite, de uso del clúster, que se utiliza para SageMaker HyperPod.

  1. Abra la consola de Service Quotas.

  2. En el panel de navegación de la izquierda, elija Servicios de AWS.

  3. En la lista de servicios de AWS, busque y seleccione Amazon SageMaker AI.

  4. En la lista Service Quotas, puede ver el nombre de la cuota de servicio, el valor aplicado (si está disponible), la cuota predeterminada de AWS y si el valor de cuota es ajustable.

  5. En la barra de búsqueda, escriba uso del clúster. Se mostrarán las cuotas de uso del clúster, las cuotas aplicadas y las cuotas predeterminadas.

Solicite un incremento de la cuota de Amazon SageMaker HyperPod desde la Consola de administración de AWS

Aumente sus cuotas por cuenta o recurso.

  1. Para aumentar la cuota de instancias para el uso del clúster, seleccione la cuota que desea aumentar.

  2. Si la cuota es ajustable, puede solicitar un aumento de la cuota por cuenta o recurso en función del valor que aparezca en la columna de Capacidad de ajuste.

  3. En Aumentar el valor de la cuota, introduzca el nuevo valor. El nuevo valor debe ser mayor que el valor actual.

  4. Seleccione Request (Solicitar).

  5. Para ver las solicitudes pendientes o resueltas recientemente en la consola, acceda a la pestaña Historial de solicitudes de la página de detalles del servicio o elija Panel en el panel de navegación. Para las solicitudes pendientes, seleccione el estado de la solicitud para abrir la recepción de solicitud. El estado inicial de una solicitud es Pendiente. Cuando el estado cambie a Cuota solicitada, verá el número de caso con AWS Support. Elija el número de caso para abrir el ticket para su solicitud.

Para obtener más información sobre cómo solicitar un aumento de cuota en general, consulte Requesting a Quota Increase en la Guía de usuario de Service Quotas de AWS.

Configuración de SageMaker HyperPod con una Amazon VPC personalizada

Para configurar un clúster de SageMaker HyperPod con una Amazon VPC personalizada, revise los siguientes requisitos previos.

nota

La configuración de la VPC es obligatoria para la orquestación de Amazon EKS. Para la orquestación de Slurm, la configuración de la VPC es opcional.

  • Valide la capacidad de la interfaz de red elástica (ENI) de su Cuenta de AWS antes de crear un clúster de SageMaker HyperPod con una VPC personalizada. Amazon EC2 controla el límite de ENI y varía según la Región de AWS. SageMaker HyperPod no puede solicitar automáticamente incrementos de cuota.

    Para verificar su cuota de ENI actual:
    1. Abra la consola de Service Quotas.

    2. En la sección Administrar las cuotas, use la lista desplegable Servicios de AWS para buscar VPC.

    3. Elija consultar las cuotas de Amazon Virtual Private Cloud (Amazon VPC).

    4. Busque la cuota de servicio, las interfaces de red por región o el código de cuota L-DF5E4CA3.

    Si su límite de ENI actual no es suficiente para las necesidades del clúster de SageMaker HyperPod, solicite un aumento de cuota. Garantizar de antemano una capacidad de ENI adecuada ayuda a evitar errores en la implementación del clúster.

  • Cuando utilice una VPC personalizada para conectar un clúster de SageMaker HyperPod con recursos de AWS, proporcione el nombre de la VPC, el ID, la Región de AWS, los ID de subred y los ID del grupo de seguridad durante la creación del clúster.

    nota

    Cuando su Amazon VPC y las subredes admiten IPv6 en el VPCConfig del clúster o en el grupo de instancias con el atributo OverrideVPCConfig de ClusterInstanceGroupSpecification, las comunicaciones de red difieren en función de la plataforma de orquestación del clúster:

    • Los clústeres orquestados por Slurm configuran automáticamente los nodos con direcciones IPv6 e IPv4 duales, lo que permite una comunicación de red IPv6 inmediata. No se necesita configuración adicional aparte de la configuración de VPCConfig IPv6.

    • En los clústeres orquestados por EKS, los nodos reciben direcciones de doble pila, pero los pods solo pueden usar IPv6 cuando el clúster de Amazon EKS está habilitado explícitamente para IPv6. Debe crear un nuevo clúster IPv6 de Amazon EKS; los clústeres IPv4 de Amazon EKS existentes no se pueden convertir a IPv6. Para obtener más información sobre la implementación de un clúster IPv6 de Amazon EKS, consulte Implementación de un clúster IPv6 de Amazon EKS.

    Recursos adicionales para la configuración de IPv6:

  • Asegúrese de que todos los recursos estén implementados en la misma Región de AWS que el clúster de SageMaker HyperPod. Configure las reglas del grupo de seguridad para permitir la comunicación entre recursos dentro de la VPC. Por ejemplo, al crear una VPC en us-west-2, aprovisione subredes en una o más zonas de disponibilidad (como us-west-2a o us-west-2b) y cree un grupo de seguridad que permita el tráfico dentro del grupo.

    nota

    SageMaker HyperPod admite la implementación en varias zonas de disponibilidad. Para obtener más información, consulte Configuración de clústeres de SageMaker HyperPod en múltiples zonas de disponibilidad.

  • Establezca la conectividad de Amazon Simple Storage Service (Amazon S3) para los grupos de instancias de SageMaker HyperPod implementados por VPC mediante la creación de un punto de conexión de VPC. Sin acceso a Internet, los grupos de instancias no pueden almacenar ni obtener scripts de ciclo de vida, datos de entrenamiento ni artefactos de modelos. Le recomendamos que cree una política de IAM personalizada que restrinja el acceso al bucket de Amazon S3 a la VPC privada. Para obtener más información, consulte Endpoints for Amazon S3 en la Guía del usuario de Amazon VPC de AWS PrivateLink.

  • Para clústeres de HyperPod que utilizan instancias habilitadas para Elastic Fabric Adapter (EFA), configure el grupo de seguridad para permitir todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. En concreto, evite utilizar 0.0.0.0/0 para reglas de salida, ya que esto podría provocar errores en las comprobaciones de estado de EFA. Para obtener más información sobre las instrucciones de preparación de los grupos de seguridad de EFA, consulte Paso 1: preparación de un grupo de seguridad habilitado para EFA en la Guía del usuario de Amazon EC2.

  • Considere detenidamente el tamaño del bloque de enrutamiento entre dominios sin clases (CIDR) de su subred antes de crear clústeres de HyperPod.

    • El tamaño del bloque de CIDR de la subred ya no se puede cambiar una vez creado. Esto es especialmente importante cuando se utilizan instancias aceleradas de gran tamaño, como las P5. Si el tamaño del bloque es insuficiente, debe volver a crear los clústeres al escalarlos verticalmente.

    • Al elegir el tamaño del bloque de CIDR de la subred adecuado, tenga en cuenta estos factores: los tipos de instancia, el número de instancias esperado y el número de direcciones IP que consume cada instancia.

    • En el caso de los clústeres orquestados por Slurm, cada instancia P5 puede crear 32 direcciones IP (una por cada tarjeta de red). En el caso de los clústeres orquestados por EKS, cada instancia P5 puede crear 81 direcciones IP (50 de la tarjeta principal y una de cada una de las 31 tarjetas restantes). Para obtener más información detallada, consulte Especificaciones de la red en la Guía para desarrolladores de los tipos de instancia de Amazon EC2.

    • Para ver ejemplos de plantillas de CloudFormation que especifican el tamaño del bloque de CIDR de la subred, consulte la plantilla de HyperPod Slurm y la plantilla de HyperPod Amazon EKS en el repositorio awsome-distributed-training.

Configuración de clústeres de SageMaker HyperPod en múltiples zonas de disponibilidad

Puede configurar sus clústeres de SageMaker HyperPod en varias zonas de disponibilidad (AZ, por sus siglas en inglés) para mejorar la fiabilidad y la disponibilidad.

nota

El tráfico de Elastic Fabric Adapter (EFA) no puede cruzar las AZ ni las VPC. Esto no se aplica al tráfico de IP normal desde el dispositivo de ENA de una interfaz EFA. Para obtener más información, consulte Limitaciones de EFA.

  • Comportamiento predeterminado

    HyperPod implementa todas las instancias del clúster en una única zona de disponibilidad. La configuración de la VPC determina la AZ de implementación:

    • Para los clústeres orquestados por Slurm, la configuración de la VPC es opcional. Cuando no se proporciona ninguna configuración de VPC, HyperPod utiliza una subred de la VPC de la plataforma de forma predeterminada.

    • Para los clústeres orquestados por EKS, la configuración de la VPC es obligatoria.

    • Tanto para los orquestadores de Slurm como para los de EKS, cuando se proporciona VpcConfig, HyperPod selecciona una subred de la lista de subredes del VpcConfig configurado. Todos los grupos de instancias heredan la AZ de la subred.

    nota

    Después de crear un clúster, no podrás modificar la configuración de su VpcConfig.

    Para obtener más información sobre cómo configurar las VPC para los clústeres de HyperPod, consulte la sección anterior Configuración de SageMaker HyperPod con una Amazon VPC personalizada.

  • Configuración de múltiples zonas de disponibilidad

    Puede configurar su clúster de HyperPod en varias zonas de disponibilidad al crear un clúster o al añadir un nuevo grupo de instancias a un clúster existente. Para configurar las implementaciones multi-AZ, puede anular la configuración de la VPC predeterminada del clúster especificando diferentes subredes y grupos de seguridad, si es posible en diferentes zonas de disponibilidad, para los grupos de instancias individuales de su clúster.

    Los usuarios de la API de HyperPod SageMaker pueden utilizar la propiedad OverrideVpcConfig de la ClusterInstanceGroupSpecification cuando trabajen con las API CreateCluster o UpdateCluster.

    El campo OverrideVpcConfig:

    • No se puede modificar una vez creado el grupo de instancias.

    • Es opcional. Si no se especifica, se utiliza el nivel de clúster VpcConfig de forma predeterminada.

    • En el caso de los clústeres orquestados por Slurm, solo se puede especificar cuando se proporciona el nivel de clúster VpcConfig. Si no se especifica VpcConfig para el nivel de clúster, OverrideVpcConfig no se puede usar para ningún grupo de instancias.

    • Contiene dos campos obligatorios:

      • Subnets: acepta entre 1 y 16 identificadores de subred

      • SecurityGroupIds: acepta entre 1 y 5 identificadores de grupos de seguridad

    Para obtener más información sobre cómo crear o actualizar un clúster de SageMaker HyperPod desde la interfaz de usuario de la consola de SageMaker HyperPod o la AWS CLI, consulte lo siguiente:

nota

Al ejecutar cargas de trabajo en varias zonas de disponibilidad, tenga en cuenta que la comunicación de red entre las zonas de disponibilidad genera una latencia adicional. Tenga en cuenta este efecto al diseñar aplicaciones a las que les afecta la latencia.

Configuración de AWS Systems Manager y Ejecutar como para el control de acceso de los usuarios del clúster

DLAMI de SageMaker HyperPod viene con AWS Systems Manager (SSM) listo para usar para ayudarle a administrar el acceso a los grupos de instancias del clúster de SageMaker HyperPod. En esta sección, se describe cómo crear usuarios del sistema operativo (SO) en los clústeres de SageMaker HyperPod y asociarlos a los usuarios y roles de IAM. Esto resulta útil para autenticar las sesiones de SSM con las credenciales de la cuenta de usuario del sistema operativo.

nota

Al conceder a los usuarios acceso a los nodos del clúster de HyperPod, pueden instalar y utilizar software administrado por los usuarios en los nodos. Asegúrese de cumplir con el principio de conceder privilegios mínimos a los usuarios.

Habilitación de Ejecutar como en su cuenta de AWS

Como administrador de cuentas de AWS o administrador de la nube, puede administrar el acceso a los clústeres de SageMaker HyperPod en un nivel de rol o usuario IAM mediante la característica Ejecutar como de SSM. Con esta característica, puede iniciar cada sesión de SSM con el usuario del sistema operativo asociado al usuario o rol de IAM.

Para habilitar Ejecutar como en su cuenta de AWS, siga los pasos que se indican en Activación del soporte Ejecutar como para nodos administrados de Linux y macOS. Si ya ha creado usuarios de sistema operativo en su clúster, asegúrese de asociarlos a roles o usuarios de IAM etiquetándolos como se indica en la Opción 2 del paso 5 de la sección Activación del soporte Ejecutar como para nodos administrados de Linux y macOS.

(Opcional) Configuración de SageMaker HyperPod con Amazon FSx para Lustre

Para empezar a utilizar SageMaker HyperPod y asignar rutas de datos entre el clúster y el sistema de archivos FSx para Lustre, seleccione una de las Regiones de AWS compatibles con SageMaker HyperPod. Tras elegir la Región de AWS que prefiera, debe determinar también qué zona de disponibilidad (AZ) va a utilizar.

Si utiliza nodos de computación de SageMaker HyperPod en unas zonas de disponibilidad diferentes de las zonas de disponibilidad en las que está configurado el sistema de archivos FSx para Lustre dentro de la misma Región de AWS, es posible que se produzca una sobrecarga de red y comunicación. Le recomendamos que utilice la misma zona de disponibilidad física que la de la cuenta de servicio de SageMaker HyperPod para evitar que se produzca cualquier tráfico entre zonas de disponibilidad entre los clústeres de SageMaker HyperPod y su sistema de archivos FSx para Lustre. Asegúrese de haberla configurado también con su VPC. Si desea utilizar Amazon FSx como sistema de archivos principal para el almacenamiento, debe configurar los clústeres de SageMaker HyperPod con su VPC.