Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Requisitos previos para su uso SageMaker HyperPod
En las siguientes secciones se explican los requisitos previos antes de empezar. SageMaker HyperPod
Temas
Configuración SageMaker HyperPod con una Amazon VPC personalizada
Configuración SageMaker HyperPod de clústeres en varias zonas de disponibilidad
Configuración AWS Systems Manager y Ejecute As para el control de acceso de los usuarios del clúster
(opcional) Configuración SageMaker HyperPod con Amazon FSx para Lustre
SageMaker HyperPod cuotas
Puedes crear SageMaker HyperPod clústeres según las cuotas de uso de clústeres de tu AWS cuenta.
importante
Para obtener más información sobre SageMaker HyperPod los precios, consulta SageMaker HyperPod precios Amazon SageMaker Pricing
Consulta SageMaker HyperPod las cuotas de Amazon utilizando el Consola de administración de AWS
Busca los valores predeterminados y aplicados de una cuota, también denominada límite, para el uso del clúster, que se utiliza para SageMaker HyperPod.
-
Abra la consola de Service Quotas
. -
En el panel de navegación de la izquierda, elija Servicios de AWS .
-
En la lista de AWS servicios, busca y selecciona Amazon SageMaker AI.
-
En la lista de cuotas de servicio, puede ver el nombre de la cuota de servicio, el valor aplicado (si está disponible), la cuota AWS predeterminada y si el valor de la cuota es ajustable.
-
En la barra de búsqueda, escriba uso del clúster. Se mostrarán las cuotas de uso del clúster, las cuotas aplicadas y las cuotas predeterminadas.
Lista de cuotas de servicio comunes para crear un HyperPod clúster y sus requisitos previos
Es posible que desee comprobar si ha solicitado aumentar el límite de las cuotas de servicio para las siguientes cuotas para crear un nuevo HyperPod clúster junto con los requisitos previos en la consola de IA. SageMaker Ve a la consola de Service Quota y busca los siguientes términos.
| No | Nombre de la cuota | Término de búsqueda | Description (Descripción) |
|---|---|---|---|
| 1 | Número máximo de instancias permitido por SageMaker HyperPod clúster | En SageMaker AI, busque «Número máximo de instancias permitido por SageMaker HyperPod clúster» | El valor de tu cuota a nivel de cuenta debe ser superior al número de instancias que deseas añadir a tu clúster |
| 2 | Tamaño máximo del volumen de EBS en GB para una instancia de clúster SageMaker HyperPod |
En SageMaker AI, busque «Tamaño máximo del volumen de EBS en GB para una instancia de HyperPod clúster» |
El valor de su cuota a nivel de cuenta debe ser superior al volumen de EBS que desea añadir a su clúster |
| 3 | Número total de instancias permitidas en los clústeres SageMaker HyperPod |
En SageMaker AI, busque «Número total de instancias permitidas en SageMaker HyperPod los clústeres» |
El valor de tu cuota a nivel de cuenta debe ser superior al total de instancias que deseas añadir a todos los clústeres de tu cuenta en conjunto |
| 4 |
Cuotas de instancias |
En SageMaker AI, busque «ml». «<instance_type>para uso en clústeres», por ejemplo: ml.p5.48xlarge para uso en clústeres. |
El valor de la cuota a nivel de cuenta para un tipo de instancia concreto (por ejemplo, ml.p5.48xlarge) debe ser superior al número de instancias que se van a añadir a todos los clústeres de la cuenta en conjunto. |
| 5 |
VPC por región |
En Amazon Virtual Private Cloud (Amazon VPC), busque «VPC por región» | El valor de la cuota a nivel de cuenta debe ser suficiente para crear una nueva VPC en la cuenta al configurar el clúster. HyperPod Comprueba si ya has agotado este límite de cuota consultando la consola de VPC. Este aumento de cuota solo es necesario si va a crear una nueva VPC mediante la opción de configuración de clústeres rápida o personalizada de la SageMaker HyperPod consola. |
| 6 |
Puertas de enlace de Internet por región |
En Amazon Virtual Private Cloud (Amazon VPC), busque «Puertas de enlace de Internet por región» |
El valor de la cuota a nivel de cuenta debe ser suficiente para crear una puerta de enlace de Internet adicional en la cuenta al configurar el clúster. SageMaker HyperPod Este aumento de cuota solo es necesario si va a crear una nueva VPC mediante la opción de configuración de clústeres rápida o personalizada de la SageMaker HyperPod consola. |
| 7 | Interfaces de red por región | En Amazon Virtual Private Cloud (Amazon VPC), busque «Interfaces de red por región» |
El valor de la cuota a nivel de cuenta debe tener suficientes interfaces de red en la cuenta al configurar el clúster. HyperPod |
| 8 | EC2-VPC IP elásticas | En Amazon Elastic Compute Cloud (Amazon EC2), busque EC2-VPC «IP elásticas» | El valor de la cuota a nivel de cuenta debe ser suficiente para crear una nueva VPC en la cuenta al configurar el clúster. HyperPod Comprueba si ya has agotado este límite de cuota consultando la consola de VPC. Este aumento de cuota solo es necesario si va a crear una nueva VPC mediante la opción de configuración de clústeres rápida o personalizada de la SageMaker HyperPod consola. |
Solicita un aumento de SageMaker HyperPod cuota de Amazon mediante el Consola de administración de AWS
Aumente sus cuotas por cuenta o recurso.
-
Para aumentar la cuota de instancias para el uso del clúster, seleccione la cuota que desea aumentar.
-
Si la cuota es ajustable, puede solicitar un aumento de la cuota por cuenta o recurso en función del valor que aparezca en la columna de Capacidad de ajuste.
-
En Aumentar el valor de la cuota, introduzca el nuevo valor. El nuevo valor debe ser mayor que el valor actual.
-
Seleccione Solicitar.
-
Para ver las solicitudes pendientes o resueltas recientemente en la consola, acceda a la pestaña Historial de solicitudes de la página de detalles del servicio o elija Panel en el panel de navegación. Para las solicitudes pendientes, seleccione el estado de la solicitud para abrir la recepción de solicitud. El estado inicial de una solicitud es Pendiente. Cuando el estado cambie a Cuota solicitada, verás el número de caso con AWS Support. Elija el número de caso para abrir el ticket para su solicitud.
Para obtener más información sobre cómo solicitar un aumento de cuota en general, consulte Requesting a Quota Increase en la Guía de usuario de Service Quotas de AWS .
Configuración SageMaker HyperPod con una Amazon VPC personalizada
Para configurar un SageMaker HyperPod clúster con una Amazon VPC personalizada, revise los siguientes requisitos previos.
nota
La configuración de la VPC es obligatoria para la orquestación de Amazon EKS. Para la orquestación de Slurm, la configuración de la VPC es opcional.
-
Valide la capacidad de la Elastic Network Interface (ENI) Cuenta de AWS antes de crear un SageMaker HyperPod clúster con una VPC personalizada. Amazon EC2 controla el límite de ENI y varía según. Región de AWS SageMaker HyperPod no puede solicitar automáticamente aumentos de cuota.
Para verificar su cuota de ENI actual:
-
Abra la consola de Service Quotas
. -
En la sección Administrar cuotas, usa la lista desplegable AWS Servicios para buscar VPC.
-
Elija consultar las cuotas de Amazon Virtual Private Cloud (Amazon VPC).
-
Busque la cuota de servicio, las interfaces de red por región o el código de cuota
L-DF5E4CA3.
Si su límite de ENI actual no es suficiente para las necesidades de su SageMaker HyperPod clúster, solicite un aumento de cuota. Garantizar de antemano una capacidad de ENI adecuada ayuda a evitar errores en la implementación del clúster.
-
-
Cuando utilices una VPC personalizada para conectar un SageMaker HyperPod clúster con AWS recursos, proporciona el nombre, el ID, los ID de subred y los ID del grupo de seguridad de la VPC durante la creación del clúster. Región de AWS
nota
Cuando su Amazon VPC y las subredes admiten IPv6 en el
VPCConfigdel clúster o en el grupo de instancias con el atributoOverrideVPCConfigdeClusterInstanceGroupSpecification, las comunicaciones de red difieren en función de la plataforma de orquestación del clúster:-
Slurm-orchestrated Los clústeres configuran automáticamente los nodos con direcciones IPv6 e IPv4 duales, lo que permite una comunicación de red IPv6 inmediata. No se necesita configuración adicional aparte de la configuración de
VPCConfigIPv6. -
En EKS-orchestrated los clústeres, los nodos reciben direcciones de doble pila, pero los pods solo pueden usar IPv6 cuando el clúster de Amazon EKS lo hace de forma explícita. IPv6-enabled Debe crear un nuevo clúster IPv6 de Amazon EKS; los clústeres IPv4 de Amazon EKS existentes no se pueden convertir a IPv6. Para obtener más información sobre la implementación de un clúster IPv6 de Amazon EKS, consulte Implementación de un clúster IPv6 de Amazon EKS.
Recursos adicionales para la configuración de IPv6:
-
Para obtener más información sobre cómo añadir compatibilidad con IPv6 para su VPC, consulte Compatibilidad con IPv6 para su VPC.
-
Para obtener información sobre la creación de una nueva IPv6-compatible VPC, consulte la Guía de Amazon VPC creación.
-
Para configurar SageMaker HyperPod con una Amazon VPC personalizada, consulte Configuración de Amazon VPC personalizada para. SageMaker HyperPod
-
-
Asegúrese de que todos los recursos estén desplegados en el mismo lugar que Región de AWS el SageMaker HyperPod clúster. Configure las reglas del grupo de seguridad para permitir la comunicación entre recursos dentro de la VPC. Por ejemplo, al crear una VPC en
us-west-2, aprovisione subredes en una o más zonas de disponibilidad (comous-west-2aous-west-2b) y cree un grupo de seguridad que permita el tráfico dentro del grupo.nota
SageMaker HyperPod admite el despliegue en zonas de disponibilidad múltiple. Para obtener más información, consulte Configuración SageMaker HyperPod de clústeres en varias zonas de disponibilidad.
-
Establezca la conectividad Amazon Simple Storage Service (Amazon S3) para los grupos de VPC-deployed SageMaker HyperPod instancias mediante la creación de un punto de enlace de VPC. Sin acceso a Internet, los grupos de instancias no pueden almacenar ni obtener scripts de ciclo de vida, datos de entrenamiento ni artefactos de modelos. Le recomendamos que cree una política de IAM personalizada que restrinja el acceso al bucket de Amazon S3 a la VPC privada. Para obtener más información, consulte Endpoints for Amazon S3 en la Guía del usuario de Amazon VPC de AWS PrivateLink .
-
En el caso de HyperPod los clústeres que utilizan instancias habilitadas para Elastic Fabric Adapter (EFA), configure el grupo de seguridad para permitir que todo el tráfico entrante y saliente entre y hacia el propio grupo de seguridad. En concreto, evite utilizar
0.0.0.0/0para reglas de salida, ya que esto podría provocar errores en las comprobaciones de estado de EFA. Para obtener más información sobre las pautas de preparación de grupos de seguridad de EFA, consulte Paso 1: Preparar un grupo de EFA-enabled seguridad en la Guía del usuario de Amazon EC2. -
Tenga en cuenta detenidamente el tamaño del bloque de Inter-Domain enrutamiento sin clase (CIDR) de su subred antes de crear clústeres. HyperPod
-
El tamaño del bloque de CIDR de la subred ya no se puede cambiar una vez creado. Esto es especialmente importante cuando se utilizan instancias aceleradas de gran tamaño, como las P5. Si el tamaño del bloque es insuficiente, debe volver a crear los clústeres al escalarlos verticalmente.
-
Al elegir el tamaño del bloque de CIDR de la subred adecuado, tenga en cuenta estos factores: los tipos de instancia, el número de instancias esperado y el número de direcciones IP que consume cada instancia.
-
Para Slurm-orchestrated los clústeres, cada instancia P5 puede crear 32 direcciones IP (una por tarjeta de red). Para EKS-orchestrated los clústeres, cada instancia P5 puede crear 81 direcciones IP (50 de la tarjeta principal y una de cada una de las 31 tarjetas restantes). Para obtener más información detallada, consulte Especificaciones de la red en la Guía para desarrolladores de los tipos de instancia de Amazon EC2.
-
Para ver ejemplos de CloudFormation plantillas que especifican el tamaño del bloque CIDR de la subred, consulte la plantilla HyperPod Slurm y la plantilla HyperPod
Amazon EKS en el repositorio awsome-distributed-training .
-
Configuración SageMaker HyperPod de clústeres en varias zonas de disponibilidad
Puede configurar SageMaker HyperPod los clústeres en varias zonas de disponibilidad (AZ) para mejorar la fiabilidad y la disponibilidad.
nota
El tráfico de Elastic Fabric Adapter (EFA) no puede cruzar las AZ ni las VPC. Esto no se aplica al tráfico de IP normal desde el dispositivo de ENA de una interfaz EFA. Para obtener más información, consulte Limitaciones de EFA.
-
Comportamiento predeterminado
HyperPod implementa todas las instancias del clúster en una única zona de disponibilidad. La configuración de la VPC determina la AZ de implementación:
-
En el caso de Slurm-orchestrated los clústeres, la configuración de VPC es opcional. Cuando no se proporciona ninguna configuración de VPC, el HyperPod valor predeterminado es una subred de la VPC de la plataforma.
-
Para EKS-orchestrated los clústeres, se requiere la configuración de VPC.
-
Para los orquestadores Slurm y EKS, cuando
VpcConfigse proporciona, HyperPod selecciona una subred de la lista de subredes proporcionada.VpcConfigTodos los grupos de instancias heredan la AZ de la subred.
nota
Después de crear un clúster, no podrás modificar la configuración de su
VpcConfig.Para obtener más información sobre la configuración de las VPC para los HyperPod clústeres, consulte la sección anterior,. Configuración SageMaker HyperPod con una Amazon VPC personalizada
-
-
Multi-AZ configuración
Puedes configurar el HyperPod clúster en varias zonas de disponibilidad al crear un clúster o al añadir un nuevo grupo de instancias a un clúster existente. Para configurar las implementaciones multi-AZ, puede anular la configuración de la VPC predeterminada del clúster especificando diferentes subredes y grupos de seguridad, si es posible en diferentes zonas de disponibilidad, para los grupos de instancias individuales de su clúster.
SageMaker HyperPod Los usuarios de la API pueden usar la
OverrideVpcConfigpropiedad incluida en laCreateClustero ClusterInstanceGroupSpecificationcuando trabajen con lasUpdateClusterAPI.El campo
OverrideVpcConfig:-
No se puede modificar una vez creado el grupo de instancias.
-
Es opcional. Si no se especifica, se utiliza el nivel de clúster
VpcConfigde forma predeterminada. -
En el Slurm-orchestrated caso de los clústeres, solo se puede especificar cuando
VpcConfigse proporciona el nivel de clúster. Si no se especificaVpcConfigpara el nivel de clúster,OverrideVpcConfigno se puede usar para ningún grupo de instancias. -
Contiene dos campos obligatorios:
-
Subnets: acepta entre 1 y 16 identificadores de subred -
SecurityGroupIds: acepta entre 1 y 5 identificadores de grupos de seguridad
-
Para obtener más información sobre cómo crear o actualizar un SageMaker HyperPod clúster mediante la interfaz de usuario de la SageMaker HyperPod consola o AWS CLI:
-
nota
Al ejecutar cargas de trabajo en varias zonas de disponibilidad, tenga en cuenta que la comunicación de red entre las zonas de disponibilidad genera una latencia adicional. Tenga en cuenta este efecto al diseñar aplicaciones a las que les afecta la latencia.
Configuración AWS Systems Manager y Ejecute As para el control de acceso de los usuarios del clúster
SageMaker HyperPod DLAMIviene listo para usar AWS Systems Manager
nota
Al conceder a los usuarios el acceso a los nodos del HyperPod clúster, pueden instalar y utilizar software gestionado por los usuarios en los nodos. Asegúrese de cumplir con el principio de conceder privilegios mínimos a los usuarios.
Habilitar Ejecutar como en su AWS inscrita
Como administrador de AWS cuentas o administrador de la nube, puede administrar el acceso a SageMaker HyperPod los clústeres a nivel de usuario o rol de IAM mediante la función Ejecutar como de SSM. Con esta característica, puede iniciar cada sesión de SSM con el usuario del sistema operativo asociado al usuario o rol de IAM.
Para activar la función Ejecutar como en tu AWS cuenta, sigue los pasos que se indican en Activar la compatibilidad con Ejecutar como para los nodos gestionados de Linux y macOS. Si ya ha creado usuarios de sistema operativo en su clúster, asegúrese de asociarlos a roles o usuarios de IAM etiquetándolos como se indica en la Opción 2 del paso 5 de la sección Activación del soporte Ejecutar como para nodos administrados de Linux y macOS.
(opcional) Configuración SageMaker HyperPod con Amazon FSx para Lustre
Para empezar a usar SageMaker HyperPod y mapear las rutas de datos entre el clúster y su sistema de archivos FSx for Lustre, seleccione una Regiones de AWS de las opciones compatibles con. SageMaker HyperPod Tras elegir la Región de AWS que prefiera, también debe determinar qué zona de disponibilidad (AZ) utilizar.
Si utiliza nodos de SageMaker HyperPod cómputo en zonas de disponibilidad diferentes a las zonas de disponibilidad en las que el sistema de archivos FSx for Lustre está configurado dentro de Región de AWS la misma, es posible que se produzca una sobrecarga de comunicación y de red. Le recomendamos que utilice la misma zona de disponibilidad física que la de la cuenta de SageMaker HyperPod servicio para evitar cualquier tráfico entre zonas de disponibilidad entre SageMaker HyperPod los clústeres y su sistema de archivos FSx for Lustre. Asegúrese de haberla configurado también con su VPC. Si desea utilizar Amazon FSx como sistema de archivos principal para el almacenamiento, debe configurar los SageMaker HyperPod clústeres con su VPC.