Referencias de SageMaker HyperPod - Amazon SageMaker AI

Referencias de SageMaker HyperPod

Encontrará más información y referencias sobre el uso de SageMaker HyperPod en los siguientes temas.

Precios de SageMaker HyperPod

En los siguientes temas, se proporciona información acerca de los precios de SageMaker HyperPod. Para obtener más información sobre el precio por hora del uso de las instancias SageMaker HyperPod, consulte también Precios de Amazon SageMaker.

Solicitudes de capacidad

Puede asignar capacidad de computación bajo demanda o reservada con SageMaker AI para usarla en SageMaker HyperPod. La creación de clústeres bajo demanda asigna la capacidad disponible del grupo de capacidad bajo demanda de SageMaker AI. Como alternativa, puede solicitar una capacidad reservada para garantizar el acceso enviando un ticket para aumentar la cuota. SageMaker AI prioriza las solicitudes de capacidad entrantes y usted recibe un tiempo estimado para la asignación de capacidad.

Facturación del servicio

Cuando aprovisiona una capacidad de computación en SageMaker HyperPod, se le factura por la duración de la asignación de capacidad. La facturación de SageMaker HyperPod aparece en sus facturas de aniversario con una partida para el tipo de asignación de capacidad (bajo demanda, reservada), el tipo de instancia y el tiempo invertido en su uso.

Para enviar una solicitud de aumento de cuota, consulte Cuotas de SageMaker HyperPod.

API de SageMaker HyperPod

En la siguiente lista, se incluye un conjunto completo de API de SageMaker HyperPod para enviar solicitudes de acción en formato JSON a SageMaker AI a través de AWS CLI o AWS SDK para Python (Boto3).

Formularios de SageMaker HyperPod

Para configurar la herramienta de administrador de cargas de trabajo de Slurm en HyperPod, debe crear un archivo de configuración de Slurm que necesita HyperPod. Para ello, puede utilizar el formulario proporcionado.

Formulario de configuración para el aprovisionamiento de nodos de Slurm en HyperPod

El siguiente código es el formulario de configuración de Slurm que debe preparar para configurar correctamente los nodos de Slurm en su clúster de HyperPod. Debe completar este formulario y cargarlo como parte de un conjunto de scripts de ciclo de vida durante la creación del clúster. Para saber cómo se debe preparar este formulario durante los procesos de creación de clústeres de HyperPod, consulte Personalización de los clústeres de SageMaker HyperPod con scripts de ciclo de vida.

// Save as provisioning_parameters.json. { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "string", "login_group": "string", "worker_groups": [ { "instance_group_name": "string", "partition_name": "string" } ], "fsx_dns_name": "string", "fsx_mountname": "string" }
  • version: obligatorio. Esta es la versión del formulario de parámetros de aprovisionamiento de HyperPod. Déjela como 1.0.0.

  • workload_manager: obligatorio. Esto sirve para especificar qué administrador de carga de trabajo se debe configurar en el clúster de HyperPod. Déjelo como slurm.

  • controller_group: obligatorio. Esto sirve para especificar el nombre del grupo de instancias del clúster de HyperPod que desea asignar al nodo de controlador (principal) de Slurm.

  • login_group: opcional. Esto sirve para especificar el nombre del grupo de instancias del clúster de HyperPod que desea asignar al nodo de inicio de sesión de Slurm.

  • worker_groups: obligatorio. Esto sirve para configurar los nodos de trabajo (de computación) de Slurm en el clúster de HyperPod.

    • instance_group_name: obligatorio. Esto sirve para especificar el nombre del grupo de instancias del clúster de HyperPod que desea asignar al nodo de trabajo (de computación) de Slurm.

    • partition_name: obligatorio. Esto sirve para especificar el nombre de la partición para el nodo.

  • fsx_dns_name: opcional. Si desea configurar los nodos de Slurm del clúster de HyperPod para que se comuniquen con Amazon FSx, especifique el nombre de DNS de FSx.

  • fsx_mountname: opcional. Si desea configurar los nodos de Slurm del clúster de HyperPod para que se comuniquen con Amazon FSx, especifique el nombre de montaje de FSx.

DLAMI de SageMaker HyperPod

SageMaker HyperPod ejecuta una DLAMI basada en:

La DLAMI de SageMaker HyperPod incluye paquetes adicionales que admiten herramientas de código abierto, como Slurm, Kubernetes, dependencias y paquetes de software de clústeres de SageMaker HyperPod, para admitir características de resiliencia, como la comprobación de estado del clúster y la reanudación automática. Para hacer un seguimiento de las actualizaciones del software de HyperPod que el equipo de servicio de HyperPod distribuye a través de las DLAMI, consulte Notas de la versión de Amazon SageMaker HyperPod.

Referencia sobre los permisos de la API de SageMaker HyperPod

importante

Las políticas de IAM personalizadas que permiten a Amazon SageMaker Studio o Amazon SageMaker Studio Classic crear recursos de Amazon SageMaker también deben conceder permisos para añadir etiquetas a dichos recursos. El permiso para añadir etiquetas a los recursos es necesario porque Studio y Studio Classic etiquetan automáticamente todos los recursos que crean. Si una política de IAM permite a Studio y Studio Classic crear recursos, pero no permite el etiquetado, se pueden producir errores AccessDenied al intentar crear recursos. Para obtener más información, consulte Concesión de permisos para etiquetar recursos de SageMaker AI.

Las Políticas administradas por AWS para Amazon SageMaker AI que conceden permisos para crear recursos de SageMaker ya incluyen permisos para añadir etiquetas al crear esos recursos.

Cuando configure el control de acceso para permitir ejecutar operaciones de API de SageMaker HyperPod y escriba una política de permisos que puede asociar a los usuarios de IAM para los administradores de nube, utilice la tabla siguiente como referencia.

Operaciones de la API de Amazon SageMaker Permisos necesarios (acciones de la API) Recursos
CreateCluster sagemaker:CreateCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DeleteCluster sagemaker:DeleteCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DescribeCluster sagemaker:DescribeCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DescribeClusterNode sagemaker:DescribeClusterNode arn:aws:sagemaker:region:account-id:cluster/cluster-id
ListClusterNodes sagemaker:ListClusterNodes arn:aws:sagemaker:region:account-id:cluster/cluster-id
ListClusters sagemaker:ListClusters arn:aws:sagemaker:region:account-id:cluster/cluster-id
UpdateCluster sagemaker:UpdateCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
UpdateClusterSoftware sagemaker:UpdateClusterSoftware arn:aws:sagemaker:region:account-id:cluster/cluster-id

Para obtener una lista completa de los permisos y los tipos de recursos de las API de SageMaker, consulte Actions, resources, and condition keys for Amazon SageMaker AI en Referencias de autorizaciones de servicio de AWS.

Comandos de SageMaker HyperPod en AWS CLI

Los siguientes son los comandos de la AWS CLI para que SageMaker HyperPod ejecute las operaciones principales de la API de HyperPod.

Módulos de Python de SageMaker HyperPod en AWS SDK para Python (Boto3)

Estos son los métodos del cliente AWS SDK para Python (Boto3) para que SageMaker AI ejecute las operaciones principales de la API de HyperPod.