Actualización de la configuración del clúster de SageMaker HyperPod - Amazon SageMaker AI

Actualización de la configuración del clúster de SageMaker HyperPod

Ejecute update-cluster para actualizar la configuración de un clúster.

nota

Consideraciones importantes:

  • No puede cambiar la información del clúster de EKS a la que está asociado el clúster de HyperPod una vez creado el clúster.

  • Si se están realizando comprobaciones de estado exhaustivas en el clúster, esta API no funcionará según lo previsto. Es posible que aparezca un mensaje de error que indique que se están realizando comprobaciones de estado exhaustivas. Para actualizar el clúster, debe esperar a que finalicen las comprobaciones de estado exhaustivas.

  1. Cree un archivo de solicitud de la API UpdateCluster en formato JSON. Asegúrese de especificar el nombre del clúster y el nombre del grupo de instancias correctos para actualizarlos. Puede cambiar el tipo de instancia, el número de instancias, el script de punto de entrada de la configuración del ciclo de vida y la ruta al script para cada grupo de instancias.

    nota

    Puede usar UpdateCluster para reducir verticalmente o eliminar grupos de instancias enteros de su clúster de SageMaker HyperPod. Para obtener instrucciones adicionales sobre cómo reducir verticalmente o eliminar grupos de instancias, consulte Reducción vertical de un clúster de SageMaker HyperPod.

    1. En ClusterName, especifique el nombre del clúster que desea actualizar.

    2. En InstanceGroupName

      1. Para actualizar un grupo de instancias existente, especifique el nombre del grupo de instancias que desea actualizar.

      2. Para añadir un nuevo grupo de instancias, especifique un nombre nuevo que no exista en el clúster.

    3. En InstanceType

      1. Para actualizar un grupo de instancias existente, debe hacer coincidir el tipo de instancia que ha especificado inicialmente con el grupo.

      2. Para añadir un nuevo grupo de instancias, especifique el tipo de instancia con el que desea configurar el grupo.

    4. En InstanceCount

      1. Para actualizar un grupo de instancias existente, especifique un número entero que corresponda al número de instancias deseado. Puede indicar un valor mayor o menor (hasta 0) para escalar el grupo de instancias hacia arriba o hacia abajo.

      2. Para añadir un nuevo grupo de instancias, especifique un número entero mayor o igual a 1.

    5. En LifeCycleConfig, puede cambiar los valores tanto de SourceS3Uri como de OnCreate como desee para actualizar el grupo de instancias.

    6. En ExecutionRole

      1. Para actualizar un grupo de instancias existente, siga usando el mismo rol de IAM que ha asociado durante la creación del clúster.

      2. Para añadir un nuevo grupo de instancias, especifique el rol de IAM que desee asociar.

    7. En ThreadsPerCore

      1. Para actualizar un grupo de instancias existente, siga usando el mismo valor que ha especificado durante la creación del clúster.

      2. Para añadir un nuevo grupo de instancias, puede elegir cualquier valor de las opciones permitidas por tipo de instancia. Para obtener más información, busque el tipo de instancia y consulte la columna Subprocesos válidos por núcleo de la tabla de referencia de Núcleos de CPU y subprocesos por núcleo de CPU por tipo de instancia en la Guía del usuario de Amazon EC2.

    8. En OnStartDeepHealthChecks, añada InstanceStress y InstanceConnectivity para habilitar Comprobaciones de estado exhaustivas.

    9. En NodeRecovery, especifique Automatic para habilitar la recuperación automática de nodos. SageMaker HyperPod reemplaza o reinicia las instancias (nodos) cuando el agente de supervisión del estado detecte problemas.

    El siguiente fragmento de código es una plantilla de archivo de solicitud JSON que puede utilizar. Para obtener más información sobre la sintaxis y los parámetros de solicitud de esta API, consulte la referencia de la API UpdateCluster.

    // update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "string", "OnCreate": "string" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "NodeRecovery": "Automatic" }
  2. Ejecute el siguiente comando update-cluster para enviar la solicitud.

    aws sagemaker update-cluster \ --cli-input-json file://complete/path/to/update_cluster.json