Actualización de la configuración del clúster de SageMaker HyperPod
Ejecute update-cluster para actualizar la configuración de un clúster.
nota
Consideraciones importantes:
-
No puede cambiar la información del clúster de EKS a la que está asociado el clúster de HyperPod una vez creado el clúster.
-
Si se están realizando comprobaciones de estado exhaustivas en el clúster, esta API no funcionará según lo previsto. Es posible que aparezca un mensaje de error que indique que se están realizando comprobaciones de estado exhaustivas. Para actualizar el clúster, debe esperar a que finalicen las comprobaciones de estado exhaustivas.
-
Cree un archivo de solicitud de la API
UpdateClusteren formato JSON. Asegúrese de especificar el nombre del clúster y el nombre del grupo de instancias correctos para actualizarlos. Puede cambiar el tipo de instancia, el número de instancias, el script de punto de entrada de la configuración del ciclo de vida y la ruta al script para cada grupo de instancias.nota
Puede usar
UpdateClusterpara reducir verticalmente o eliminar grupos de instancias enteros de su clúster de SageMaker HyperPod. Para obtener instrucciones adicionales sobre cómo reducir verticalmente o eliminar grupos de instancias, consulte Reducción vertical de un clúster de SageMaker HyperPod.-
En
ClusterName, especifique el nombre del clúster que desea actualizar. -
En
InstanceGroupName-
Para actualizar un grupo de instancias existente, especifique el nombre del grupo de instancias que desea actualizar.
-
Para añadir un nuevo grupo de instancias, especifique un nombre nuevo que no exista en el clúster.
-
-
En
InstanceType-
Para actualizar un grupo de instancias existente, debe hacer coincidir el tipo de instancia que ha especificado inicialmente con el grupo.
-
Para añadir un nuevo grupo de instancias, especifique el tipo de instancia con el que desea configurar el grupo.
-
-
En
InstanceCount-
Para actualizar un grupo de instancias existente, especifique un número entero que corresponda al número de instancias deseado. Puede indicar un valor mayor o menor (hasta 0) para escalar el grupo de instancias hacia arriba o hacia abajo.
-
Para añadir un nuevo grupo de instancias, especifique un número entero mayor o igual a 1.
-
-
En
LifeCycleConfig, puede cambiar los valores tanto deSourceS3Uricomo deOnCreatecomo desee para actualizar el grupo de instancias. -
En
ExecutionRole-
Para actualizar un grupo de instancias existente, siga usando el mismo rol de IAM que ha asociado durante la creación del clúster.
-
Para añadir un nuevo grupo de instancias, especifique el rol de IAM que desee asociar.
-
-
En
ThreadsPerCore-
Para actualizar un grupo de instancias existente, siga usando el mismo valor que ha especificado durante la creación del clúster.
-
Para añadir un nuevo grupo de instancias, puede elegir cualquier valor de las opciones permitidas por tipo de instancia. Para obtener más información, busque el tipo de instancia y consulte la columna Subprocesos válidos por núcleo de la tabla de referencia de Núcleos de CPU y subprocesos por núcleo de CPU por tipo de instancia en la Guía del usuario de Amazon EC2.
-
-
En
OnStartDeepHealthChecks, añadaInstanceStressyInstanceConnectivitypara habilitar Comprobaciones de estado exhaustivas. -
En
NodeRecovery, especifiqueAutomaticpara habilitar la recuperación automática de nodos. SageMaker HyperPod reemplaza o reinicia las instancias (nodos) cuando el agente de supervisión del estado detecte problemas.
El siguiente fragmento de código es una plantilla de archivo de solicitud JSON que puede utilizar. Para obtener más información sobre la sintaxis y los parámetros de solicitud de esta API, consulte la referencia de la API UpdateCluster.
// update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName":"string", "InstanceType":"string", "InstanceCount":number, "LifeCycleConfig": { "SourceS3Uri":"string", "OnCreate":"string"}, "ExecutionRole":"string", "ThreadsPerCore":number, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] }], "NodeRecovery": "Automatic" } -
-
Ejecute el siguiente comando
update-clusterpara enviar la solicitud.aws sagemaker update-cluster \ --cli-input-jsonfile://complete/path/to/update_cluster.json