Aktualisierung der SageMaker HyperPod-Cluster-Konfiguration
Führen Sie update-cluster aus, um die Konfiguration eines Clusters zu aktualisieren.
Anmerkung
Wichtige Überlegungen:
-
Sie können die EKS-Clusterinformationen, denen Ihr HyperPod-Cluster zugeordnet ist, nach der Erstellung des Clusters nicht ändern.
-
Wenn auf dem Cluster tiefgreifende Integritätsprüfungen ausgeführt werden, funktioniert diese API nicht wie erwartet. Möglicherweise wird eine Fehlermeldung angezeigt, die besagt, dass umfassende Integritätsprüfungen durchgeführt werden. Um den Cluster zu aktualisieren, sollten Sie warten, bis die umfassenden Integritätsprüfungen abgeschlossen sind.
-
Erstellen Sie eine
UpdateCluster-Anforderungsdatei im JSON-Format. Stellen Sie sicher, dass Sie den richtigen Clusternamen und Instance-Gruppennamen für die Aktualisierung angeben. Für jede Instance-Gruppe können Sie den Instance-Typ, die Anzahl der Instances, das Einstiegsskript für die Lebenszykluskonfiguration und den Pfad zum Skript ändern.Anmerkung
Sie können den verwenden
UpdateCluster, um ganze Instance-Gruppen zu verkleinern oder ganze Instance-Gruppen aus Ihrem SageMaker HyperPod-Cluster zu entfernen. Weitere Anweisungen zum Herunterskalieren oder Löschen von Instance-Gruppen finden Sie unter Einen SageMaker HyperPod-Cluster herunterskalieren.-
Geben Sie für
ClusterNameden Namen des Clusters an, den Sie aktualisieren möchten. -
Für
InstanceGroupName-
Um eine bestehende Instance-Gruppe zu aktualisieren, geben Sie den Namen der Instance-Gruppe an, die Sie aktualisieren möchten.
-
Um eine neue Instance-Gruppe hinzuzufügen, geben Sie einen neuen Namen an, der in Ihrem Cluster nicht vorhanden ist.
-
-
Für
InstanceType-
Um eine bestehende Instance-Gruppe zu aktualisieren, müssen Sie den Instance-Typ, den Sie ursprünglich angegeben haben, der Gruppe zuordnen.
-
Um eine neue Instance-Gruppe hinzuzufügen, geben Sie einen Instance-Typ an, mit dem Sie die Gruppe konfigurieren möchten.
-
-
Für
InstanceCount-
Um eine bestehende Instance-Gruppe zu aktualisieren, geben Sie eine Ganzzahl an, die der gewünschten Anzahl von Instances entspricht. Sie können einen höheren oder niedrigeren Wert (bis 0) angeben, um die Instance-Gruppe herauf- oder herunterskalieren.
-
Um eine neue Instance-Gruppe hinzuzufügen, geben Sie eine Ganzzahl größer oder gleich 1 an.
-
-
Denn
LifeCycleConfigSie können die Werte für beide ändernSourceS3UriundOnCreatewenn Sie die Instance-Gruppe aktualisieren möchten. -
Für
ExecutionRole-
Verwenden Sie zum Aktualisieren einer vorhandenen Instance-Gruppe weiterhin dieselbe IAM-Rolle, die Sie bei der Clustererstellung zugewiesen haben.
-
Um eine neue Instance-Gruppe hinzuzufügen, geben Sie eine IAM-Rolle an, die Sie anfügen möchten.
-
-
Für
ThreadsPerCore-
Verwenden Sie zum Aktualisieren einer vorhandenen Instance-Gruppe weiterhin denselben Wert, den Sie bei der Clustererstellung zugewiesen haben.
-
Um eine neue Instance-Gruppe hinzuzufügen, können Sie einen beliebigen Wert aus den zulässigen Optionen pro Instance-Typ auswählen. Weitere Informationen finden Sie unter dem Instance-Typ und in der Spalte Gültige Threads pro Kern in der Referenztabelle unter CPU-Kerne und Threads pro CPU-Kern pro Instance-Typ im Benutzerhandbuch für Amazon EC2.
-
-
Für
OnStartDeepHealthChecks, hinzufügenInstanceStressundInstanceConnectivityaktivierenTiefgreifende Zustandsprüfungen. -
Geben Sie für an
NodeRecovery,Automaticob die automatische Knotenwiederherstellung aktiviert werden soll. SageMaker HyperPod ersetzt Instances (Knoten) oder startet sie neu, wenn der Health Monitoring Agent Probleme feststellt.
Der folgende Codeausschnitt ist eine JSON-Anforderungsdateivorlage, die Sie verwenden können. Weitere Informationen zur Anforderungssyntax und zu den Parametern dieser API finden Sie in der UpdateCluster-API-Referenz.
// update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName":"string", "InstanceType":"string", "InstanceCount":number, "LifeCycleConfig": { "SourceS3Uri":"string", "OnCreate":"string"}, "ExecutionRole":"string", "ThreadsPerCore":number, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] }], "NodeRecovery": "Automatic" } -
-
Führen Sie den folgenden
update-cluster-Befehl aus, um die Anfrage einzureichen.aws sagemaker update-cluster \ --cli-input-jsonfile://complete/path/to/update_cluster.json