View a markdown version of this page

Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS

SageMaker HyperPod ist ein SageMaker AI-managed Service, der ein umfangreiches Training von Basismodellen auf langlebigen und belastbaren Rechenclustern ermöglicht und zur Orchestrierung der HyperPod Rechenressourcen in Amazon EKS integriert wird. Mithilfe von Amazon EKS-Clustern mit HyperPod Resilienzfunktionen, die nach verschiedenen Hardwarefehlern suchen und fehlerhafte Knoten automatisch wiederherstellen, können Sie unterbrechungsfreie Trainingsjobs über Wochen oder Monate in großem Umfang ausführen.

Zu den wichtigsten Features für Clusteradministratoren gehören die folgenden.

Für Benutzer von Datenwissenschaftlern ermöglicht die EKS-Unterstützung Folgendes. HyperPod

  • Ausführung von containerisierten Workloads zum Trainieren von Basismodellen auf dem Cluster HyperPod

  • Inferenz auf dem EKS-Cluster ausführen und dabei die Integration zwischen und EKS nutzen HyperPod

  • Nutzung der Funktion zur automatischen Wiederaufnahme von Jobs für PyTorch Kubeflow-Schulungen () PyTorchJob

Anmerkung

Amazon EKS ermöglicht die benutzerverwaltete Orchestrierung von Aufgaben und Infrastruktur SageMaker HyperPod über die Amazon EKS Control Plane. Stellen Sie sicher, dass der Benutzerzugriff auf den Cluster über den Kubernetes API-Server-Endpunkt dem Prinzip der geringsten Rechte folgt und dass der Netzwerkausgang aus dem Cluster gesichert ist. HyperPod

Weitere Informationen zur Sicherung des Zugriffs auf den API-Server von Amazon EKS finden Sie unter Steuern des Netzwerkzugriffs auf den Cluster-API-Serverendpunkt.

Weitere Informationen zur Sicherung des Netzwerkzugriffs finden Sie unter. HyperPod Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC

Die High-Level-Architektur der Amazon EKS-Unterstützung HyperPod beinhaltet eine 1-zu-1-Zuordnung zwischen einem EKS-Cluster (Kontrollebene) und einem HyperPod Cluster (Worker-Knoten) innerhalb einer VPC, wie in der folgenden Abbildung dargestellt.

Die EKS-Steuerebene ist über kontenübergreifende ENIs innerhalb von VPCs mit HyperPod Cluster Knoten verbunden.