Amazon SageMaker HyperPod – Schnellstart - Amazon SageMaker AI

Amazon SageMaker HyperPod – Schnellstart

Dieser Schnellstart führt Sie durch die Erstellung Ihres ersten HyperPod-Clusters mit Slurm- und Amazon-EKS-Orchestrierungen (EKS). Wählen Sie die Orchestrierung aus, die am besten zu Ihren Infrastrukturanforderungen passt, um mit SageMaker HyperPod zu beginnen.

Erstellen eines Slurm-orchestrierten SageMaker-HyperPod-Clusters

Führen Sie die folgenden Schritte aus, um Ihren ersten SageMaker-HyperPod-Cluster mit Slurm-Orchestrierung zu erstellen.

  1. Öffnen Sie die Konsole von Amazon SageMaker AI unter https://console.aws.amazon.com/sagemaker/.

  2. Wählen Sie im linken Navigationsbereich HyperPod-Cluster und dann Clusterverwaltung aus.

  3. Wählen Sie auf der Seite SageMaker-HyperPod-Cluster die Option HyperPod-Cluster erstellen aus.

  4. Wählen Sie im Dropdown-Menü HyperPod-Cluster erstellen die Option Orchestriert von Slurm aus.

  5. Wählen Sie auf der Seite zur Clustererstellung die Option Quick Setup aus. Mit dieser Option können Sie sofort mit den Standardeinstellungen beginnen. SageMaker AI erstellt bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon-S3-Bucket, IAM-Rolle und FSx für Lustre.

  6. Geben Sie unter Allgemeine Einstellungen einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

  7. Wählen Sie unter Instance-Gruppen die Option Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen. Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.

    Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.

    1. Wählen Sie unter Instance-Gruppentyp einen Typ für die Instance-Gruppe aus. Wählen Sie für diesen Schnellstart Controller (Head) für my-controller-group, Login für my-login-group und Compute (Worker) für worker-group-1 aus.

    2. Geben Sie unter Name einen Namen für die Instance-Gruppe an. Erstellen Sie für diesen Schnellstart drei Instance-Gruppen mit den Namen my-controller-group, my-login-group und worker-group-1.

    3. Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.

    4. Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus. Wählen Sie für diesen Schnellstart ml.c5.xlarge für my-controller-group, ml.m5.4xlarge für my-login-group und ml.trn1.32xlarge für worker-group-1 aus.

      Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto auswählen, oder fordern Sie zusätzliche Kontingente an, indem Sie den Anweisungen unter SageMaker-HyperPod-Kontingente folgen.

    5. Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für diesen Schnellstart 1 für alle drei Gruppen ein.

    6. Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.

    7. Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist /opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den df -h-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben.

    8. Wählen Sie Instance-Gruppe hinzufügen aus.

  8. Überprüfen Sie unter Standardwerte für die Schnellkonfiguration die Standardeinstellungen. In diesem Abschnitt sind alle Standardeinstellungen für die Clustererstellung aufgeführt, einschließlich aller neuen AWS-Ressourcen, die während der Clustererstellung erstellt werden.

  9. Wählen Sie Absenden aus.

Weitere Informationen finden Sie unter Erste Schritte mit SageMaker HyperPod unter Verwendung der SageMaker-AI-Konsole.

Erstellen eines EKS-orchestrierten SageMaker-HyperPod-Clusters

Führen Sie die folgenden Schritte aus, um Ihren ersten SageMaker-HyperPod-Cluster mit Amazon-EKS-Orchestrierung zu erstellen.

  1. Öffnen Sie die Konsole von Amazon SageMaker AI unter https://console.aws.amazon.com/sagemaker/.

  2. Wählen Sie im linken Navigationsbereich HyperPod-Cluster und dann Clusterverwaltung aus.

  3. Wählen Sie auf der Seite SageMaker-HyperPod-Cluster die Option HyperPod-Cluster erstellen aus.

  4. Wählen Sie im Dropdown-Menü HyperPod-Cluster erstellen die Option Orchestriert von Amazon EKS aus.

  5. Wählen Sie auf der Seite zur Clustererstellung die Option Schnellkonfiguration aus. Mit dieser Option können Sie sofort mit den Standardeinstellungen beginnen. SageMaker AI erstellt bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon-S3-Bucket, IAM-Rolle und FSx für Lustre.

  6. Geben Sie unter Allgemeine Einstellungen einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

  7. Wählen Sie unter Instance-Gruppen die Option Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen. Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.

    Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.

    1. Wählen Sie als Instance-Gruppentyp Standard oder Restricted Instance Group (RIG) aus. Normalerweise wählen Sie Standard, denn es bietet eine allgemeine Datenverarbeitungsumgebung ohne zusätzliche Sicherheitseinschränkungen. Restricted Instance Group (RIG) ist eine spezialisierte Umgebung für die Anpassung von Grundlagenmodellen wie Amazon Nova. Weitere Informationen zum Einrichten von RIG für die Anpassung des Amazon-Nova-Modells finden Sie unter Anpassung von Amazon Nova auf Amazon SageMaker HyperPod.

    2. Geben Sie unter Name einen Namen für die Instance-Gruppe an.

    3. Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.

    4. Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus. Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto auswählen, oder fordern Sie zusätzliche Kontingente an, indem Sie den Anweisungen unter SageMaker-HyperPod-Kontingente folgen.

    5. Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für diesen Schnellstart 1 für alle drei Gruppen ein.

    6. Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.

    7. Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist /opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den df -h-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben.

    8. Wählen Sie unter Detaillierte Instance-Zustandsprüfungen die gewünschte Option aus. Detaillierte Zustandsprüfungen überwachen den Zustand der Instances während der Erstellung und nach Softwareupdates und stellen fehlerhafte Instances automatisch durch Neustarts oder Austausch, sofern aktiviert, wieder her.

    9. Wählen Sie Instance-Gruppe hinzufügen aus.

  8. Überprüfen Sie unter Standardwerte für die Schnellkonfiguration die Standardeinstellungen. In diesem Abschnitt sind alle Standardeinstellungen für die Clustererstellung aufgeführt, einschließlich aller neuen AWS-Ressourcen, die während der Clustererstellung erstellt werden.

  9. Wählen Sie Absenden aus.

Weitere Informationen finden Sie unter Erstellen eines SageMaker-HyperPod-Clusters mit Amazon-EKS-Orchestrierung.

Übermitteln von Workloads

Folgen Sie diesen Workshop-Tutorials, um Beispiel-Workloads zu übermitteln.