Erste Schritte mit der SageMaker HyperPod Verwendung der SageMaker KI-Konsole - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erste Schritte mit der SageMaker HyperPod Verwendung der SageMaker KI-Konsole

Das folgende Tutorial zeigt, wie Sie einen neuen SageMaker HyperPod Cluster erstellen und ihn mit Slurm über die Benutzeroberfläche der SageMaker AI-Konsole einrichten. Im Anschluss an das Tutorial erstellen Sie einen HyperPod Cluster mit drei Slurm-Knoten, my-controller-groupmy-login-group, und. worker-group-1

Cluster erstellen

Gehen Sie wie folgt vor, um zur SageMaker HyperPod Cluster-Seite zu navigieren und Slurm-Orchestration auszuwählen.

  1. Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.

  2. Wählen Sie im linken Navigationsbereich HyperPod Clusters und dann Cluster Management aus.

  3. Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option HyperPod Cluster erstellen aus.

  4. Wählen Sie im Drop-down-Menü HyperPod Cluster erstellen die Option Orchestrated by Slurm aus.

  5. Auf der Seite zur Erstellung eines Slurm-Clusters sehen Sie zwei Optionen. Wählen Sie die Option aus, die Ihren Bedürfnissen am besten entspricht.

    1. Quick Setup: Um sofort mit den Standardeinstellungen zu beginnen, wählen Sie Quick Setup aus. Mit dieser Option erstellt SageMaker KI bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.

    2. Benutzerdefinierte Einrichtung: Um eine Integration mit vorhandenen Ressourcen vorzunehmen oder bestimmte Anforderungen hinsichtlich Netzwerk, Sicherheit oder Speicher zu erfüllen, wählen Sie Benutzerdefinierte Einrichtung aus. Mit dieser Option können Sie wählen, ob Sie die vorhandenen Ressourcen verwenden oder neue erstellen möchten, und Sie können die Konfiguration an Ihre Bedürfnisse anpassen.

Folgen Sie im Abschnitt Schnelleinrichtung diesen Schritten, um Ihren HyperPod Cluster mit Slurm-Orchestrierung zu erstellen.

Allgemeine Einstellungen

Geben Sie einen Namen für den neuen Cluster ein. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

Instance-Gruppen

Um eine Instance-Gruppe hinzuzufügen, wählen Sie Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe für die Gruppentypen „Controller“ und „Compute“ hinzufügen.

Wichtig

Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.

Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.

  1. Wählen Sie unter Instance-Gruppentyp einen Typ für die Instance-Gruppe aus. Für dieses Tutorial wählen Sie Controller (Head) für my-controller-group, Login für my-login-group und Compute (Worker) für worker-group-1 aus.

  2. Geben Sie unter Name einen Namen für die Instance-Gruppe an. Für dieses Tutorial erstellen Sie drei Instance-Gruppen mit den Namen my-controller-group, my-login-group und worker-group-1.

  3. Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.

  4. Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus. Wählen Sie für dieses Tutorial ml.c5.xlarge für my-controller-group, ml.m5.4xlarge für my-login-group und ml.trn1.32xlarge für worker-group-1.

    Wichtig

    Stellen Sie sicher, dass Sie einen Instance-Typ mit ausreichenden Kontingenten und ausreichend nicht zugewiesenen IP-Adressen für Ihr Konto auswählen. Informationen zum Anzeigen oder Anfordern zusätzlicher Kontingente finden Sie unter SageMaker HyperPod Kontingente.

  5. Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Für dieses Tutorial geben Sie 1 für alle drei Gruppen ein.

  6. Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.

  7. Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist /opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den df -h-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben.

  8. Wählen Sie Instance-Gruppe hinzufügen aus.

Quick Setup – Standardwerte

In diesem Abschnitt sind alle Standardeinstellungen für Ihre Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während des Clustererstellungsprozesses erstellt werden. Überprüfen Sie die Standardeinstellungen.

Gehen Sie im Abschnitt Benutzerdefiniertes Setup wie folgt vor, um Ihren HyperPod Cluster mit Slurm-Orchestrierung zu erstellen.

Allgemeine Einstellungen

Geben Sie einen Namen für den neuen Cluster ein. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

Wählen Sie für die Instance-Wiederherstellung Automatisch – empfohlen oder Keine.

Netzwerk

Konfigurieren Sie Ihre Netzwerkeinstellungen für die Clustererstellung. Nachdem der Cluster erstellt wurde, können diese Einstellungen nicht mehr geändert werden.

  1. Wählen Sie für VPC Ihre eigene VPC aus, falls Sie bereits eine haben, die SageMaker KI Zugriff auf Ihre VPC gewährt. Um eine neue VPC zu erstellen, folgen Sie den Anweisungen unter Erstellen einer VPC im Benutzerhandbuch für Amazon Virtual Private Cloud. Sie können es auf None belassen, um die standardmäßige SageMaker KI-VPC zu verwenden.

  2. Geben Sie für den VPC IPv4 CIDR-Block die Start-IP Ihrer VPC ein.

  3. Wählen Sie für Availability Zones die Availability Zones (AZ) aus, in denen Subnetze für HyperPod Ihren Cluster erstellt werden sollen. Wählen Sie AZs diese aus, die dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.

  4. Erstellen Sie für Sicherheitsgruppen eine Sicherheitsgruppe oder wählen Sie bis zu fünf Sicherheitsgruppen aus, die mit Regeln konfiguriert sind, um die Kommunikation zwischen Ressourcen innerhalb der VPC zu ermöglichen.

Instance-Gruppen

Um eine Instance-Gruppe hinzuzufügen, wählen Sie Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen.

Wichtig

Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.

Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.

  1. Wählen Sie unter Instance-Gruppentyp einen Typ für die Instance-Gruppe aus. Für dieses Tutorial wählen Sie Controller (Head) für my-controller-group, Login für my-login-group und Compute (Worker) für worker-group-1 aus.

  2. Geben Sie unter Name einen Namen für die Instance-Gruppe an. Für dieses Tutorial erstellen Sie drei Instance-Gruppen mit den Namen my-controller-group, my-login-group und worker-group-1.

  3. Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.

  4. Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus. Wählen Sie für dieses Tutorial ml.c5.xlarge für my-controller-group, ml.m5.4xlarge für my-login-group und ml.trn1.32xlarge für worker-group-1.

    Wichtig

    Stellen Sie sicher, dass Sie einen Instance-Typ mit ausreichenden Kontingenten und ausreichend nicht zugewiesenen IP-Adressen für Ihr Konto auswählen. Informationen zum Anzeigen oder Anfordern zusätzlicher Kontingente finden Sie unter SageMaker HyperPod Kontingente.

  5. Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Für dieses Tutorial geben Sie 1 für alle drei Gruppen ein.

  6. Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.

  7. Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist /opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den df -h-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben.

  8. Wählen Sie Instance-Gruppe hinzufügen aus.

Lebenszyklusskripte

Sie können zwischen den Standard-Lebenszyklusskripten und den benutzerdefinierten Lebenszyklusskripten wählen, die in Ihrem Amazon-S3-Bucket gespeichert werden. Sie können die standardmäßigen Lebenszyklusskripte im Awesome Distributed GitHub Training-Repository einsehen. Weitere Informationen zu den Lebenszyklusskripten finden Sie unter Anpassen von SageMaker HyperPod Clustern mithilfe von Lebenszyklusskripten.

  1. Wählen Sie für Lebenszyklusskripte, ob Sie standardmäßige oder benutzerdefinierte Lebenszyklusskripte verwenden möchten.

  2. Wählen Sie für S3-Bucket für Lebenszyklusskripte, ob Sie einen neuen Bucket erstellen oder einen vorhandenen Bucket zum Speichern der Lebenszyklusskripten verwenden möchten.

Berechtigungen

Wählen oder erstellen Sie eine IAM-Rolle, mit der Sie die erforderlichen AWS Ressourcen in Ihrem Namen ausführen und darauf zugreifen können HyperPod .

Speicher

Konfigurieren Sie das FSx for Lustre-Dateisystem, das auf dem Cluster bereitgestellt werden soll. HyperPod

  1. Wählen Sie für Dateisystem ein vorhandenes FSx for Lustre-Dateisystem aus, um ein neues FSx for Lustre-Dateisystem zu erstellen, oder stellen Sie kein FSx for Lustre-Dateisystem bereit.

  2. Wählen Sie für Durchsatz pro Speichereinheit den Durchsatz aus, der pro TiB bereitgestellten Speichers verfügbar sein soll.

  3. Geben Sie für Speicherkapazität einen Kapazitätswert in TB ein.

  4. Wählen Sie als Datenkomprimierungstyp die Option LZ4Datenkomprimierung aktivieren.

  5. Sehen Sie sich für die Lustre-Version den Wert an, der für die neuen Dateisysteme empfohlen wird.

Tags – optional

Fügen Sie unter Tags — optional Schlüssel- und Wertepaare zum neuen Cluster hinzu und verwalten Sie den Cluster als AWS Ressource. Weitere Informationen finden Sie unter Markieren Ihrer AWS-Ressourcen.

Bereitstellen von Ressourcen

Nachdem Sie die Clusterkonfigurationen entweder mit Quick Setup oder Benutzerdefinierte Einrichtung abgeschlossen haben, wählen Sie die folgende Option aus, um mit der Ressourcenbereitstellung und Clustererstellung zu beginnen.

  • Absenden — SageMaker KI beginnt mit der Bereitstellung der Standardkonfigurationsressourcen und der Erstellung des Clusters.

  • CloudFormation Vorlagenparameter herunterladen — Sie laden die JSON-Datei mit den Konfigurationsparametern herunter und führen einen AWS CLI Befehl aus, um den CloudFormation Stack bereitzustellen, um die Konfigurationsressourcen bereitzustellen und den Cluster zu erstellen. Sie können die heruntergeladene Parameter-JSON-Datei bei Bedarf bearbeiten. Wenn Sie diese Option auswählen, finden Sie weitere Anweisungen unter Cluster mithilfe von Vorlagen erstellen SageMaker HyperPod CloudFormation.

Löschen des Clusters und Bereinigen der Ressourcen

Nachdem Sie die Erstellung eines SageMaker HyperPod Clusters erfolgreich getestet haben, läuft er im InService Status weiter, bis Sie den Cluster löschen. Wir empfehlen, dass Sie alle Cluster löschen, die mit On-Demand-AI-Instances SageMaker erstellt wurden, wenn sie nicht verwendet werden, um zu vermeiden, dass weitere Servicegebühren auf der Grundlage von On-Demand-Preisen anfallen. In diesem Tutorial haben Sie einen Cluster erstellt, der aus zwei Instance-Gruppen besteht. Eine davon verwendet eine C5-Instance. Stellen Sie also sicher, dass Sie den Cluster löschen, indem Sie den Anweisungen unter Löschen Sie einen SageMaker HyperPod Cluster folgen.

Wenn Sie jedoch einen Cluster mit reservierter Rechenkapazität erstellt haben, hat der Status der Cluster keinen Einfluss auf die Serviceabrechnung.

Um die Lebenszyklusskripte aus dem für dieses Tutorial verwendeten S3-Bucket zu bereinigen, wechseln Sie zu dem S3-Bucket, den Sie bei der Clustererstellung verwendet haben, und entfernen Sie die Dateien vollständig.

Wenn Sie die Ausführung von Workloads auf dem Cluster getestet haben, vergewissern Sie sich, ob Sie Daten hochgeladen haben oder ob Ihr Job Artefakte in verschiedenen S3-Buckets oder Dateisystemdiensten wie Amazon FSx for Lustre und Amazon Elastic File System gespeichert hat. Um Gebühren zu vermeiden, löschen Sie alle Artefakte und Daten aus dem Speicher- oder Dateisystem.