Orchestrierung von SageMaker HyperPod Clustern mit Slurm - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Orchestrierung von SageMaker HyperPod Clustern mit Slurm

Die Slurm-Unterstützung SageMaker HyperPod unterstützt Sie bei der Bereitstellung robuster Cluster für die Ausführung von Workloads für maschinelles Lernen (ML) und die Entwicklung von state-of-the-art Modellen wie großen Sprachmodellen (LLMs), Diffusionsmodellen und Basismodellen (). FMs Es beschleunigt die Entwicklung von, FMs indem der undifferenzierte Aufwand für den Aufbau und die Wartung großer Rechencluster entfällt, die von Tausenden von Beschleunigern wie AWS Trainium und NVIDIA A100 und H100 Graphical Processing Units () angetrieben werden. GPUs Wenn Beschleuniger ausfallen, erkennen die Ausfallsicherheitsfunktionen der SageMaker HyperPod Monitore die fehlerhafte Hardware automatisch und ersetzen sie im laufenden Betrieb, sodass Sie sich auf die Ausführung von ML-Workloads konzentrieren können. Darüber hinaus können Sie mit der Unterstützung für die Lebenszykluskonfiguration Ihre Computerumgebung an Ihre Bedürfnisse anpassen und sie mit den verteilten Schulungsbibliotheken von Amazon SageMaker AI konfigurieren, um eine optimale Leistung zu erzielenAWS. SageMaker HyperPod

Betrieb von Clustern

Sie können SageMaker HyperPod Cluster grafisch über die Konsolenbenutzeroberfläche (UI) und programmgesteuert über die AWS Befehlszeilenschnittstelle (CLI) oder erstellen, konfigurieren und verwalten. AWS SDK für Python (Boto3) Mit Amazon VPC können Sie das Cluster-Netzwerk sichern und auch die Vorteile der Konfiguration Ihres Clusters mit Ressourcen in Ihrer VPC nutzen, z. B. Amazon FSx for Lustre, das den schnellsten Durchsatz bietet. Sie können Cluster-Instance-Gruppen auch unterschiedliche IAM-Rollen zuweisen und die Aktionen einschränken, die Ihre Cluster-Ressourcen und Benutzer ausführen können. Weitere Informationen hierzu finden Sie unter SageMaker HyperPod Slurm-Clusteroperationen.

Konfigurieren der ML-Umgebung

SageMaker HyperPod läuftSageMaker HyperPod DLAMI, wodurch eine ML-Umgebung auf den Clustern eingerichtet wird. HyperPod Sie können zusätzliche Anpassungen für das DLAMI konfigurieren, indem Sie Lebenszyklusskripte zur Unterstützung Ihres Anwendungsfalls bereitstellen. Weitere Informationen zum Einrichten von Lebenszyklusskripten finden Sie unter Erste Schritte mit SageMaker HyperPod und Anpassen von SageMaker HyperPod Clustern mithilfe von Lebenszyklusskripten.

Planen von Aufträgen

Nachdem Sie erfolgreich einen HyperPod Cluster erstellt haben, können sich Clusterbenutzer bei den Clusterknoten (wie dem Head- oder Controller-Knoten, dem Anmeldeknoten und dem Worker-Knoten) anmelden und Jobs für die Ausführung von Workloads für maschinelles Lernen planen. Weitere Informationen hierzu finden Sie unter Jobs auf Clustern SageMaker HyperPod .

Widerstandskraft gegen Hardwareausfälle

SageMaker HyperPod führt Integritätsprüfungen auf Clusterknoten durch und bietet eine Funktion zur automatischen Wiederaufnahme der Arbeitslast. Mit den Cluster-Resilienzfunktionen von HyperPod können Sie Ihre Arbeitslast ab dem letzten Checkpoint fortsetzen, den Sie gespeichert haben, nachdem fehlerhafte Knoten in Clustern mit mehr als 16 Knoten durch fehlerfreie ersetzt wurden. Weitere Informationen hierzu finden Sie unter SageMaker HyperPod Cluster-Resilienz.

Protokollieren und Verwalten von Clustern

Sie können Kennzahlen zur SageMaker HyperPod Ressourcennutzung und Lebenszyklusprotokolle in Amazon finden und SageMaker HyperPod Ressourcen verwalten CloudWatch, indem Sie sie taggen. Jede CreateCluster API-Ausführung erstellt einen eigenen Protokollstream, der im Format <cluster-name>-<timestamp> benannt ist. Im Protokollstream können Sie die Hostnamen, die Namen fehlgeschlagener Lebenszyklusskripte und die Ausgaben der fehlgeschlagenen Skripte wie stdout und stderr überprüfen. Weitere Informationen finden Sie unter SageMaker HyperPod Cluster-Verwaltung.

Kompatibel mit SageMaker KI-Tools

Mithilfe von SageMaker HyperPod SageMaker KI können Sie Cluster mit AWS optimierten Bibliotheken für kollektive Kommunikation konfigurieren, wie z. B. der SageMaker AI Distributed Data Parallelism (SMDDP) -Bibliothek. Die SMDDP-Bibliothek implementiert den für die AWS Rechen- und Netzwerkinfrastruktur optimierten AllGather Betrieb für die leistungsstärksten SageMaker KI-Instanzen für maschinelles Lernen, die auf NVIDIA A100 basieren. GPUs Weitere Informationen hierzu finden Sie unter Ausführung verteilter Trainingsworkloads mit aktiviertem Slurm HyperPod.

Platzierung von Instanzen mit UltraServers

SageMaker KI weist automatisch Jobs Ihren Instances zu. Dies UltraServer basiert auf einer Best-Effort-Strategie, bei der alle Instanzen in einer Instanz verwendet werden, UltraServer bevor eine andere verwendet wird. Wenn Sie beispielsweise 14 Instanzen anfordern und 2 UltraServers in Ihrem Trainingsplan haben, verwendet SageMaker KI alle Instanzen der ersten Instanz. UltraServer Wenn du 20 Instanzen angefordert hast und 2 UltraServers in deinem Trainingsplan hast, verwendet SageMaker KI alle 17 Instanzen in der ersten Instanz UltraServer und dann 3 von der zweiten UltraServer.