Reservieren Sie Schulungspläne für Ihre Trainingsjobs oder HyperPod -cluster - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Reservieren Sie Schulungspläne für Ihre Trainingsjobs oder HyperPod -cluster

SageMaker Amazon-Schulungspläne sind eine Funktion, mit der Sie GPU-Kapazität für umfangreiche KI-Modell-Trainingsworkloads reservieren und dabei helfen können, deren Nutzung zu maximieren. Diese Funktion bietet Zugriff auf stark nachgefragte Instance-Typen, die eine Reihe von GPU-beschleunigten Rechenoptionen abdecken, darunter die neuesten NVIDIA-GPU-Technologien und Trainium-Chips. AWS Mit SageMaker Schulungsplänen können Sie sich einen vorhersehbaren Zugriff auf diese stark nachgefragten, leistungsstarken Rechenressourcen innerhalb Ihrer festgelegten Zeitpläne und Budgets sichern, ohne die zugrunde liegende Infrastruktur verwalten zu müssen. Diese Flexibilität ist besonders wertvoll für Unternehmen, die sich mit den Herausforderungen auseinandersetzen müssen, die mit der Beschaffung und Planung dieser überfüllten RechenInstances für ihre geschäftskritischen KI-Workloads verbunden sind.

Was sind Schulungspläne SageMaker

SageMaker Mit Schulungsplänen können Sie Rechenkapazität reservieren, die auf Ihre Zielressourcenanforderungen zugeschnitten ist, z. B. für SageMaker Schulungsjobs oder SageMaker HyperPod Cluster. Der Service kümmert sich automatisch um die Reservierung, Bereitstellung beschleunigter Rechenressourcen, die Einrichtung der Infrastruktur, die Ausführung von Workloads und die Wiederherstellung nach Infrastrukturausfällen.

SageMaker Trainingspläne bestehen aus einem oder mehreren Blöcken mit reservierter Kapazität, die jeweils durch die folgenden Parameter definiert sind:

  • Spezifischer Instance-Typ

  • Anzahl der Instances

  • Availability Zone

  • Dauer

  • Start- und Endzeiten

Anmerkung
  • Schulungspläne sind spezifisch für ihre Zielressource (entweder SageMaker Ausbildungsjob oder SageMaker HyperPod) und können nicht ausgetauscht werden.

  • Mehrere Blöcke mit reservierter Kapazität in einem einzigen Trainingsplan können diskontinuierlich sein. Das bedeutet, dass es zu Lücken zwischen den Blöcken mit reservierter Kapazität kommen kann.

Vorteile von SageMaker Ausbildungsplänen

SageMaker Schulungspläne bieten die folgenden Vorteile:

  • Vorhersehbarer Zugriff: Reservieren Sie GPU-Kapazität für Ihre Machine-Learning-Workloads innerhalb bestimmter Zeitrahmen.

  • Kostenmanagement: Planen und budgetieren Sie umfangreiche Schulungsanforderungen im Voraus.

  • Automatisiertes Ressourcenmanagement: SageMaker Schulungspläne regeln die Bereitstellung und Verwaltung der Infrastruktur.

  • Flexibilität: Erstellen Sie Schulungspläne für verschiedene Ressourcen, einschließlich SageMaker Schulungsjobs und SageMaker HyperPod Cluster.

  • Fehlertoleranz: Profitieren Sie von der automatischen Wiederherstellung nach Infrastrukturausfällen und der Migration von Workloads zwischen Availability Zones für SageMaker KI-Schulungsaufgaben.

SageMaker Schulungspläne, Voranmeldung und flexible Startzeiten

SageMaker Schulungspläne ermöglichen es Ihnen, Rechenkapazität im Voraus zu reservieren, mit flexiblen Startzeiten und Dauern.

  • Vorreservierung: Sie können einen Schulungsplan bis zu 8 Wochen (56 Tage) vor dem Startdatum reservieren.

  • Mindestvorlaufzeit: Angebote für SageMaker Schulungspläne können je nach Verfügbarkeit innerhalb von 30 Minuten nach der Reservierung beginnen.

    Anmerkung

    Sie können nach einem Tarif suchen und diesen erwerben, der innerhalb von 30 Minuten verfügbar sein wird. Um eine rechtzeitige Aktivierung zu gewährleisten, muss die Zahlungstransaktion mindestens 5 Minuten vor der gewünschten Startzeit erfolgreich abgeschlossen werden. Wenn Sie beispielsweise möchten, dass ein Tarif um 14:00 Uhr beginnt, können Sie bis 13:30 Uhr eine Last-Minute-Suche durchführen und Ihren Kauf bis 13:55 Uhr abschließen, um sicherzustellen, dass der Plan bis 14:00 Uhr fertig ist.

  • Reservierungsdauer und Anzahl der Instanzen: Mit SageMaker Schulungsplänen können Sie Instances mit bestimmten Optionen für Dauer und Anzahl reservieren. Informationen zu verfügbaren Instance-Typen mit bestimmten AWS-Region Optionen für Dauer und Anzahl finden Sie unterUnterstützte Instance-Typen, AWS-Regionen und Preise.

  • Endzeit: Die Trainingspläne enden immer um 11:30 Uhr UTC am letzten Tag der Reservierung.

  • Kündigung des Schulungsplans: Wenn Sie Trainingsjobs als Zielressource verwenden und noch 30 Minuten in einer reservierten Kapazität verbleiben, initiieren SageMaker Schulungspläne den Prozess, alle laufenden Instances innerhalb dieses Blocks zu beenden, bis die nächste reservierte Kapazität aktiv wird. Sie haben bis 30 Minuten vor dem Ende des letzten Blocks mit reservierter Kapazität vollen Zugriff auf Ihren Trainingsplan.

    Wenn es sich bei Ihrer Zielressource um einen SageMaker HyperPod Cluster handelt, beträgt dieses Zeitlimit eine Stunde.

SageMaker Schulungspläne, Arbeitsablauf für Benutzer

SageMaker Schulungspläne bestehen aus den folgenden Schritten:

Admin-Schritte:

  1. Suchen und überprüfen: Finden Sie verfügbare Planangebote, die Ihren Rechenanforderungen entsprechen, wie z. B. Instance-Typ, Anzahl, Startzeit und Dauer.

  2. Plan erstellen: Reservieren Sie einen Trainingsplan, der Ihren Anforderungen entspricht, und verwenden Sie dabei die ID des von Ihnen ausgewählten Planangebots.

  3. Zahlung und Terminplanung: Nach erfolgreicher Vorauszahlung wird Scheduled der Status des Plans geändert.

Schritte für Nutzer des Plans /ML-Techniker:

  1. Ressourcenzuweisung: Verwenden Sie Ihren Plan, um SageMaker KI-Schulungsaufträge in die Warteschlange zu stellen oder sie einer SageMaker HyperPod Cluster-Instanzgruppe zuzuweisen.

  2. Aktivierung: Wenn das Startdatum des Plans erreicht ist, wird er Active. Basierend auf der verfügbaren reservierten Kapazität starten SageMaker Schulungspläne automatisch Schulungsjobs oder stellen Instanzgruppen bereit.

Anmerkung

Der Status des Schulungsplans wechselt vom Beginn eines Zeitraums mit reservierter Kapazität Scheduled zu dem Active Zeitpunkt, zu Scheduled dem auf den Beginn des nächsten Zeitraums mit reservierter Kapazität gewartet wird.

Die folgenden Diagramme bieten einen umfassenden Überblick darübertarget resources, wie SageMaker Schulungspläne mit verschiedenen Gruppen interagieren. Sie veranschaulichen den Lebenszyklus eines Plans und seine Rolle bei der Ressourcenzuweisung sowohl für SageMaker Schulungsjobs als auch für SageMaker HyperPod Cluster.

  • Trainingspläne für einen SageMaker Ausbildungsjob: Das erste Diagramm veranschaulicht den end-to-end Ablauf der Interaktion zwischen einem Trainingsplan und einem SageMaker Trainingsjob.

    Abrechnung, Kapazitätsreservierung mit Schulungsplänen und SageMaker Trainingsjob. Abbildung des Lebenszyklus des Schulungsplans und der Status der von Administratoren und ML-Technikern verwalteten Trainingsjobs.
  • Trainingspläne für SageMaker HyperPod Cluster: Das zweite Diagramm veranschaulicht den end-to-end Ablauf der Interaktion zwischen einem Trainingsplan und einer SageMaker HyperPod Instanzgruppe.

    Abrechnung, Kapazitätsreservierung mit Trainingsplänen und Workflow zur Verwaltung von Instance-Gruppen. Abbildung des Lebenszyklus des Schulungsplans und der Status der Instance-Gruppen, die von Administratoren und ML-Technikern verwaltet werden.

Unterstützte Instance-Typen, AWS-Regionen und Preise

Schulungspläne unterstützen Reservierungen für die folgenden spezifischen Hochleistungs-Instance-Typen, die jeweils in ausgewählten Varianten verfügbar sind AWS-Regionen:

  • ml.p4d.24xlarge

  • ml.p5.48xlarge

  • ml.p5e.48x groß

  • ml.p5en.48x groß

  • ml.trn1.32xlarge

  • ml.trn 2.48x groß

  • ml.p6-b200.48x groß

  • ml.c6i-32xlargesc

UltraServers

  • ml.p6e-gb200.36x groß

  • ml.p6e-gb200.72x groß

Anmerkung

Die Verfügbarkeit von Instance-Typen kann sich im Laufe der Zeit ändern. Die meisten up-to-date Informationen zu den verfügbaren Instance-Typen je nach Region sowie zu den jeweiligen Preisen finden Sie unter Preise. SageMaker Scrollen Sie unter On-Demand-Preise nach unten zum Abschnitt SageMaker HyperPod Flexible Trainingspläne von Amazon. Wählen Sie eine Region aus, um die Liste der verfügbaren Instance-Typen anzuzeigen.

Die Verfügbarkeit in mehreren Regionen ermöglicht es, den für Workloads am besten geeigneten Standort auszuwählen, wobei Faktoren wie die Anforderungen an die Datenresidenz und die Nähe zu anderen AWS Diensten berücksichtigt werden.

Wichtig
  • Sie können SageMaker Schulungspläne verwenden, um Instances mit den folgenden Optionen für die Reservierungsdauer und die Anzahl der Instanzen zu reservieren.

    • Die Reservierungsdauer ist in Schritten von 1 Tag bis 182 Tagen verfügbar.

    • Optionen für die Anzahl der Reservierungs-Instances: 1, 2, 4, 8, 16, 32 oder 64 Instances

  • Stellen Sie sicher, dass Ihre Training Jobs oder HyperPod Service-Kontingente eine maximale Anzahl von Instanzen pro Instance-Typ zulassen, die die in Ihrem Plan angegebene Anzahl von Instanzen übersteigt. Informationen zu Ihren aktuellen Kontingenten oder zum Anfordern einer Kontingenterhöhung finden Sie unter Zeigen Sie die Kontingente für SageMaker Trainingspläne mithilfe der AWS Managementkonsole an..

UltraServers in SageMaker KI

UltraServers bieten in SageMaker KI eine Reihe von Instanzen an, die über eine Netzwerkdomäne mit hoher Bandbreite miteinander verbunden sind. Der GB2 P6e-00 UltraServer verbindet beispielsweise bis zu 18 p6e-gb200.36xlarge Instanzen unter einer NVLink NVIDIA-Domain. Mit 4 NVIDIA Blackwell GPUs pro Instanz UltraServer unterstützt jeder GB2 P6e-00 72 GPUs, sodass Sie Ihre größten KI-Workloads mit hoher Leistung auf KI ausführen können. SageMaker

Wenn Sie SageMaker KI verwenden UltraServers , erhalten Sie Leistung in Kombination mit der verwalteten Infrastruktur von SageMaker KI, integrierten Funktionen zur Ausfallsicherheit, integrierten Überwachungsfunktionen und nativer Integration mit anderer KI und Diensten. SageMaker AWS Diese Integration ermöglicht es Ihnen, sich auf die Modellentwicklung und -bereitstellung zu konzentrieren, während SageMaker KI die undifferenzierte Schwerarbeit bei der Verwaltung der KI-Infrastruktur übernimmt.

Anmerkung

UltraServers sind nur in der Dallas Local Zone (us-east-1-dfw-2a) verfügbar, einer Erweiterung der Region USA Ost (Nord-Virginia). Weitere Informationen finden Sie unter Erste Schritte mit s AWS Local Zone

Überlegungen

Beachten Sie bei der Verwendung UltraServers mit SageMaker KI Folgendes:

  • Sie können es sowohl UltraServers für SageMaker Trainingsaufgaben als SageMaker HyperPodauch für Trainingszwecke verwenden.

  • Sie können nur vollständige Einheiten kaufen UltraServers . Weitere Informationen zu Instance- und Preisinformationen finden Sie unter SageMaker HyperPod Flexible Amazon-Schulungspläne unter Amazon SageMaker AI-Preise.

  • Wenn Sie UltraServers mit verwenden HyperPod, fügt Ihren Ressourcen HyperPod automatisch Topologie-Labels hinzu, um Sie bei der Ressourcenzuweisung zu unterstützen. Weitere Informationen finden Sie unter Topologieorientierte Terminplanung in Amazon verwenden. SageMaker HyperPod

  • SageMaker KI und UltraServers bieten verschiedene Funktionen, die die Stabilität Ihrer Workloads verbessern, darunter präventive Prüfungen und automatische Fehlererkennung und -behebung. Je nachdem, um welches Problem es sich handelt, kann SageMaker KI Aktionen zur Wiederherstellung Ihrer Workloads ausführen, z. B. Instances neu starten, ausgefallene Instances durch Ersatzteile ersetzen und ausgefallene Instances ersetzen. UltraServers

  • UltraServer Um die Ausfallsicherheit zu erhöhen, können Sie Instances innerhalb eines so konfigurieren, dass sie als Ersatzteile verwendet werden. UltraServer Durch die Beibehaltung einer Ersatzinstanz wird sichergestellt, dass SageMaker KI schnell auf einen Instance-Ausfall reagieren kann und gleichzeitig die Auswirkungen auf Ihre Jobs minimiert werden. Wir empfehlen, dass Sie eine Ersatzinstanz pro UltraServer Instanz behalten. Es ist nicht erforderlich, Ersatz-Instances zu reservieren, jedoch kann dies die Support-Optionen einschränken und die Wiederherstellung nach einem Ausfall verlangsamen. Sie kaufen im UltraServers Ganzen, sodass die Anzahl der Ersatzteile, die Sie reservieren, keinen Einfluss auf die Preisgestaltung hat.

  • Um den Status und die Instanzen innerhalb einer zu sehen UltraServer, verwenden Sie den ListTrainingPlansAPI-Vorgang oder die AWS Konsole, um Trainingspläne aufzurufen. Mithilfe dieser Tools können Sie die Gesamtzahl der verfügbaren Instances, der aktuell verwendeten Instances, der fehlerhaften Instances, der Anzahl der konfigurierten Ersatzteile und andere Informationen einsehen. Mögliche Zustandsstatus sind ok, impaired und insufficient-data.

SageMaker Suchverhalten von Trainingsplänen

Bei der Suche nach einem Schulungsplanangebot verwenden SageMaker Schulungspläne den folgenden Ansatz, um die Ressourcenverfügbarkeit und Flexibilität für Benutzer zu maximieren, selbst wenn die Nachfrage hoch ist und reservierte Kapazitätsblöcke knapp sind:

  • Anfängliche kontinuierliche Suche: In SageMaker Trainingsplänen wird zunächst versucht, einen einzelnen, kontinuierlichen Block reservierter Kapazität zu finden, der der angegebenen Dauer innerhalb des Start- und Enddatums entspricht und gleichzeitig alle anderen angegebenen Kriterien erfüllt, einschließlich Zielressource, angeforderter Instanztyp und Anzahl der Instanzen.

  • Suche mit zwei Blöcken: SageMaker Trainingspläne geben nicht das Ergebnis „Keine Kapazität“ zurück, wenn ein einziger durchgehender Block mit reservierter Kapazität, der alle Kriterien erfüllt, nicht verfügbar ist. Stattdessen wird automatisch versucht, die Anfrage mithilfe von zwei separaten Blöcken mit reservierter Kapazität zu erfüllen, wobei die Gesamtdauer auf zwei Zeitsegmente aufgeteilt wird.

    Dieser Ansatz mit zwei Blöcken bietet mehr Flexibilität bei der Ressourcenzuweisung und schützt potenziell stark beanspruchte Instances, die andernfalls nicht verfügbar wären.

Anmerkung

SageMaker Bei Schulungsplänen werden bis zu drei Angebote aus einem oder zwei Segmenten angezeigt. Bei einem Plan mit einer Dauer von 48 Stunden könnten SageMaker Trainingspläne beispielsweise einen Plan mit zwei 24-Stunden-Blöcken, einem zusammenhängenden 48-Stunden-Block und zwei Blöcken mit ungleichmäßiger Dauer anbieten.

Überlegungen

Wichtig
  • Trainingspläne können nach dem Kauf nicht mehr geändert werden.

  • Schulungspläne können nicht von mehreren AWS Konten oder innerhalb Ihrer AWS Organisation gemeinsam genutzt werden.

  • Bei der Suche nach Schulungsplänen passt SageMaker Training Plans seine Suchstrategie an folgende Kriterien antarget resources:

    Für SageMaker HyperPod Cluster:

    • Die Angebote sind auf eine einzige Availability Zone (AZ) beschränkt.

    • Dies gewährleistet eine konsistente Netzwerkleistung und Datenlokalität innerhalb des Clusters.

    Für SageMaker Ausbildungsberufe:

    • Angebote können sich über mehrere Availability Zones erstrecken.

    • Dies ist besonders relevant, wenn das Planangebot mehrere diskontinuierliche reservierte Kapazitäten enthält.

    • Ein Plan könnte beispielsweise Kapazität in AZ-A für einen Block mit reservierter Kapazität und in AZ-B für einen anderen enthalten. SageMaker Mit Schulungsplänen können Workloads je nach Verfügbarkeit der Ressourcen automatisch zwischen Availability Zones (AZs) verschoben werden.

      Dieser Multi-AZ-Ansatz für Trainingsjobs bietet mehr Flexibilität bei der Ressourcenzuweisung und erhöht so die Chancen, geeignete Kapazitäten für Ihre Arbeitslast zu finden. Sie sollten sich jedoch darüber im Klaren sein, dass Ihre Jobs zu verschiedenen AZs Zeiten Ihres Reservierungszeitraums unterschiedlich ausgeführt werden können.

  • Bei einem Angebot mit zwei Blöcken sollten Benutzer sorgfältig abwägen, ob diese geteilte Zuweisung ihren Workload-Anforderungen entspricht. Dies kann eine Anpassung der Arbeitsplanung oder der Verteilung der Arbeitslast erfordern, um dem nicht kontinuierlichen Charakter der Reservierung Rechnung zu tragen.