Was sind SageMaker Trainingspläne Vorteile Reservation (Reservierung)Unterstützte Instance-Typen, AWS-Regionen, und Preisgestaltung UltraServers in SageMaker KI Suchverhalten Überlegungen Benutzerworkflow

Reservieren Sie flexible Trainingspläne für ML-Workloads

SageMaker Amazon-Schulungspläne sind eine Funktion, mit der Sie GPU-Kapazität für ML-Workloads reservieren und dabei helfen können, deren Nutzung zu maximieren. Diese Funktion bietet Zugriff auf sehr gefragte Instance-Typen, die eine Reihe von GPU-accelerated Rechenoptionen abdecken, darunter die neuesten NVIDIA-GPU-Technologien und AWS Trainium-Chips. Mit SageMaker Schulungsplänen können Sie sich einen vorhersehbaren Zugriff auf diese stark nachgefragten, leistungsstarken Rechenressourcen innerhalb Ihrer festgelegten Zeitpläne und Budgets sichern, ohne die zugrunde liegende Infrastruktur verwalten zu müssen. Diese Flexibilität ist besonders wertvoll für Unternehmen, die sich mit den Herausforderungen auseinandersetzen müssen, die mit der Beschaffung und Planung dieser überfüllten RechenInstances für ihre geschäftskritischen KI-Workloads verbunden sind.

Was sind Schulungspläne SageMaker

SageMaker Mit Schulungsplänen können Sie Rechenkapazität reservieren, die auf Ihre Zielressourcenanforderungen zugeschnitten ist, z. B. für SageMaker Schulungsjobs, SageMaker HyperPod Cluster, SageMaker Inference-Endpunkte oder SageMaker Studio-Apps. Der Service kümmert sich automatisch um die Reservierung, Bereitstellung beschleunigter Rechenressourcen, die Einrichtung der Infrastruktur, die Ausführung von Workloads und die Wiederherstellung nach Infrastrukturausfällen.

SageMaker Trainingspläne bestehen aus einem oder mehreren Blöcken mit reservierter Kapazität, die jeweils durch die folgenden Parameter definiert sind:

Spezifischer Instance-Typ
Anzahl der Instances
Availability Zone
Dauer
Start- und Endzeiten

Anmerkung

Schulungspläne sind spezifisch für ihre Zielressource (SageMaker Training Job SageMaker HyperPod, SageMaker Inference-Endpunkte oder SageMaker Studio-Apps) und können nicht ausgetauscht werden.
Mehrere Blöcke mit reservierter Kapazität in einem einzigen Trainingsplan können diskontinuierlich sein. Das bedeutet, dass es zu Lücken zwischen den Blöcken mit reservierter Kapazität kommen kann.

Vorteile von Schulungsplänen SageMaker

SageMaker Schulungspläne bieten die folgenden Vorteile:

Vorhersehbarer Zugriff: Reservieren Sie GPU-Kapazität für Ihre Machine-Learning-Workloads innerhalb bestimmter Zeitrahmen.
Kostenmanagement: Planen und budgetieren Sie Ihre ML-Workload-Anforderungen im Voraus.
Automatisiertes Ressourcenmanagement: SageMaker Schulungspläne regeln die Bereitstellung und Verwaltung der Infrastruktur.
Flexibilität: Erstellen Sie Schulungspläne für verschiedene Ressourcen, darunter SageMaker Schulungsjobs, SageMaker HyperPod Cluster, SageMaker Inference-Endpunkte und SageMaker Studio-Apps.
Fehlertoleranz: Profitieren Sie von der automatischen Wiederherstellung nach Infrastrukturausfällen und der Workload-Migration zwischen Availability Zones für SageMaker Schulungsaufgaben.

SageMaker Schulungspläne, Voranmeldung und flexible Startzeiten

SageMaker Schulungspläne ermöglichen es Ihnen, Rechenkapazität im Voraus zu reservieren, mit flexiblen Startzeiten und Dauern.

Vorreservierung: Sie können einen Schulungsplan bis zu 8 Wochen (56 Tage) vor dem Startdatum reservieren.
Mindestvorlaufzeit: Angebote für SageMaker Schulungspläne können je nach Verfügbarkeit innerhalb von 30 Minuten nach der Reservierung beginnen.

Anmerkung
Sie können nach einem Tarif suchen und diesen erwerben, der innerhalb von 30 Minuten verfügbar sein wird. Um eine rechtzeitige Aktivierung zu gewährleisten, muss die Zahlungstransaktion mindestens 5 Minuten vor der gewünschten Startzeit erfolgreich abgeschlossen werden. Wenn Sie beispielsweise möchten, dass ein Tarif um 14:00 Uhr beginnt, können Sie bis 13:30 Uhr eine Last-Minute-Suche durchführen und Ihren Kauf bis 13:55 Uhr abschließen, um sicherzustellen, dass der Plan bis 14:00 Uhr fertig ist.
Reservierungsdauer und Anzahl der Instanzen: Mit SageMaker Schulungsplänen können Sie Instances mit bestimmten Optionen für Dauer und Anzahl reservieren. Informationen zu verfügbaren Instance-Typen mit bestimmten AWS-Region Optionen für Dauer und Anzahl finden Sie unterUnterstützte Instance-Typen, AWS-Regionen, und Preisgestaltung.
Endzeit: Die Trainingspläne enden immer um 11:30 Uhr UTC am letzten Tag der Reservierung.
Kündigung des Trainingsplans: Wenn Sie Training Jobs, Inference-Endpoints und Studio-Apps als Zielressource verwenden und 30 Minuten in einer reservierten Kapazität verbleiben, initiieren SageMaker Trainingspläne den Prozess, alle laufenden Instances innerhalb dieses Blocks zu beenden, bis die nächste reservierte Kapazität aktiv wird. Sie haben bis 30 Minuten vor dem Ende des letzten Blocks mit reservierter Kapazität vollen Zugriff auf Ihren Trainingsplan.

Wenn es sich bei Ihrer Zielressource um einen SageMaker HyperPod Cluster handelt, beträgt dieses Zeitlimit eine Stunde.

Unterstützte Instance-Typen, AWS-Regionen, und Preisgestaltung

Schulungspläne unterstützen Reservierungen für die folgenden spezifischen Hochleistungs-Instance-Typen, die jeweils in ausgewählten Varianten verfügbar sind AWS-Regionen:

ml.p4d.24xlarge
ml.p 5.4 x groß
ml.p5.48xlarge
ml.p5e.48x groß
ml.p5en.48x groß
ml.trn1.32xlarge
ml.trn 2.48x groß
ml.p6-b200.48x groß
ml.p6-b300.48x groß
ml.g6.xlarge (wenden Sie sich an Ihren Kundenbetreuer)
ml.g6.4xlarge (wenden Sie sich an Ihren Kundenbetreuer)

UltraServers(Kann derzeit nicht im Selbstbedienungsmodus gekauft werden. Wenden Sie sich an Ihren Kundenbetreuer.)

ml.p6e-gb200.36x groß
ml.p6e-gb200.72x groß

Anmerkung

Die Verfügbarkeit von Instance-Typen kann sich im Laufe der Zeit ändern. Die aktuellsten Informationen zu den verfügbaren Instance-Typen je nach Region sowie zu den jeweiligen Preisen finden Sie unter SageMaker Preisgestaltung. Scrollen Sie unter On-Demand Preise nach unten zum Abschnitt SageMaker HyperPod Flexible Trainingspläne von Amazon. Wählen Sie eine Region aus, um die Liste der verfügbaren Instance-Typen anzuzeigen.

Die Verfügbarkeit in mehreren Regionen ermöglicht es, den für Workloads am besten geeigneten Standort auszuwählen, wobei Faktoren wie die Anforderungen an die Datenresidenz und die Nähe zu anderen AWS Diensten berücksichtigt werden.

Wichtig

Sie können SageMaker Schulungspläne verwenden, um Instances mit den folgenden Optionen für die Reservierungsdauer und die Anzahl der Instanzen zu reservieren.
- Die Reservierungsdauer ist in Schritten von 1 Tag bis 182 Tagen verfügbar.
- Optionen für die Anzahl der Reservierungs-Instances: 1, 2, 4, 8, 16, 32 oder 64 Instances
Stellen Sie sicher, dass Ihre Training Jobs oder HyperPod Service-Kontingente eine maximale Anzahl von Instanzen pro Instance-Typ zulassen, die die in Ihrem Plan angegebene Anzahl von Instanzen übersteigt. Informationen zu Ihren aktuellen Kontingenten oder zum Anfordern einer Kontingenterhöhung finden Sie unter Zeigen Sie die Kontingente für SageMaker Trainingspläne an, indem Sie AWS Verwaltungskonsole.

UltraServers in SageMaker KI

UltraServers bieten in SageMaker KI eine Reihe von Instanzen an, die über eine Netzwerkdomäne mit hoher Bandbreite miteinander verbunden sind. Der P6e-GB200 UltraServer verbindet beispielsweise bis zu 18 p6e-gb200.36xlarge Instanzen unter einer NVIDIA NVLink-Domain. Mit 4 NVIDIA Blackwell-GPUs pro Instanz P6e-GB200 UltraServer unterstützt jede 72 GPUs, sodass Sie Ihre größten KI-Workloads mit hoher Leistung auf KI ausführen können. SageMaker

Wenn Sie SageMaker KI verwenden UltraServers , erhalten Sie Leistung in Kombination mit der verwalteten Infrastruktur von SageMaker KI, integrierten Funktionen zur Ausfallsicherheit, integrierten Überwachungsfunktionen und nativer Integration mit anderer KI und Diensten. SageMaker AWS Diese Integration ermöglicht es Ihnen, sich auf die Modellentwicklung und -bereitstellung zu konzentrieren, während SageMaker KI die undifferenzierte Schwerarbeit bei der Verwaltung der KI-Infrastruktur übernimmt.

Anmerkung

UltraServers sind nur in der Dallas Local Zone (us-east-1-dfw-2a) verfügbar, einer Erweiterung der Region USA Ost (Nord-Virginia). Weitere Informationen finden Sie unter Erste Schritte mit s AWS Local Zone

Überlegungen

Beachten Sie bei der Verwendung UltraServers mit SageMaker KI Folgendes:

Sie können es sowohl UltraServers für SageMaker Trainingsaufgaben als SageMaker HyperPodauch für Trainingszwecke verwenden.
Sie können nur vollständige Einheiten kaufen UltraServers . Weitere Informationen zu Instance- und Preisinformationen finden Sie unter SageMaker HyperPod Flexible Amazon-Schulungspläne unter Amazon SageMaker AI-Preise.
Wenn Sie UltraServers mit verwenden HyperPod, fügt Ihren Ressourcen HyperPod automatisch Topologie-Labels hinzu, um Sie bei der Ressourcenzuweisung zu unterstützen. Weitere Informationen finden Sie unter Topologieorientierte Terminplanung in Amazon verwenden. SageMaker HyperPod
SageMaker KI und UltraServers bieten verschiedene Funktionen, die die Resilienz Ihrer Workloads verbessern, darunter präventive Prüfungen und automatische Fehlererkennung und -behebung. Je nachdem, um welches Problem es sich handelt, kann SageMaker KI Aktionen zur Wiederherstellung Ihrer Workloads ausführen, z. B. Instances neu starten, ausgefallene Instances durch Ersatzteile ersetzen und ausgefallene Instances ersetzen. UltraServers
UltraServer Um die Ausfallsicherheit zu erhöhen, können Sie Instances innerhalb eines so konfigurieren, dass sie als Ersatzteile verwendet werden. UltraServer Durch die Beibehaltung einer Ersatzinstanz wird sichergestellt, dass SageMaker KI schnell auf einen Instance-Ausfall reagieren kann und gleichzeitig die Auswirkungen auf Ihre Jobs minimiert werden. Wir empfehlen, dass Sie eine Ersatzinstanz pro UltraServer Instanz behalten. Es ist nicht erforderlich, Ersatz-Instances zu reservieren, jedoch kann dies die Support-Optionen einschränken und die Wiederherstellung nach einem Ausfall verlangsamen. Sie kaufen im UltraServers Ganzen, sodass die Anzahl der Ersatzteile, die Sie reservieren, keinen Einfluss auf die Preisgestaltung hat.
Um den Status und die Instanzen innerhalb einer zu sehen UltraServer, verwenden Sie den ListTrainingPlansAPI-Vorgang oder die AWS Konsole, um Trainingspläne aufzurufen. Mithilfe dieser Tools können Sie die Gesamtzahl der verfügbaren Instances, der aktuell verwendeten Instances, der fehlerhaften Instances, der Anzahl der konfigurierten Ersatzteile und andere Informationen einsehen. Mögliche Zustandsstatus sind ok, impaired und insufficient-data.

SageMaker Suchverhalten von Trainingsplänen

Bei der Suche nach einem Schulungsplanangebot verwenden SageMaker Schulungspläne den folgenden Ansatz, um die Ressourcenverfügbarkeit und Flexibilität für Benutzer zu maximieren, selbst wenn die Nachfrage hoch ist und reservierte Kapazitätsblöcke knapp sind:

Anfängliche kontinuierliche Suche: In SageMaker Trainingsplänen wird zunächst versucht, einen einzelnen, kontinuierlichen Block reservierter Kapazität zu finden, der der angegebenen Dauer innerhalb des Start- und Enddatums entspricht und gleichzeitig alle anderen angegebenen Kriterien erfüllt, einschließlich Zielressource, angeforderter Instanztyp und Anzahl der Instanzen.
Two-block Suche: SageMaker Trainingspläne geben kein Ergebnis „Keine Kapazität“ zurück, wenn ein einziger durchgehender Block mit reservierter Kapazität, der alle Kriterien erfüllt, nicht verfügbar ist. Stattdessen wird automatisch versucht, die Anfrage mithilfe von zwei separaten Blöcken mit reservierter Kapazität zu erfüllen, wobei die Gesamtdauer auf zwei Zeitsegmente aufgeteilt wird.

Dieser Ansatz mit zwei Blöcken bietet mehr Flexibilität bei der Ressourcenzuweisung und schützt potenziell stark beanspruchte Instances, die andernfalls nicht verfügbar wären.

Anmerkung

SageMaker Bei Schulungsplänen werden bis zu drei Angebote aus einem oder zwei Segmenten angezeigt. Bei einem Plan mit einer Dauer von 48 Stunden könnten SageMaker Trainingspläne beispielsweise einen Plan mit zwei 24-Stunden-Blöcken, einem zusammenhängenden 48-Stunden-Block und zwei Blöcken mit ungleichmäßiger Dauer anbieten.

Überlegungen

Wichtig

Käufe von Trainingsplänen sind endgültig und können nicht storniert werden.
Trainingspläne können nicht geändert werden, um Instanzen hinzuzufügen oder zu entfernen. Sie können nur bis zu einem neuen Enddatum verlängert werden.
Schulungspläne können nicht zwischen AWS Konten oder innerhalb Ihrer AWS Organisation gemeinsam genutzt werden.

Bei der Suche nach Schulungsplänen passt SageMaker Training Plans seine Suchstrategie an folgende Kriterien antarget resources:

Für SageMaker HyperPod Cluster:
- Die Angebote sind auf eine einzige Availability Zone (AZ) beschränkt.
- Dies gewährleistet eine konsistente Netzwerkleistung und Datenlokalität innerhalb des Clusters.
Für SageMaker Ausbildungsberufe:
- Angebote können sich über mehrere Availability Zones erstrecken.
- Dies ist besonders relevant, wenn das Planangebot mehrere diskontinuierliche reservierte Kapazitäten enthält.
- Ein Plan kann beispielsweise Kapazität AZ-A für einen Block mit reservierter Kapazität und AZ-B für einen anderen beinhalten. SageMaker Mit Schulungsplänen können Workloads je nach Ressourcenverfügbarkeit automatisch zwischen Availability Zones (AZs) verschoben werden.
  
  Dieser Multi-AZ-Ansatz für Trainingsjobs bietet mehr Flexibilität bei der Ressourcenzuweisung und erhöht so die Chancen, geeignete Kapazitäten für Ihre Arbeitslast zu finden. Sie sollten sich jedoch darüber im Klaren sein, dass Ihre Jobs zu unterschiedlichen Zeiten Ihres Reservierungszeitraums in unterschiedlichen AZs ausgeführt werden können.
Bei einem Angebot mit zwei Blöcken sollten Benutzer sorgfältig abwägen, ob diese geteilte Zuweisung ihren Workload-Anforderungen entspricht. Dies kann eine Anpassung der Arbeitsplanung oder der Verteilung der Arbeitslast erfordern, um dem nicht kontinuierlichen Charakter der Reservierung Rechnung zu tragen.

SageMaker Arbeitsablauf für Schulungspläne

SageMaker Schulungspläne bestehen aus den folgenden Schritten:

Admin-Schritte:

Suchen und überprüfen: Finden Sie verfügbare Planangebote, die Ihren Rechenanforderungen entsprechen, wie z. B. Instance-Typ, Anzahl, Startzeit und Dauer.
Plan erstellen: Reservieren Sie einen Trainingsplan, der Ihren Anforderungen entspricht, und verwenden Sie dabei die ID des von Ihnen ausgewählten Planangebots.
Zahlung und Terminplanung: Nach erfolgreicher Vorauszahlung wird Scheduled der Status des Plans geändert.

Schritte für Nutzer des Plans /ML-Techniker:

Ressourcenzuweisung: Verwenden Sie Ihren Plan, um SageMaker KI-Schulungsjobs, SageMaker HyperPod Cluster-Instanzgruppen, SageMaker Inferenzendpunkte oder Bereiche in SageMaker Studio-Apps zuzuweisen.
Aktivierung: Wenn das Startdatum des Plans erreicht ist, wird er Active. Basierend auf der verfügbaren reservierten Kapazität stellen SageMaker Schulungspläne automatisch Schulungsjobs, Instanzgruppen, Inferenzendpunkte oder Studio-Anwendungen bereit.

Anmerkung

Der Status des Schulungsplans wechselt vom Beginn eines Zeitraums mit reservierter Kapazität Scheduled zu dem Active Zeitpunkt, zu Scheduled dem auf den Beginn des nächsten Zeitraums mit reservierter Kapazität gewartet wird.

Die folgenden Diagramme bieten einen umfassenden Überblick darübertarget resources, wie SageMaker Schulungspläne mit verschiedenen Gruppen interagieren. Sie veranschaulichen den Lebenszyklus eines Plans und seine Rolle bei der Ressourcenzuweisung sowohl für SageMaker Schulungsjobs als auch für Cluster. SageMaker HyperPod

Trainingspläne für einen SageMaker Trainingsjob: Das erste Diagramm zeigt den gesamten Ablauf der Interaktion zwischen einem Trainingsplan und einem SageMaker Trainingsjob.
Trainingspläne für SageMaker HyperPod Cluster: Das zweite Diagramm veranschaulicht den gesamten Ablauf der Interaktion zwischen einem Trainingsplan und einer SageMaker HyperPod Instanzgruppe.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Ressourcen für den Amazon SageMaker Feature Store

IAM für SageMaker Trainingspläne