Managed Spot Training in Amazon SageMaker AI verwenden - Amazon SageMaker AI

Managed Spot Training in Amazon SageMaker AI verwenden

Amazon SageMaker AI vereinfacht das Trainieren von Machine-Learning-Modellen mithilfe von verwalteten Amazon EC2 Spot Instances. Mithilfe von Managed Spot Training können die Kosten für das Training von Modellen über On-Demand-Instances um bis zu 90 % optimiert werden. SageMaker AI verwaltet die Spot-Unterbrechungen in Ihrem Namen.

Managed Spot Training verwendet Amazon-EC2-Spot Instance zum Ausführen von Trainingsaufträgen anstelle von On-Demand-Instances. Sie können angeben, für welche Trainingsjobs Spot Instances verwendet werden, und eine Stoppbedingung festlegen, die angibt, wie lange SageMaker AI wartet, bis ein Auftrag mit Amazon EC2 Spot Instances ausgeführt wird. Metriken und Protokolle, die während Trainingsläufen generiert wurden, sind in CloudWatch verfügbar.

Die automatische Modelloptimierung von Amazon SageMaker AI, auch bekannt als Hyperparameter-Tuning, kann verwaltetes Spot-Training verwenden. Weitere Informationen zur automatischen Modelloptimierung finden Sie unter Automatische Modelloptimierung mit SageMaker AI.

Spot-Instances können unterbrochen werden, was dazu führt, dass es länger dauert, bis Aufträge gestartet oder beendet werden. Sie können Ihren verwalteten Spot-Trainingsauftrag so konfigurieren, dass er Checkpoints verwendet. SageMaker AI kopiert Checkpoint-Daten aus einem lokalen Pfad in Amazon S3. Wenn der Auftrag neu gestartet wird, kopiert SageMaker AI die Daten von Amazon S3 zurück in den lokalen Pfad. Das Training kann dann ab dem letzten Prüfpunkt fortgesetzt werden, anstatt neu zu starten. Weitere Informationen zum Checkpointing finden Sie unter Checkpoints in Amazon SageMaker AI.

Anmerkung

Sofern Ihr Trainingsauftrag nicht schnell abgeschlossen wird, empfehlen wir Ihnen, Prüfpunkte mit Managed Spot Training zu verwenden. Integrierte SageMaker-AI-Algorithmen und Marketplace-Algorithmen, die keine Prüfpunkte haben, sind derzeit auf eine MaxWaitTimeInSeconds von 3.600 Sekunden (60 Minuten) begrenzt.

Um Managed Spot Training zu verwenden, erstellen Sie einen Trainingsauftrag. Legen Sie EnableManagedSpotTraining auf True fest und geben Sie einen Wert für MaxWaitTimeInSeconds an. MaxWaitTimeInSeconds muss größer sein als MaxRuntimeInSeconds. Weitere Informationen zum Erstellen eines Trainingsauftrags finden Sie unter DescribeTrainingJob.

Sie können die Einsparungen durch die Verwendung von Managed Spot Training mithilfe der Formel (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100 berechnen. Wenn beispielsweise BillableTimeInSeconds 100 ist und TrainingTimeInSeconds 500 ist, bedeutet dies, dass Ihr Trainingsauftrag 500 Sekunden lang lief, Ihnen aber nur 100 Sekunden in Rechnung gestellt wurden. Ihre Ersparnis beträgt (1 – (100 / 500)) * 100 = 80%.

In den folgenden Beispiel-Notebooks erfahren Sie, wie Trainingsjobs auf Spot Instances von Amazon SageMaker AI ausgeführt werden und wie verwaltete Spot-Training funktioniert und die abrechnungsfähige Zeit reduziert: