Instance-Typen für integrierte Algorithmen. - Amazon SageMaker AI

Instance-Typen für integrierte Algorithmen.

Die meisten Algorithmen von Amazon SageMaker AI wurden so entwickelt wurden, dass sie die Vorteile der GPU-Datenverarbeitung für Trainings nutzen. Trotz höherer Kosten pro Instance trainieren GPUs schneller und sind damit kostengünstiger. Ausnahmen sind in diesem Handbuch aufgeführt.

Weitere Informationen zu den unterstützten EC2-Instances finden Sie unter Instance-Details.

Größe und Art von Daten können einen großen Einfluss darauf haben, welche Hardwarekonfiguration am effektivsten ist. Wenn dasselbe Modell wiederholt trainiert wird, können mit ersten Tests über ein Spektrum an Instance-Typen hinweg Konfigurationen ermittelt werden, die langfristig kostengünstiger sind. Außerdem benötigen Algorithmen, die am effizientesten auf GPUs trainieren, möglicherweise keine GPUs für effiziente Inferenz. Experimentieren Sie, um die kostengünstigste Lösung zu finden. Verwenden Sie Amazon SageMaker Inference Recommender, um eine automatische Instance-Empfehlung zu erhalten oder benutzerdefinierte Auslastungstests durchzuführen.

Weitere Informationen zu den Hardwarespezifikationen von SageMaker AI finden Sie unter Amazon SageMaker AI ML Instance Types.

UltraServer

UltraServer verbinden mehrere Amazon-EC2-Instances über eine Beschleunigungsverbindung mit niedriger Latenz und hoher Bandbreite. Sie sind für die Bewältigung umfangreicher KI/ML-Workloads konzipiert, die eine erhebliche Rechenleistung erfordern. Weitere Informationen finden Sie unter Amazon EC2 UltraServer. Informationen zu den ersten Schritten mit UltraServers finden Sie unter Trainingspläne für Ihre Trainingsjobs oder HyperPod-Cluster reservieren.

Um mit UltraServers auf Amazon SageMaker AI zu beginnen, erstellen Sie einen Trainingsplan. Sobald Ihr UltraServer im Trainingsplan verfügbar ist, erstellen Sie einen Trainingsjob mit AWS-Managementkonsole, der API von Amazon SageMaker AI oder AWS CLI. Denken Sie daran, den UltraServer-Instance-Typ anzugeben, den Sie im Trainingsplan erworben haben.

Ein UltraServer kann einen oder mehrere Jobs gleichzeitig ausführen. UltraServer gruppieren Instances, was Ihnen eine gewisse Flexibilität bei der Zuweisung Ihrer UltraServer-Kapazität in Ihrer Organisation bietet. Beachten Sie bei der Konfiguration Ihrer Jobs auch die Datenschutzrichtlinien Ihrer Organisation, da Instances in einem UltraServer auf Daten für einen anderen Job in einer anderen Instance auf demselben UltraServer zugreifen können.

Wenn Sie auf dem UltraServer auf Hardwarefehler stoßen, versucht SageMaker AI automatisch, das Problem zu beheben. Während SageMaker AI das Problem untersucht und behebt, erhalten Sie möglicherweise Benachrichtigungen und Aktionen über AWS Health-Ereignisse oder AWS Support.

Sobald Ihr Trainingsjob abgeschlossen ist, stoppt SageMaker AI die Instances, aber sie bleiben in Ihrem Trainingsplan verfügbar, sofern der Plan noch aktiv ist. Um eine Instance auf einem UltraServer auch nach Abschluss eines Jobs weiterhin auszuführen, können Sie verwaltete Warmpools verwenden.

Wenn Ihr Trainingsplan über genügend Kapazität verfügt, können Sie Trainingsjobs sogar auf mehreren UltraServers ausführen. Standardmäßig umfasst jeder UltraServer 18 Instances, die aus 17 Instances und einer Ersatz-Instance bestehen. Wenn Sie mehr Instances benötigen, müssen Sie weitere UltraServer kaufen. Wenn Sie einen Trainingsjob erstellen, können Sie mithilfe des InstancePlacementConfig-Parameters konfigurieren, wie Jobs auf UltraServers platziert werden.

Wenn Sie die Jobplatzierung nicht konfigurieren, weist SageMaker AI automatisch Jobs den Instances auf Ihrem UltraServer zu. Diese Standardstrategie basiert auf dem Best-Effort-Prinzip, bei dem zuerst alle Instances auf einem einzigen UltraServer gefüllt werden, bevor ein anderer UltraServer verwendet wird. Wenn Sie beispielsweise 14 Instances anfordern und 2 UltraServer in Ihrem Trainingsplan haben, verwendet SageMaker AI alle Instances im ersten UltraServer. Wenn Sie 20 Instances angefordert haben und 2 UltraServer in Ihrem Trainingsplan haben, verwendet SageMaker AI alle 17 Instances auf dem ersten UltraServer und dann 3 auf dem zweiten UltraServer. Instances innerhalb eines UltraServers verwenden NVLink zur Kommunikation, einzelne UltraServer verwenden jedoch den Elastic Fabric Adapter (EFA), was die Trainingsleistung des Modells beeinträchtigen kann.