Ausführen von Trainingsjobs auf einem heterogenen Cluster - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ausführen von Trainingsjobs auf einem heterogenen Cluster

Mithilfe der heterogenen Cluster-Funktion von SageMaker Training können Sie einen Trainingsauftrag mit mehreren Typen von ML-Instances ausführen, um die Ressourcen für verschiedene ML-Trainingsaufgaben und -zwecke besser skalieren und nutzen zu können. Wenn bei Ihrem Trainingsauftrag auf einem Cluster mit GPU-Instances beispielsweise eine geringe GPU-Auslastung und CPU-Engpässe aufgrund von CPU-intensiven Aufgaben auftreten, kann die Verwendung eines heterogenen Clusters dazu beitragen, CPU-intensive Aufgaben auszulagern, indem kostengünstigere CPU-Instance-Gruppen hinzugefügt, solche Engpässe behoben und eine bessere GPU-Auslastung erreicht werden.

Anmerkung

Diese Funktion ist im SageMaker Python SDK v2.98.0 und höher verfügbar.

Anmerkung

Diese Funktion ist über die Framework-Schätzerklassen PyTorch und TensorFlow von SageMaker AI verfügbar. Unterstützte Frameworks sind PyTorch v1.10 oder höher und TensorFlow v2.6 oder höher.

Weitere Informationen finden Sie im Blog Improve price performance of your model training using Amazon SageMaker AI heterogeneous clusters.