Exécution de tâches d’entraînement sur un cluster hétérogène - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exécution de tâches d’entraînement sur un cluster hétérogène

À l’aide de la fonctionnalité de cluster hétérogène de SageMaker Training, vous pouvez exécuter une tâche d’entraînement avec plusieurs types d’instances de ML pour une meilleure mise à l’échelle et une meilleure utilisation des ressources pour les différents objectifs et tâches d’entraînement de ML. Par exemple, si votre tâche d’entraînement sur un cluster avec des instances de processeur graphique souffre d’une faible utilisation du processeur graphique et de problèmes de goulot d’étranglement du processeur en raison de tâches gourmandes en ressources du processeur, l’utilisation d’un cluster hétérogène peut vous aider à décharger ces dernières en ajoutant des groupes d’instances de processeur plus rentables, en résolvant ces problèmes de goulot d’étranglement et en obtenant une meilleure utilisation du processeur graphique.

Note

Cette fonction est disponible dans le kit SDK SageMaker Python v2.98.0 et versions ultérieures.

Note

Cette fonctionnalité est disponible via les classes d’estimateur des cadres SageMaker AI PyTorch et TensorFlow. Les cadres pris en charge sont PyTorch v1.10 ou versions ultérieures, et TensorFlow v2.6 ou versions ultérieures.

Consultez également le blog Améliorez le rapport prix-performance de l’entraînement de vos modèles grâce aux clusters hétérogènes Amazon SageMaker AI.