Esecuzione di job di addestramento in un cluster eterogeneo - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di job di addestramento in un cluster eterogeneo

Utilizzando la funzionalità di cluster eterogeneo di SageMaker Training, puoi eseguire un processo di addestramento con più tipi di istanze ML per una migliore scalabilità e utilizzo delle risorse per diverse attività e scopi di addestramento ML. Ad esempio, se il processo di addestramento su un cluster con istanze GPU presenta un basso utilizzo della GPU e problemi di collo di bottiglia della CPU a causa di attività che richiedono un uso intensivo della CPU, l'utilizzo di un cluster eterogeneo può contribuire a ridurre il carico di attività che richiedono un uso intensivo della CPU aggiungendo gruppi di istanze CPU più convenienti, risolvere tali problemi e ottenere un migliore utilizzo della GPU.

Nota

Questa funzionalità è disponibile solo in SageMaker Python SDK v2.98.0 e versioni successive.

Nota

Questa funzionalità è disponibile tramite le classi dello strumento di stima del framework PyTorch e TensorFlow di SageMaker AI. I framework supportati sono PyTorch v1.10 o successivo e TensorFlow v2.6 o successivo.

Consulta anche il blog Improve price performance of your model training using Amazon SageMaker AI heterogeneous clusters.