Esecuzione di processi su cluster SageMaker HyperPod orchestrati da Amazon EKS - Amazon SageMaker AI

Esecuzione di processi su cluster SageMaker HyperPod orchestrati da Amazon EKS

Gli argomenti seguenti forniscono procedure ed esempi sull’accesso ai nodi di calcolo e l’esecuzione di carichi di lavoro di ML su cluster SageMaker HyperPod con provisioning orchestrati con Amazon EKS. A seconda di come è stato configurato l’ambiente sul cluster HyperPod, sono disponibili diversi modi per eseguire i carichi di lavoro di ML sui cluster HyperPod.

Nota

Quando esegui i processi dalla CLI di SageMaker HyperPod o da kubectl, HyperPod può tenere traccia dell’utilizzo del calcolo (ore GPU/CPU) nei vari namespace (team). Queste metriche sono la base dei report di utilizzo, che forniscono:

  • Visibilità sul consumo di risorse allocate e di risorse prese in prestito

  • Utilizzo delle risorse dei team per gli audit (fino a 180 giorni)

  • Attribuzione dei costi in linea con le policy di governance delle attività

Per utilizzare i report di utilizzo, è necessario installare la relativa infrastruttura. Consigliamo vivamente di configurare la governance delle attività per applicare le quote di calcolo e abilitare l’attribuzione granulare dei costi.

Per ulteriori informazioni sulla configurazione e sulla generazione dei report di utilizzo, consulta Creazione di report di utilizzo del calcolo in HyperPod.

Suggerimento

Per un’esperienza pratica e indicazioni su come configurare e utilizzare un cluster SageMaker HyperPod orchestrato con Amazon EKS, consigliamo di seguire il workshop Amazon EKS Support in SageMaker HyperPod.

Gli utenti Data Scientist possono addestrare i modelli di fondazione utilizzando il set di cluster EKS come orchestratore del cluster SageMaker HyperPod. I Data Scientist sfruttano la CLI di SageMaker HyperPod e i comandi kubectl nativi per trovare i cluster SageMaker HyperPod disponibili, inviare i job di addestramento (pod) e gestire i carichi di lavoro. La CLI di SageMaker HyperPod consente l’invio dei processi tramite un file dello schema del job di addestramento e fornisce funzionalità per la visualizzazione, la descrizione, l’annullamento e l’esecuzione dei processi. I Data Scientist possono utilizzare Kubeflow Training Operator in base alle quote di calcolo gestite da HyperPod e MLflow gestito da SageMaker AI per gestire gli esperimenti di ML e le sessioni di addestramento.