Esecuzione di processi su cluster SageMaker HyperPod orchestrati da Amazon EKS
Gli argomenti seguenti forniscono procedure ed esempi sull’accesso ai nodi di calcolo e l’esecuzione di carichi di lavoro di ML su cluster SageMaker HyperPod con provisioning orchestrati con Amazon EKS. A seconda di come è stato configurato l’ambiente sul cluster HyperPod, sono disponibili diversi modi per eseguire i carichi di lavoro di ML sui cluster HyperPod.
Nota
Quando esegui i processi dalla CLI di SageMaker HyperPod o da kubectl, HyperPod può tenere traccia dell’utilizzo del calcolo (ore GPU/CPU) nei vari namespace (team). Queste metriche sono la base dei report di utilizzo, che forniscono:
-
Visibilità sul consumo di risorse allocate e di risorse prese in prestito
-
Utilizzo delle risorse dei team per gli audit (fino a 180 giorni)
-
Attribuzione dei costi in linea con le policy di governance delle attività
Per utilizzare i report di utilizzo, è necessario installare la relativa infrastruttura. Consigliamo vivamente di configurare la governance delle attività per applicare le quote di calcolo e abilitare l’attribuzione granulare dei costi.
Per ulteriori informazioni sulla configurazione e sulla generazione dei report di utilizzo, consulta Creazione di report di utilizzo del calcolo in HyperPod.
Suggerimento
Per un’esperienza pratica e indicazioni su come configurare e utilizzare un cluster SageMaker HyperPod orchestrato con Amazon EKS, consigliamo di seguire il workshop Amazon EKS Support in SageMaker HyperPod
Gli utenti Data Scientist possono addestrare i modelli di fondazione utilizzando il set di cluster EKS come orchestratore del cluster SageMaker HyperPod. I Data Scientist sfruttano la CLI di SageMaker HyperPodkubectl nativi per trovare i cluster SageMaker HyperPod disponibili, inviare i job di addestramento (pod) e gestire i carichi di lavoro. La CLI di SageMaker HyperPod consente l’invio dei processi tramite un file dello schema del job di addestramento e fornisce funzionalità per la visualizzazione, la descrizione, l’annullamento e l’esecuzione dei processi. I Data Scientist possono utilizzare Kubeflow Training Operator