Schede HyperPod in Studio - Amazon SageMaker AI

Schede HyperPod in Studio

In Amazon SageMaker Studio puoi accedere a uno dei tuoi cluster in Cluster HyperPod (in Calcolo) e visualizzare l’elenco dei cluster. I cluster visualizzati contengono informazioni come attività, metriche hardware, impostazioni e dettagli sui metadati. Questa visibilità può aiutare il team a identificare il candidato giusto per i carichi di lavoro di preaddestramento o di fine-tuning. Nelle sezioni seguenti vengono approfonditi i vari tipi di informazioni.

Attività

Amazon SageMaker HyperPod offre una visualizzazione delle attività del cluster. Le attività sono operazioni o processi che vengono inviati al cluster. Queste possono essere operazioni di machine learning, come addestramento, esecuzione di esperimenti o inferenza. La sezione seguente fornisce informazioni sulle attività del cluster HyperPod.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster in Cluster HyperPod (in Calcolo) e visualizzare le informazioni sulle attività del cluster. Se riscontri problemi con la visualizzazione delle attività, consulta Risoluzione dei problemi.

La tabella delle attività include:

For Slurm clusters

Per i cluster Slurm, le attività attualmente presenti nella coda dello scheduler dei processi Slurm sono mostrate nella tabella. Le informazioni mostrate per ogni attività includono il nome dell’attività, lo stato, l’ID del processo, la partizione, il runtime, i nodi, l’autore e le azioni.

Per un elenco e i dettagli sui processi precedenti, utilizza il comando sacct in JupyterLab o in un terminale Editor di codice. Il comando sacct viene utilizzato per visualizzare informazioni cronologiche sui processi terminati o completati nel sistema. Fornisce informazioni sull’accounting, incluso l’utilizzo delle risorse del processo come la memoria e lo stato di uscita.

Per impostazione predefinita, tutti gli utenti di Studio possono visualizzare, gestire e interagire con tutte le attività Slurm disponibili. Per limitare le attività visibili agli utenti di Studio, consulta Limitazione della visualizzazione delle attività nei cluster Studio per Slurm.

For Amazon EKS clusters

Per i cluster Amazon EKS, le attività kubeflow (PyTorch, MPI, TensorFlow) sono mostrate nella tabella. Le attività PyTorch vengono visualizzate per impostazione predefinita. Puoi ordinare PyTorch, MPI e TensorFlow in Tipo di attività. Le informazioni mostrate per ogni attività includono il nome dell’attività, lo stato, il namespace, la classe di priorità e l’ora di creazione.

Per impostazione predefinita, tutti gli utenti possono visualizzare i processi in tutti i namespace. Per limitare i namespace Kubernetes visualizzabili dagli utenti di Studio, consulta Limitazione della visualizzazione delle attività in Studio per i cluster EKS. Se un utente non visualizza alcuna attività e riceve un messaggio che chiede di fornire un namespace, deve ottenere tali informazioni dall’amministratore.

Metriche

Amazon SageMaker HyperPod fornisce una visualizzazione delle metriche di utilizzo del cluster Slurm o Amazon EKS. Di seguito vengono fornite informazioni sulle metriche del cluster HyperPod.

Devi installare il componente aggiuntivo Amazon EKS per visualizzare le seguenti metriche. Per ulteriori informazioni, consulta Install the Amazon CloudWatch Observability EKS add-on.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster in Cluster HyperPod (in Calcolo) e visualizzare i dettagli delle metriche sul tuo cluster. In Metriche puoi ottenere una visione completa delle metriche di utilizzo dei cluster, ad esempio quelle relative all’hardware, al team e alle attività. Sono inclusi la disponibilità e l’utilizzo delle risorse di calcolo, l’allocazione e l’utilizzo del team e le informazioni sull’esecuzione delle attività e sui tempi di attesa.

Impostazioni

Amazon SageMaker HyperPod fornisce una visualizzazione delle impostazioni del cluster. Di seguito vengono fornite informazioni sulle impostazioni del cluster HyperPod.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster in Cluster HyperPod (in Calcolo) e visualizzare le informazioni sulle impostazioni del cluster. Vengono fornite le informazioni seguenti:

  • Dettagli sulle istanze, tra cui ID dell’istanza, stato, tipo di istanza e gruppo di istanze

  • Dettagli sui gruppi di istanze, tra cui nome, tipo, conteggi e informazioni sulle risorse di calcolo

  • Dettagli sull’orchestrazione, inclusi l’orchestratore, la versione e l’autorità di certificazione

  • Dettagli sulla resilienza del cluster

  • Dettagli sulla sicurezza, ad esempio relativi a sottoreti e gruppi di sicurezza

Informazioni

Amazon SageMaker HyperPod fornisce una visualizzazione dei dettagli dei metadati del cluster. Il paragrafo seguente fornisce informazioni su come ottenere i dettagli del cluster HyperPod.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster in Cluster HyperPod (in Calcolo) e visualizzare i dettagli sul tuo cluster. Questi includono tag, log e metadati.