View a markdown version of this page

HyperPod schede in Studio - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

HyperPod schede in Studio

In Amazon SageMaker Studio puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare l'elenco dei cluster. I cluster visualizzati contengono informazioni come attività, metriche hardware, impostazioni e dettagli sui metadati. Questa visibilità può aiutare il team a identificare il candidato giusto per i carichi di lavoro di preaddestramento o di fine-tuning. Nelle sezioni seguenti vengono approfonditi i vari tipi di informazioni.

Processi

Amazon SageMaker HyperPod fornisce una visualizzazione delle attività del cluster. Le attività sono operazioni o processi che vengono inviati al cluster. Queste possono essere operazioni di machine learning, come addestramento, esecuzione di esperimenti o inferenza. La sezione seguente fornisce informazioni sulle attività HyperPod del cluster.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster nei HyperPodcluster (in Compute) e visualizzare le informazioni sulle attività sul tuo cluster. Se riscontri problemi con la visualizzazione delle attività, consulta Risoluzione dei problemi.

La tabella delle attività include:

For Slurm clusters

Per i cluster Slurm, le attività attualmente presenti nella coda dello scheduler dei processi Slurm sono mostrate nella tabella. Le informazioni mostrate per ogni attività includono il nome dell’attività, lo stato, l’ID del processo, la partizione, il runtime, i nodi, l’autore e le azioni.

Per un elenco e dettagli sui lavori precedenti, usa il sacctcomando in JupyterLab o un terminale Code Editor. Il comando sacct viene utilizzato per visualizzare informazioni cronologiche sui processi terminati o completati nel sistema. Fornisce informazioni sull’accounting, incluso l’utilizzo delle risorse del processo come la memoria e lo stato di uscita.

Per impostazione predefinita, tutti gli utenti di Studio possono visualizzare, gestire e interagire con tutte le attività Slurm disponibili. Per limitare le attività visibili agli utenti di Studio, consulta Limitazione della visualizzazione delle attività nei cluster Studio per Slurm.

For Amazon EKS clusters

Per i cluster Amazon EKS, le attività kubeflow (PyTorch, MPI, TensorFlow) sono mostrate nella tabella. PyTorch le attività sono mostrate per impostazione predefinita. È possibile ordinare per PyTorch, MPI e TensorFlow in Tipo di attività. Le informazioni mostrate per ogni attività includono il nome dell’attività, lo stato, il namespace, la classe di priorità e l’ora di creazione.

Per impostazione predefinita, tutti gli utenti possono visualizzare i processi in tutti i namespace. Per limitare i namespace Kubernetes visualizzabili dagli utenti di Studio, consulta Limitazione della visualizzazione delle attività in Studio per i cluster EKS. Se un utente non visualizza alcuna attività e riceve un messaggio che chiede di fornire un namespace, deve ottenere tali informazioni dall’amministratore.

Metriche

Amazon SageMaker HyperPod fornisce una visualizzazione delle metriche di utilizzo del cluster Slurm o Amazon EKS. Di seguito vengono fornite informazioni sui parametri del cluster. HyperPod

Devi installare il componente aggiuntivo Amazon EKS per visualizzare le seguenti metriche. Per ulteriori informazioni, consulta Installare il componente aggiuntivo Amazon CloudWatch Observability EKS.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare i dettagli delle metriche sul tuo cluster. In Metriche puoi ottenere una visione completa delle metriche di utilizzo dei cluster, ad esempio quelle relative all’hardware, al team e alle attività. Sono inclusi la disponibilità e l’utilizzo delle risorse di calcolo, l’allocazione e l’utilizzo del team e le informazioni sull’esecuzione delle attività e sui tempi di attesa.

Settings

Amazon SageMaker HyperPod fornisce una visualizzazione delle impostazioni del cluster. Di seguito vengono fornite informazioni sulle impostazioni del HyperPod cluster.

In Amazon SageMaker Studio puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare le informazioni sulle impostazioni del cluster. Vengono fornite le informazioni seguenti:

  • Dettagli sulle istanze, tra cui ID dell’istanza, stato, tipo di istanza e gruppo di istanze

  • Dettagli sui gruppi di istanze, tra cui nome, tipo, conteggi e informazioni sulle risorse di calcolo

  • Dettagli sull’orchestrazione, inclusi l’orchestratore, la versione e l’autorità di certificazione

  • Dettagli sulla resilienza del cluster

  • Dettagli sulla sicurezza, ad esempio relativi a sottoreti e gruppi di sicurezza

IDE e notebook

Amazon SageMaker HyperPod fornisce una visualizzazione degli spazi di sviluppo in esecuzione sul tuo cluster. Gli spazi sono ambienti autonomi per l'esecuzione JupyterLab degli IDE di Code Editor direttamente sul cluster HyperPod EKS. È possibile creare, configurare, avviare, interrompere e aprire spazi direttamente da Studio.

In Amazon SageMaker Studio, accedi a uno dei tuoi cluster in HyperPodcluster (in Compute) e scegli la scheda IDE e Notebooks.

Le funzionalità principali disponibili tramite Studio includono:

  • Crea spazi con impostazioni configurabili di elaborazione, archiviazione e immagine tramite un modulo guidato.

  • Visualizza tutti gli spazi in una tabella ricercabile che mostra nome, tipo di applicazione, stato, tipo di accesso, storage, GPU e allocazioni vCPU.

  • Avvia e interrompi gli spazi con un solo clic per gestire i costi di elaborazione.

  • Apri gli spazi direttamente nel browser (JupyterLab o nell'editor di codice) o connettiti tramite un IDE remoto. Per ulteriori informazioni, consulta Accesso remoto a SageMaker Spaces.

  • Elimina gli spazi che non sono più necessari.

  • Seleziona i namespace per organizzare gli spazi per team con quote di risorse e impostazioni di governance.

  • Applica modelli per configurazioni di spazio coerenti tra i team.

Per informazioni sulla creazione di un dominio, consulta Guida alla configurazione con Amazon SageMaker AI.

Prerequisiti

  • Installa il HyperPod componente aggiuntivo sul tuo cluster. Per ulteriori informazioni, consulta Installa SageMaker AI Spaces Add-on.

  • Configura il cluster per l'utilizzo in Studio. Per ulteriori informazioni, consulta Configurazione di un cluster Amazon EKS in Studio.

  • Per abilitare gli spazi privati tra utenti con lo stesso ruolo di esecuzione, devi assicurarti che il ExecutionRoleSessionNameMode flag sia impostato suUSER_IDENTITY. Con la funzionalità HyperPod Spaces, il nome utente utilizzato all'interno dello spazio viene automaticamente derivato dal contesto di autenticazione di Studio, consentendo agli utenti di avere un'identità coerente tra Studio e HyperPod Spaces senza richiedere accessi aggiuntivi.

    Per i domini Studio configurati in modalità di autenticazione IAM, il nome utente di Spaces deriva dal nome della sessione del ruolo IAM. Corrisponde alla sessione IAM utilizzata per avviare Studio, tramite la console di AWS gestione o tramite un URL Studio predefinito. Per i domini Studio configurati in modalità di autenticazione IAM Identity Center, il nome utente Spaces è il nome utente IAM Identity Center autenticato e igienizzato.

    È impostato di default per i nuovi domini e può essere sovrascritto per i domini più vecchi. Questa impostazione può anche essere sostituita per ogni profilo utente. Per ulteriori informazioni, consulta Ruolo di esecuzione, nome della sessione, modalità.

Come funziona

Una volta installato il componente aggiuntivo e configurato l'accesso, accedi al HyperPod cluster in Studio e seleziona la scheda IDE e Notebook per visualizzare l'interfaccia di gestione degli spazi.

Creazione di uno spazio

Per creare un nuovo spazio, scegli Crea spazio. Il modulo di creazione consente di configurare quanto segue:

  • Namespace: seleziona lo spazio dei nomi del tuo team con quote di risorse e impostazioni di governance. Ciò determina l'allocazione di elaborazione disponibile.

  • Impostazioni dello spazio:

    • Modello: seleziona un modello preconfigurato (ad esempio, JupyterLab o Code Editor) per applicare le impostazioni predefinite.

    • Elaborazione: scegli tra configurazioni GPU e CPU con controllo granulare su GPU, vCPU e memoria.

    • Partizione GPU: se la GPU frazionata è abilitata, puoi scegliere una partizione da utilizzare per il tuo spazio di lavoro.

    • Immagine: seleziona tra le immagini del contenitore disponibili o le immagini personalizzate configurate dall'amministratore.

    • Archiviazione dello spazio EBS: configura l'archiviazione persistente per i tuoi notebook e i tuoi dati.

  • Governance delle attività: se abilitati per il namespace, gli spazi si integrano con la governance delle HyperPod attività per la gestione delle risorse e la pianificazione delle priorità. Per ulteriori informazioni, consulta Gestione delle attività per Interactive Spaces su HyperPod.

Gestione degli spazi

La tabella degli spazi offre una visualizzazione consolidata di tutti gli ambienti, inclusi lo stato e l'allocazione delle risorse.

Dalla colonna Azioni, puoi:

  • Interrompi uno spazio in esecuzione per liberare risorse di calcolo preservando al contempo i dati sullo storage EBS.

  • Apri lo spazio nel browser per avviare l'interfaccia web JupyterLab o Code Editor.

  • Connect tramite un IDE remoto. Per ulteriori informazioni, consulta Accesso remoto a SageMaker Spaces.

Connessione al tuo spazio

Spaces supporta due metodi di connessione:

Accesso all'interfaccia utente Web

Scegli Apri dalla tabella degli spazi per avviare l'IDE direttamente nel tuo browser. Si apre un'interfaccia completamente funzionale JupyterLab o Code Editor ospitata nel HyperPod cluster. Non è richiesta alcuna installazione locale di software oltre a un browser Web. È ideale per iterazioni rapide, esplorazione basata su notebook e lavoro collaborativo. Per abilitare l'accesso all'interfaccia utente Web sul cluster, vedere. Accesso tramite browser Web

Connessione IDE remota

Scegli Apri in IDE remoto dalla tabella degli spazi per connettere l'IDE locale allo spazio su cui è in esecuzione HyperPod. Ciò fornisce una connessione sicura senza la necessità di gestire le chiavi SSH o esporre la porta 22. Ottieni tutta la potenza del tuo ambiente di sviluppo locale eseguendo codice su HyperPod cluster computing. Per ulteriori informazioni, consulta Accesso remoto a SageMaker Spaces.

Informazioni

Amazon SageMaker HyperPod fornisce una visualizzazione dei dettagli dei metadati del cluster. Il paragrafo seguente fornisce informazioni su come ottenere i dettagli HyperPod del cluster.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare i dettagli sul tuo cluster. Questi includono tag, log e metadati.