Riferimenti di SageMaker HyperPod
Trova ulteriori informazioni e riferimenti sull’utilizzo di SageMaker HyperPod nei seguenti argomenti.
Argomenti
Prezzi di SageMaker HyperPod
Gli argomenti seguenti forniscono informazioni sui prezzi di SageMaker HyperPod. Per ulteriori dettagli sul prezzo orario per l’utilizzo delle istanze SageMaker HyperPod, consulta anche Prezzi di Amazon SageMaker
Richieste di capacità
Puoi allocare capacità di calcolo on demand o riservata con SageMaker AI da utilizzare su SageMaker HyperPod. La creazione di cluster on demand alloca la capacità disponibile dal pool di capacità on demand di SageMaker AI. In alternativa, puoi richiedere una capacità riservata per garantire l’accesso inviando un ticket per un aumento della quota. SageMaker AI dà priorità alle richieste di capacità in entrata e fornisce agli utenti un tempo stimato per l’allocazione della capacità.
Fatturazione del servizio
Quando allochi una capacità di calcolo in SageMaker HyperPod, viene fatturata la durata dell’allocazione della capacità. La fatturazione di SageMaker HyperPod viene visualizzata nelle fatture basate sulla data di attivazione con una riga che contiene il tipo di allocazione della capacità (on demand, riservata), il tipo di istanza e il tempo impiegato per l’utilizzo dell’istanza.
Per inviare un ticket per un aumento della quota, consulta Quote di SageMaker HyperPod.
API SageMaker HyperPod
L’elenco seguente è un set completo di API SageMaker HyperPod per l’invio di richieste di azione in formato JSON a SageMaker AI attraverso la AWS CLI o AWS SDK per Python (Boto3).
Moduli SageMaker HyperPod
Per configurare lo strumento di gestione del carico di lavoro Slurm su HyperPod, devi creare un file di configurazione Slurm, richiesto da HyperPod, utilizzando il modulo fornito.
Modulo di configurazione per il provisioning dei nodi Slurm su HyperPod
Il codice seguente rappresenta il modulo di configurazione Slurm da preparare per configurare correttamente i nodi Slurm sul cluster HyperPod. Devi compilare questo modulo e caricarlo insieme a un set di script del ciclo di vita durante la creazione del cluster. Per informazioni su come preparare questo modulo durante i processi di creazione dei cluster HyperPod, consulta Personalizzazione dei cluster SageMaker HyperPod con script del ciclo di vita.
// Save as provisioning_parameters.json. { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "string", "login_group": "string", "worker_groups": [ { "instance_group_name": "string", "partition_name": "string" } ], "fsx_dns_name": "string", "fsx_mountname": "string" }
-
version: obbligatorio Questa è la versione del modulo dei parametri di provisioning di HyperPod. Lascia il valore su1.0.0. -
workload_manager: obbligatorio Serve a specificare quale gestore del carico di lavoro configurare sul cluster HyperPod. Lascia il valore suslurm. -
controller_group: obbligatorio Serve a specificare il nome del gruppo di istanze del cluster HyperPod da assegnare al nodo controller (head) Slurm. -
login_group: Opzionale. Serve a specificare il nome del gruppo di istanze del cluster HyperPod da assegnare al nodo di accesso Slurm. -
worker_groups: obbligatorio Serve per configurare i nodi worker (calcolo) Slurm sul cluster HyperPod.-
instance_group_name: obbligatorio Serve a specificare il nome del gruppo di istanze HyperPod da assegnare al nodo worker (calcolo) Slurm. -
partition_name: obbligatorio Serve per specificare il nome della partizione per il nodo.
-
-
fsx_dns_name: Opzionale. Per configurare i nodi Slurm sul cluster HyperPod per comunicare con Amazon FSx, specifica il nome DNS di FSx. -
fsx_mountname: Opzionale. Per configurare i nodi Slurm sul cluster HyperPod per comunicare con Amazon FSx, specifica il nome del montaggio FSx.
DLAMI di SageMaker HyperPod
SageMaker HyperPod esegue una DLAMI basata su:
-
AWS AMI di Deep Learning GPU di base (Ubuntu 20.04)
per l’orchestrazione con Slurm. -
AMI basata su Amazon Linux 2 per l’orchestrazione con Amazon EKS.
La DLAMI di SageMaker HyperPod è fornita insieme a pacchetti aggiuntivi per supportare strumenti open source come Slurm, Kubernetes, dipendenze e pacchetti software dei cluster SageMaker HyperPod per supportare funzionalità di resilienza come il controllo dell’integrità del cluster e la ripresa automatica. Per seguire gli aggiornamenti del software HyperPod che il team di assistenza HyperPod distribuisce tramite DLAMI, consulta Note di rilascio di Amazon SageMaker HyperPod.
Riferimento per le autorizzazioni dell’API SageMaker HyperPod
Importante
Le policy IAM personalizzate che consentono ad Amazon SageMaker Studio o Amazon SageMaker Studio Classic di creare risorse Amazon SageMaker devono inoltre concedere le autorizzazioni per aggiungere tag a tali risorse. L’autorizzazione per aggiungere tag alle risorse è necessaria perché Studio e Studio Classic applicano automaticamente tag a tutte le risorse che creano. Se una policy IAM consente a Studio e Studio Classic di creare risorse ma non consente il tagging, possono verificarsi errori di tipo “AccessDenied” quando provi a creare le risorse. Per ulteriori informazioni, consulta Concessione delle autorizzazioni per il tagging delle risorse SageMaker AI.
Policy gestite da AWS per Amazon SageMaker AI, che forniscono autorizzazioni per creare risorse SageMaker, includono già le autorizzazioni per aggiungere tag durante la creazione di tali risorse.
Quando configuri il controllo degli accessi per consentire l’esecuzione delle operazioni API di SageMaker HyperPod e scrivere una policy di autorizzazione da collegare agli utenti IAM per gli amministratori cloud, utilizza la tabella seguente come riferimento.
| Operazioni API di Amazon SageMaker | Autorizzazioni necessarie (azioni API) | Risorse |
| CreateCluster | sagemaker:CreateCluster |
arn:aws:sagemaker: |
| DeleteCluster | sagemaker:DeleteCluster |
arn:aws:sagemaker: |
| DescribeCluster | sagemaker:DescribeCluster |
arn:aws:sagemaker: |
| DescribeClusterNode | sagemaker:DescribeClusterNode |
arn:aws:sagemaker: |
| ListClusterNodes | sagemaker:ListClusterNodes |
arn:aws:sagemaker: |
| ListClusters | sagemaker:ListClusters |
arn:aws:sagemaker: |
| UpdateCluster | sagemaker:UpdateCluster |
arn:aws:sagemaker: |
| UpdateClusterSoftware | sagemaker:UpdateClusterSoftware |
arn:aws:sagemaker: |
Per un elenco completo di autorizzazioni e tipi di risorse per le API SageMaker, consulta Azioni, risorse e chiavi di condizione per Amazon SageMaker AI in Informazioni di riferimento sull’autorizzazione del servizio AWS.
Comandi SageMaker HyperPod nella AWS CLI
Di seguito sono riportati i comandi della AWS CLI per SageMaker HyperPod per eseguire le operazioni API principali di HyperPod.
Moduli SageMaker HyperPod Python in AWS SDK per Python (Boto3)
Di seguito sono riportati i metodi del client AWS SDK per Python (Boto3) per SageMaker AI per eseguire le operazioni API principali di HyperPod.