Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Prenota piani di formazione per i tuoi lavori o HyperPod cluster di formazione
I piani di SageMaker formazione di Amazon sono una funzionalità che ti consente di prenotare e contribuire a massimizzare l'uso della capacità della GPU per carichi di lavoro di formazione su modelli di intelligenza artificiale su larga scala. Questa funzionalità fornisce l'accesso a tipi di istanze molto richiesti che coprono una gamma di opzioni di elaborazione con accelerazione GPU, tra cui le più recenti tecnologie GPU NVIDIA e i chip trainium. AWS Con i piani di SageMaker formazione, puoi assicurarti un accesso prevedibile a queste risorse computazionali ad alte prestazioni e richieste nel rispetto delle tempistiche e dei budget specificati, senza la necessità di gestire l'infrastruttura sottostante. Questa flessibilità è particolarmente utile per le organizzazioni che affrontano le sfide legate all’acquisizione e alla pianificazione di queste istanze di calcolo con un numero eccessivo di abbonamenti per i loro carichi di lavoro di IA mission-critical.
Cosa sono i SageMaker piani di formazione
SageMaker i piani di formazione consentono di riservare una capacità di elaborazione personalizzata in base alle esigenze di risorse target, ad esempio lavori di SageMaker formazione o SageMaker HyperPod cluster. Il servizio gestisce automaticamente la prenotazione, il provisioning di risorse di calcolo accelerate, la configurazione dell’infrastruttura, l’esecuzione del carico di lavoro e il ripristino in caso di guasti dell’infrastruttura.
SageMaker i piani di formazione sono costituiti da uno o più blocchi di capacità riservata, ciascuno definito dai seguenti parametri:
-
Tipo di istanza specifico
-
Quantità di istanze
-
Zona di disponibilità
-
Durata
-
Ora di inizio e fine
Nota
-
I piani di formazione sono specifici per la risorsa target ( SageMaker Training Job o SageMaker HyperPod) e non possono essere scambiati.
-
Più blocchi di capacità riservata in un unico piano di addestramento possono causare discontinuità. In altre parole, possono esserci dei vuoti tra i blocchi di capacità riservata.
Vantaggi dei piani di SageMaker formazione
SageMaker i piani di formazione offrono i seguenti vantaggi:
-
Accesso prevedibile: prenota la capacità della GPU per i tuoi carichi di lavoro di machine learning all’interno di intervalli di tempo specifici.
-
Gestione dei costi: pianifica e alloca il budget in anticipo se devi gestire un addestramento su larga scala.
-
Gestione automatizzata delle risorse: i piani di SageMaker formazione gestiscono l'approvvigionamento e la gestione dell'infrastruttura.
-
Flessibilità: crea piani di formazione per varie risorse, inclusi SageMaker corsi di formazione e SageMaker HyperPod cluster.
-
Tolleranza ai guasti: sfrutta il ripristino automatico dai guasti dell'infrastruttura e la migrazione dei carichi di lavoro tra le zone di disponibilità per i lavori di formazione sull' SageMaker intelligenza artificiale.
SageMaker piani di formazione, prenotazione anticipata e orari di inizio flessibili.
SageMaker i piani di formazione consentono di prenotare in anticipo la capacità di elaborazione, con orari e durate di inizio flessibili.
-
Prenotazione anticipata: puoi prenotare un piano di addestramento fino a 8 settimane (56 giorni) prima della data di inizio.
-
Tempi di consegna minimi: le offerte dei piani di SageMaker formazione potrebbero iniziare entro 30 minuti dalla prenotazione, in base alla disponibilità.
Nota
Puoi cercare e acquistare un piano che sarà accessibile entro 30 minuti. Per garantire un’attivazione tempestiva, la transazione di pagamento deve essere completata correttamente almeno 5 minuti prima dell’orario di inizio desiderato. Ad esempio, se vuoi che un piano inizi alle 14:00, puoi effettuare una ricerca dell’ultimo minuto fino alle 13:30 e completare l’acquisto entro le 13:55 per garantire che il piano sia pronto entro le 14:00.
-
Durata della prenotazione e quantità di istanze: i piani di SageMaker formazione consentono di prenotare istanze con opzioni di durata e quantità specifiche. Per i tipi di istanze disponibili in un determinato periodoRegione AWS, tra cui le opzioni relative alla durata e alla quantità, consultaTipi di istanze supportati, Regioni AWS e prezzi.
-
Orario di fine: i piani di addestramento terminano sempre alle 11:30 UTC dell’ultimo giorno della prenotazione.
-
Interruzione del piano di formazione: se utilizzi i lavori di formazione come risorsa target e rimangono 30 minuti in una capacità riservata, i piani di SageMaker formazione avviano il processo di chiusura di tutte le istanze in esecuzione all'interno di quel blocco fino a quando la capacità riservata successiva non diventa attiva. Conservi l’accesso completo al tuo piano di addestramento fino a 30 minuti prima dell’ora di fine dell’ultimo blocco di capacità riservata.
Se la risorsa di destinazione è un SageMaker HyperPod cluster, questo limite di tempo è di un'ora.
SageMaker piani di formazione, flusso di lavoro degli utenti
SageMaker i piani di formazione prevedono i seguenti passaggi:
Fasi amministrative:
-
Ricerca e revisione: trova le offerte di piani disponibili che soddisfano i tuoi requisiti di calcolo, come il tipo di istanza, il conteggio, l’ora di inizio e la durata.
-
Creazione di un piano: prenota un piano di addestramento che soddisfi le tue esigenze utilizzando l’ID dell’offerta del piano prescelto.
-
Pagamento e pianificazione: dopo aver completato il pagamento anticipato, lo stato del piano diventa
Scheduled.
Fasi per gli utenti del piano e gli ingegneri di ML:
-
Allocazione delle risorse: utilizza il tuo piano per mettere in coda i lavori di formazione sull' SageMaker intelligenza artificiale o allocarli a un SageMaker HyperPod gruppo di istanze del cluster.
-
Attivazione: quando viene raggiunta la data di inizio del piano, lo stato diventa
Active. In base alla capacità riservata disponibile, i piani di SageMaker formazione avviano automaticamente i lavori di formazione o forniscono gruppi di istanze.
Nota
Lo stato del piano di addestramento passa da Scheduled a Active quando inizia un periodo di capacità riservata, quindi torna a Scheduled durante l’intervallo di attesa prima dell’inizio del periodo di capacità riservata successivo.
I seguenti diagrammi forniscono una panoramica completa del modo in cui i piani di SageMaker formazione interagiscono tra lorotarget resources, illustrando il ciclo di vita di un piano e il suo ruolo nell'allocazione delle risorse sia per i lavori di formazione che per i cluster. SageMaker SageMaker HyperPod
-
Piani di SageMaker formazione per Training Job: il primo diagramma illustra il end-to-end flusso di lavoro dell'interazione tra un piano di formazione e Training SageMaker Job.
-
Piani di formazione per SageMaker HyperPod cluster: il secondo diagramma illustra il end-to-end flusso di lavoro dell'interazione tra un piano di formazione e un gruppo di istanze. SageMaker HyperPod
Tipi di istanze supportati, Regioni AWS e prezzi
I piani di addestramento supportano le prenotazioni per questi specifici tipi di istanze ad alte prestazioni, ciascuno disponibile in Regioni AWS selezionate:
-
ml.p4d.24xlarge
-
ml.p5.48xlarge
-
ml.p5e.48xlarge
-
ml.p5en.48xlarge
-
ml.trn1.32xlarge
-
ml.trn2.48xlarge
-
ml.p6-b200.48xlarge
-
ml.c6i-32xlargesc
UltraServers
-
ml.p6e-gb200.36xlarge
-
ml.p6e-gb200.72xlarge
Nota
La disponibilità dei tipi di istanze può cambiare nel tempo. Per la maggior parte delle up-to-date informazioni sui tipi di istanze disponibili in base alla regione e sui rispettivi prezzi, consulta la sezione Prezzi. SageMaker
La disponibilità in più Regioni consente di scegliere la posizione più adatta per i carichi di lavoro, prendendo in considerazione fattori quali i requisiti di residenza dei dati e la vicinanza ad altri servizi AWS.
Importante
-
Puoi utilizzare i piani di SageMaker formazione per prenotare le istanze con le seguenti opzioni di durata e quantità di istanze.
-
Le durate delle prenotazioni sono disponibili in incrementi di 1 giorno e vanno da 1 a 182 giorni.
-
Opzioni relative al numero di istanze della prenotazione: 1, 2, 4, 8, 16, 32 o 64.
-
-
Assicurati che i Training Jobs o le quote di HyperPod servizio consentano un numero massimo di istanze per tipo di istanza superiore al numero di istanze specificato nel piano. Per visualizzare le quote correnti o richiedere un aumento della quota, consulta Visualizza le quote dei piani di SageMaker formazione utilizzando la console di gestione AWS.
UltraServers nell'intelligenza artificiale SageMaker
UltraServers nell' SageMaker IA offrono una serie di istanze interconnesse tramite un dominio di rete ad elevata larghezza di banda. Ad esempio, il P6e- GB2 00 UltraServer collega fino a 18 p6e-gb200.36xlarge istanze in un dominio NVIDIA. NVLink Con 4 NVIDIA Blackwell GPUs per istanza, ogni GB2 P6e-00 ne UltraServer supporta 72 GPUs, quindi puoi eseguire i tuoi carichi di lavoro AI più grandi con prestazioni elevate sull'intelligenza artificiale. SageMaker
Quando si utilizza UltraServers con l' SageMaker intelligenza artificiale, si ottengono prestazioni combinate con l'infrastruttura gestita dell' SageMaker IA, le funzionalità integrate di resilienza ai guasti, le funzionalità di monitoraggio integrate e l'integrazione nativa con altri servizi e intelligenza artificiale. SageMaker AWS Questa integrazione ti consente di concentrarti sullo sviluppo e sull'implementazione dei modelli, mentre l' SageMaker intelligenza artificiale si occupa della gestione indifferenziata dell'infrastruttura di intelligenza artificiale.
Nota
UltraServers sono disponibili solo nella zona locale di Dallas (us-east-1-dfw-2a), che è un'estensione della regione Stati Uniti orientali (Virginia settentrionale). Per ulteriori informazioni, vedi Guida introduttiva a s Zona locale AWS
Considerazioni
Quando utilizzi UltraServers l' SageMaker intelligenza artificiale, considera quanto segue:
-
Puoi utilizzarlo sia UltraServers SageMaker HyperPodper lavori di formazione che per lavori di SageMaker formazione.
-
È possibile acquistare UltraServers solo unità complete. Per ulteriori informazioni sull'istanza e sui prezzi, consulta i piani di formazione SageMaker HyperPod flessibili di Amazon nei prezzi di Amazon SageMaker AI
. -
Se utilizzi UltraServers with HyperPod, aggiunge HyperPod automaticamente etichette topologiche alle tue risorse per aiutarti con l'allocazione delle risorse. Per ulteriori informazioni, consulta Usare la pianificazione basata sulla topologia in Amazon. SageMaker HyperPod
-
SageMaker IA e UltraServers offrono diverse funzionalità che migliorano la resilienza dei carichi di lavoro, tra cui controlli preventivi e rilevamento e mitigazione automatici dei guasti. A seconda del problema, l' SageMaker intelligenza artificiale può eseguire azioni per ripristinare i carichi di lavoro, come il riavvio delle istanze, la sostituzione delle istanze fallite con quelle di riserva e la sostituzione delle istanze non riuscite. UltraServers
-
Per una maggiore resilienza, puoi configurare le istanze all'interno di un file da utilizzare come unità di riserva. UltraServer Mantenere un'istanza di riserva all'interno del UltraServer sistema garantisce che l' SageMaker IA possa rispondere rapidamente a un guasto dell'istanza, riducendo al minimo l'impatto sul lavoro. Ti consigliamo di conservare un'istanza di riserva per istanza. UltraServer Non è necessario riservare alcuna istanza di riserva, ma in questo caso si limitano le opzioni di supporto e si rallenta il ripristino in caso di problemi. UltraServers Acquistate all'ingrosso, quindi il numero di pezzi di ricambio che prenotate non influisce sul prezzo.
-
Per visualizzare lo stato e le istanze all'interno di un UltraServer, utilizza il funzionamento dell' ListTrainingPlansAPI o la AWS console per visualizzare i piani di formazione. Con questi strumenti, puoi visualizzare il numero totale di istanze disponibili, le istanze attualmente in uso, le istanze non integre, il numero di unità di riserva configurate e altre informazioni. Gli stati di integrità possibili sono
ok,impairedeinsufficient-data.
SageMaker piani di formazione (comportamento di ricerca)
Quando si cerca un'offerta di piani di formazione, i piani di SageMaker formazione utilizzano il seguente approccio per massimizzare la disponibilità delle risorse e la flessibilità per gli utenti, anche quando la domanda è elevata e i blocchi di capacità riservata sono scarsi:
-
Ricerca continua iniziale: i piani di SageMaker formazione cercano innanzitutto di trovare un singolo blocco continuo di capacità riservata che corrisponda alla durata specificata entro le date di inizio e fine, soddisfacendo al contempo tutti gli altri criteri specificati, tra cui la risorsa di destinazione, il tipo di istanza richiesta e il numero di istanze.
-
Ricerca a due blocchi: i piani di SageMaker formazione non restituiscono il risultato «nessuna capacità» se non è disponibile un singolo blocco di capacità riservata continuo che soddisfa tutti i criteri. Provano invece a rispondere automaticamente alla richiesta utilizzando due blocchi di capacità riservata separati, suddividendo la durata totale in due segmenti temporali.
Questo approccio a due blocchi offre una maggiore flessibilità nell’allocazione delle risorse perché rende possibile ottenere istanze ad alta richiesta che altrimenti non sarebbero disponibili.
Nota
SageMaker i piani di formazione restituiscono fino a tre offerte di uno o due segmenti. Ad esempio, per un piano di 48 ore, i piani di SageMaker formazione potrebbero offrire un piano con due blocchi di 24 ore, un blocco continuo di 48 ore e due blocchi con durata non uniforme.
Considerazioni
Importante
-
I piani di addestramento non possono essere modificati una volta acquistati.
-
I piani di formazione non possono essere condivisi tra più AWS account o all'interno dell'organizzazione. AWS
-
Durante la ricerca di offerte di piani di formazione, i piani di SageMaker formazione adattano la propria strategia di ricerca in base a: target resources
Per SageMaker HyperPod i cluster:
-
Le offerte sono limitate a una singola zona di disponibilità (AZ).
-
Questo garantisce prestazioni di rete e localizzazione dei dati coerenti all’interno del cluster.
Per i lavori SageMaker di formazione:
-
Le offerte possono essere distribuite su più zone di disponibilità.
-
Questo è particolarmente importante quando l’offerta del piano contiene più capacità riservate discontinue.
-
Ad esempio, un piano potrebbe includere la capacità in AZ-A per un blocco di capacità riservata e AZ-B per un altro. SageMaker i piani di formazione possono spostare automaticamente i carichi di lavoro tra le zone di disponibilità (AZs) in base alla disponibilità delle risorse.
Questo approccio Multi-AZ per i job di addestramento offre maggiore flessibilità nell’allocazione delle risorse, aumentando le possibilità di trovare la capacità adeguata per il carico di lavoro. Tuttavia, tieni presente che i tuoi lavori potrebbero svolgersi in modo diverso AZs durante le diverse fasi del periodo di prenotazione.
-
-
Quando viene proposta un’offerta in due blocchi, gli utenti devono valutare attentamente se questa allocazione suddivisa soddisfa i requisiti dei propri carichi di lavoro. Potrebbe essere necessario un adeguamento della pianificazione dei processi o della distribuzione dei carichi di lavoro per tenere conto della natura non continua della prenotazione.