Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Formazione senza checkpointless in Amazon SageMaker HyperPod
La formazione Checkpointless su Amazon SageMaker HyperPod consente un ripristino più rapido dai guasti dell'infrastruttura di formazione. La seguente documentazione ti aiuta a iniziare con la formazione senza checkpoint e la messa a punto per i modelli supportati. NeMo
La formazione Checkpointless ha i seguenti prerequisiti:
-
Inizia a usare il supporto di Amazon EKS in SageMaker HyperPod
-
Installazione dell’operatore di addestramento. È necessario installare la versione 1.2.0 o successiva.
Checkpointless training on SageMaker HyperPod si basa sulla Guida per l'utente di NeMo NVIDIA
Le seguenti HyperPod ricette sono preconfigurate con ottimizzazioni dell'allenamento senza checkpoint. Puoi specificare i percorsi dei dati come parte della ricetta e utilizzare lo script di avvio associato per eseguire la formazione (consulta la guida rapida di avvio di seguito):
| Modello | Metodo | Dimensione | Nodi | Istanza | Accelerator | Recipe | Script | Tutorial |
|---|---|---|---|---|---|---|---|---|
| GPT OSS | Esempio completo di finetune | 120 g | 16 | p5.48xlarge | GPU H100 | collegamento |
collegamento |
collegamento |
| GPT BOSS | Esempio di LoRa | 120 b | 2 | p5.48xlarge | GPU H100 | collegamento |
collegamento |
collegamento |
| Lama 3 | Esempio di pre-allenamento | 70 b | 16 | p5.48xlarge | GPU H100 | collegamento |
collegamento |
collegamento |
| Lama 3 | Esempio di Lora | 70 b | 2 | p5.48xlarge | GPU H100 | collegamento |
collegamento |
collegamento |
La seguente guida rapida fornisce tutorial per l'utilizzo di ricette di formazione senza checkpoint:
Esempi introduttivi
-
Tutorial - Ottimizzazione completa di Amazon SageMaker HyperPod Checkpointless GPT OSS 120b
-
Tutorial - Amazon SageMaker HyperPod Checkpointless Left-LoRa GPT OSS 120b
-
Tutorial - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b
-
Tutorial - Amazon SageMaker HyperPod Checkpointless Left-Lora Llama 3 70b
Se desideri pre-addestrare o perfezionare i modelli personalizzati, consulta. Tutorial - Amazon SageMaker HyperPod Checkpointless, preaddestramento o messa a punto di modelli personalizzati
Per ulteriori informazioni sull'integrazione di componenti di formazione specifici senza checkpoint,. HyperPod funzionalità di formazione senza checkpointless