Formazione senza checkpointless in Amazon SageMaker HyperPod - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Formazione senza checkpointless in Amazon SageMaker HyperPod

La formazione Checkpointless su Amazon SageMaker HyperPod consente un ripristino più rapido dai guasti dell'infrastruttura di formazione. La seguente documentazione ti aiuta a iniziare con la formazione senza checkpoint e la messa a punto per i modelli supportati. NeMo

La formazione Checkpointless ha i seguenti prerequisiti:

Checkpointless training on SageMaker HyperPod si basa sulla Guida per l'utente di NeMo NVIDIA Framework. Puoi eseguire corsi di formazione senza checkpointless con ricette precreate. SageMaker HyperPod Se le conosci NeMo, il processo di utilizzo delle ricette di formazione senza checkpoint è simile. Con piccole modifiche, puoi iniziare ad addestrare un modello utilizzando funzionalità di allenamento senza checkpoint che ti consentono di recuperare rapidamente dagli errori di allenamento.

Le seguenti HyperPod ricette sono preconfigurate con ottimizzazioni dell'allenamento senza checkpoint. Puoi specificare i percorsi dei dati come parte della ricetta e utilizzare lo script di avvio associato per eseguire la formazione (consulta la guida rapida di avvio di seguito):

Modello Metodo Dimensione Nodi Istanza Accelerator Recipe Script Tutorial
GPT OSS Esempio completo di finetune 120 g 16 p5.48xlarge GPU H100 collegamento collegamento collegamento
GPT BOSS Esempio di LoRa 120 b 2 p5.48xlarge GPU H100 collegamento collegamento collegamento
Lama 3 Esempio di pre-allenamento 70 b 16 p5.48xlarge GPU H100 collegamento collegamento collegamento
Lama 3 Esempio di Lora 70 b 2 p5.48xlarge GPU H100 collegamento collegamento collegamento

La seguente guida rapida fornisce tutorial per l'utilizzo di ricette di formazione senza checkpoint:

Esempi introduttivi

Se desideri pre-addestrare o perfezionare i modelli personalizzati, consulta. Tutorial - Amazon SageMaker HyperPod Checkpointless, preaddestramento o messa a punto di modelli personalizzati

Per ulteriori informazioni sull'integrazione di componenti di formazione specifici senza checkpoint,. HyperPod funzionalità di formazione senza checkpointless