Prerequisiti Configurazione dell'ambiente Kubernetes Lanciatore di ricette Kubectl

Tutorial - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b

La seguente sequenza di passaggi è necessaria per eseguire ricette di allenamento senza checkpoint. HyperPod

Prerequisiti

Prima di iniziare a configurare l’ambiente, assicurati di avere:

Supporto Amazon EKS abilitato in Amazon SageMaker HyperPod
Configura l'operatore HyperPod di formazione (v1.2+)
Una posizione di archiviazione condivisa. Può essere un FSx file system Amazon o un sistema NFS accessibile dai nodi del cluster.
I dati in uno dei seguenti formati:
- JSON
- JSONGZ (JSON compresso)
- ARROW
Scegli una ricetta di formazione supportata senza checkpoint per Llama 70B o GPT-OSS 120B dalla fonte.
Scaricate i pesi del modello Hugging Face e convertiteli nel formato supportato da Nemo.
Configurare l’ambiente

Configurazione dell'ambiente Kubernetes

Per configurare l'ambiente Kubernetes, procedi come segue:

Configura l’ambiente virtuale. Assicurati di usare Python maggiore o uguale a 3.10 e inferiore a 3.14.
```
python3 -m venv ${PWD}/venv
source venv/bin/activate
```
Configura kubectl ed eksctl
Installa Helm

Connettiti al cluster Kubernetes.


aws eks update-kubeconfig --region "${CLUSTER_REGION}" --name "${CLUSTER_NAME}"

Installa le dipendenze utilizzando uno dei metodi seguenti:

Metodo 1: metodo SageMaker HyperPod delle ricette:


# install SageMaker HyperPod Recipes.
git clone --recursive git@github.com:aws/sagemaker-hyperpod-recipes.git
cd sagemaker-hyperpod-recipes
pip3 install -r requirements.txt

Metodo 2: kubectl con metodo job yaml predefinito


# install SageMaker HyperPod checkpointless training.
git clone git@github.com:aws/sagemaker-hyperpod-checkpointless-training.git
cd sagemaker-hyperpod-checkpointless-training

Ora puoi lanciare la ricetta di allenamento senza checkpointless usando il programma di avvio -style o usando kubectl. NeMo

Metodo 1: avvia il processo di formazione con il programma di avvio delle ricette

In alternativa, puoi utilizzare le SageMaker HyperPod ricette per inviare il tuo lavoro di formazione. L'uso delle ricette comporta l'aggiornamento di k8s.yaml, config.yaml e l'esecuzione dello script di avvio.

Aggiornamento di launcher_scripts/llama/run_checkpointless_llama3_70b_pretrain.sh

Un contenitore di Deep Learning. Per trovare la versione più recente del contenitore di formazione checkpointless, consulta le note sulla versione di checkpointless training.


#!/bin/bash

SAGEMAKER_TRAINING_LAUNCHER_DIR=${SAGEMAKER_TRAINING_LAUNCHER_DIR:-"$(pwd)"}
TRAIN_DIR="${TRAIN_DIR}"
VAL_DIR="${VAL_DIR}"
EXP_DIR="${EXP_DIR}"
LOG_DIR="${LOG_DIR}"
CONTAINER_MOUNT="/data"
CONTAINER="${CONTAINER}"

HYDRA_FULL_ERROR=1 python3 "${SAGEMAKER_TRAINING_LAUNCHER_DIR}/main.py" \
    recipes=training/llama/checkpointless_llama3_70b_pretrain \
    recipes.dataset.dataset_path="${TRAIN_DIR}" \
    recipes.exp_manager.exp_dir="${EXP_DIR}" \
    recipes.log_dir="${LOG_DIR}" \
    recipes.data.global_batch_size=16 \
    recipes.data.micro_batch_size=4 \
    base_results_dir="${SAGEMAKER_TRAINING_LAUNCHER_DIR}/results" \
    git.use_default=false \
    cluster=k8s \
    cluster_type=k8s \
    container="${CONTAINER}" \
    +cluster.hostNetwork=true \
    +cluster.persistent_volume_claims.0.claimName=fsx-claim \
    +cluster.persistent_volume_claims.0.mountPath="${CONTAINER_MOUNT}" \
    +recipes.dataset.val_dataset_path="${VAL_DIR}" \
    ++recipes.callbacks.3.test_fault_config.fault_prob_between_lock=1 \

Avvio del job di addestramento


bash launcher_scripts/llama/run_checkpointless_llama3_70b_pretrain.sh

Dopo aver inviato il job di addestramento, puoi utilizzare il comando seguente per verificare se l’invio è riuscito.


kubectl get pods

NAME                             READY   STATUS             RESTARTS        AGE
llama-3-70b-worker-0             0/1    running               0            36s

Se lo STATUS è in sospeso o ContainerCreating, esegui il comando seguente per ottenere maggiori dettagli
```
kubectl describe pod <name of pod>
```
Quando lo STATUS del processo diventa Running, puoi esaminare il log utilizzando il comando seguente.
```
kubectl logs <name of pod>
```
Lo STATUS diventerà Completato quando esegui kubectl get pods

Metodo 2: Avvia il processo di formazione con kubectl con yaml predefinito

Un'altra opzione è avviare la formazione tramite kubectl con un job predefinito yaml.

Aggiornamento di examples/llama3/launch/pretrain_llama3_70b_checkpointless_p5.yaml
- image: un container per il Deep Learning. Per trovare la versione più recente del contenitore di formazione checkpointless, consulta le note sulla versione di checkpointless training.
- resume.restore_config.path=<path_to_pretrained_weights>: Il percorso per scaricare i pesi dei modelli preaddestrati in formato Nemo nella fase Prerequisiti.
- dataset.dataset_path=<path_to_dataset>: Il percorso del set di dati archiviato nella memoria condivisa

Invia il lavoro usando kubectl con pretrain_llama3_70b_checkpointless_p5.yaml


kubectl apply -f examples/llama3/launch/pretrain_llama3_70b_checkpointless_p5.yaml

Dopo aver inviato il job di addestramento, puoi utilizzare il comando seguente per verificare se l’invio è riuscito.


kubectl get pods

NAME                                             READY   STATUS             RESTARTS        AGE
llama3-pretrain-checkpointless-worker-0             0/1    running               0            36s

Se lo STATUS è in sospeso o ContainerCreating, esegui il seguente comando per ottenere maggiori dettagli
```
kubectl describe pod <name of pod>
```
Quando lo STATUS del processo diventa Running, puoi esaminare il log utilizzando il comando seguente.
```
kubectl logs <name of pod>
```
Lo STATUS diventerà Completato quando esegui kubectl get pods

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Leaft-LoRa GPT OSS 120 g

Left-Lora Llama 3 70g