Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Tutorials — Vollständige Feinabstimmung von Amazon SageMaker HyperPod Checkpointless GPT OSS 120b
Die folgende Abfolge von Schritten ist erforderlich, um Trainingsrezepte ohne Checkpoint ausführen zu können. HyperPod
Voraussetzungen
Bevor Sie mit der Einrichtung Ihrer Umgebung beginnen, stellen Sie sicher, dass Sie über Folgendes verfügen:
Amazon EKS-Unterstützung in Amazon aktiviert SageMaker HyperPod
Ein gemeinsam genutzter Speicherort. Es kann sich um ein FSx Amazon-Dateisystem oder ein NFS-System handeln, auf das von den Clusterknoten aus zugegriffen werden kann.
-
Daten in einem der folgenden Formate:
JSON
JSONGZ (komprimiertes JSON)
ARROW
Laden Sie die Gewichte des Modells Hugging Face herunter und konvertieren Sie es in das von Nemo unterstützte Format.
Einrichtung Ihrer Umgebung
Einrichtung der Kubernetes-Umgebung
Gehen Sie wie folgt vor, um Ihre Kubernetes-Umgebung einzurichten:
-
Richten Sie die virtuelle Umgebung ein. Stellen Sie sicher, dass Ihre Version von Python größer oder gleich 3.10 und niedriger als 3.14 ist.
python3 -m venv ${PWD}/venv source venv/bin/activate -
Verbinden mit Ihrem Kubernetes-Cluster
aws eks update-kubeconfig --region "${CLUSTER_REGION}" --name "${CLUSTER_NAME}" -
Installieren Sie Abhängigkeiten mit einer der folgenden Methoden:
-
Methode 1: SageMaker HyperPod Rezeptmethode:
# install SageMaker HyperPod Recipes. git clone --recursive git@github.com:aws/sagemaker-hyperpod-recipes.git cd sagemaker-hyperpod-recipes pip3 install -r requirements.txt -
Methode 2: kubectl mit vordefinierter Job-Yaml-Methode
# install SageMaker HyperPod checkpointless training. git clone git@github.com:aws/sagemaker-hyperpod-checkpointless-training.git cd sagemaker-hyperpod-checkpointless-training
-
Sie können das Checkpointless-Trainingsrezept jetzt entweder mit dem Launcher im -style oder mit kubectl starten. NeMo
Starten Sie Trainingsjobs mit dem Recipes-Launcher
Sie können die SageMaker HyperPod Amazon-Rezepte verwenden, um Ihren Ausbildungsjob einzureichen. Die Verwendung der Rezepte beinhaltet die Aktualisierung von k8s.yaml, config.yaml und die Ausführung des Startskripts.
-
Aktualisieren:
launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_full_fine_tuning.shyour_container: Ein Deep-Learning-Container. Die neueste Version des Checkpointless Training Containers finden Sie in den Versionshinweisen zu Checkpointless Training.
#!/bin/bash SAGEMAKER_TRAINING_LAUNCHER_DIR=${SAGEMAKER_TRAINING_LAUNCHER_DIR:-"$(pwd)"} TRAIN_DIR="${TRAIN_DIR}" VAL_DIR="${VAL_DIR}" EXP_DIR="${EXP_DIR}" LOG_DIR="${LOG_DIR}" CONTAINER_MOUNT="/data" CONTAINER="${CONTAINER}" MODEL_NAME_OR_PATH="${MODEL_NAME_OR_PATH}" HYDRA_FULL_ERROR=1 python3 "${SAGEMAKER_TRAINING_LAUNCHER_DIR}/main.py" \ recipes=fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_full_fine_tuning \ recipes.dataset.dataset_path="${TRAIN_DIR}" \ recipes.exp_manager.exp_dir="${EXP_DIR}" \ recipes.log_dir="${LOG_DIR}" \ recipes.resume.restore_config.path="${MODEL_NAME_OR_PATH}" \ base_results_dir="${SAGEMAKER_TRAINING_LAUNCHER_DIR}/results" \ git.use_default=false \ cluster=k8s \ cluster_type=k8s \ container="${CONTAINER}" \ +cluster.hostNetwork=true \ +cluster.persistent_volume_claims.0.claimName=fsx-claim \ +cluster.persistent_volume_claims.0.mountPath="${CONTAINER_MOUNT}" \ +recipes.dataset.val_dataset_path="${VAL_DIR}" \ ++recipes.callbacks.3.test_fault_config.fault_prob_between_lock=1 \ -
Starten eines Trainingsjobs
bash launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_full_fine_tuning.sh
Nachdem Sie den Trainingsjob eingereicht haben, können Sie mit dem folgenden Befehl überprüfen, ob die Übermittlung erfolgreich war.
kubectl get pods NAME READY STATUS RESTARTS AGE gpt-oss-120b-worker-0 0/1 running 0 36s
Wenn der STATUS auf PENDING oder steht ContainerCreating, führen Sie den folgenden Befehl aus, um weitere Informationen zu erhalten
kubectl describe pod <name of pod>
Nachdem der Job-STATUS zu „Laufend“ geändert wurde, können Sie das Protokoll mit dem folgenden Befehl überprüfen.
kubectl logs <name of pod>
Der STATUS wechselt zu COMPLETED, wenn Sie kubectl get pods ausführen.
Starten Sie den Trainingsjob mit kubectl mit vordefiniertem Yaml
Eine weitere Option besteht darin, das Training über kubectl mit einem vordefinierten Job-Yaml zu starten.
-
aktualisiere die examples/gpt_oss/launch/full Datei _finetune_gpt_oss_120b_checkpointless_p5.yaml
Bild: Ein Deep-Learning-Container. Die neueste Version des Checkpointless-Trainingscontainers finden Sie in den Versionshinweisen zu Checkpointless Training.
resume.restore_config.path=: Der Pfad zu den heruntergeladenen vortrainierten Modellgewichten im Nemo-Format im Schritt Voraussetzungen. <path_to_pretrained_weights>
<path_to_dataset>dataset.dataset_path=: Der Pfad zu dem Datensatz, der im gemeinsam genutzten Speicher gespeichert wurde
-
Reichen Sie den Job mithilfe von kubectl mit full_finetune_gpt_oss_120b_checkpointless_p5.yaml ein
kubectl apply -f examples/gpt_oss/launch/full_finetune_gpt_oss_120b_checkpointless_p5.yaml
Nachdem Sie den Trainingsjob eingereicht haben, können Sie mit dem folgenden Befehl überprüfen, ob die Übermittlung erfolgreich war.
kubectl get pods NAME READY STATUS RESTARTS AGE gpt-oss-120b-worker-0 0/1 running 0 36s
Wenn der STATUS auf PENDING oder steht, führen Sie den folgenden Befehl aus, um weitere Informationen zu erhalten ContainerCreating
kubectl describe pod <name of pod>
Nachdem der Job-STATUS zu „Laufend“ geändert wurde, können Sie das Protokoll mit dem folgenden Befehl überprüfen.
kubectl logs <name of pod>
Der STATUS wechselt zu Abgeschlossen, wenn Sie kubectl get pods ausführen