Uso de SMDDP en un SageMaker HyperPod Uso de SMP en un clúster SageMaker HyperPod

Ejecutar cargas de trabajo de formación distribuidas con Slurm activado HyperPod

SageMaker HyperPod está especializado en cargas de trabajo relacionadas con el entrenamiento de modelos lingüísticos de gran tamaño (LLMs) y modelos básicos (). FMs Estas cargas de trabajo suelen requerir el uso de varias técnicas de paralelismo y operaciones optimizadas para la infraestructura y los recursos de ML. Con SageMaker HyperPod ellos, puede utilizar los siguientes marcos de entrenamiento distribuidos de SageMaker IA:

La biblioteca de paralelismo de datos distribuidos (SMDDP) de SageMaker IA que ofrece operaciones de comunicación colectiva optimizadas para. AWS
La biblioteca de paralelismo de modelos (SMP) de SageMaker IA que implementa varias técnicas de paralelismo de modelos.

Temas

Uso de SMDDP en un SageMaker HyperPod
Uso de SMP en un clúster SageMaker HyperPod

Uso de SMDDP en un SageMaker HyperPod

La biblioteca de SMDDP es una biblioteca de comunicación colectiva que mejora el rendimiento de computación del entrenamiento de paralelismo de datos distribuidos. La biblioteca de SMDDP funciona con los siguientes marcos de entrenamiento distribuido de código abierto:

La biblioteca SMDDP aborda la sobrecarga de comunicación de las principales operaciones de comunicación colectiva al ofrecer lo siguiente para. SageMaker HyperPod

La biblioteca ofrece ofertas AllGather optimizadas para. AWSAllGatheres una operación clave utilizada en el entrenamiento paralelo de datos fragmentados, que es una técnica de paralelismo de datos eficiente en memoria que ofrecen las bibliotecas populares. Estas incluyen la biblioteca de paralelismo de modelos de SageMaker IA (SMP), el optimizador de redundancia DeepSpeed cero (ZeRO) y el paralelismo de datos totalmente fragmentado (FSDP). PyTorch
La biblioteca ofrece una node-to-node comunicación optimizada al utilizar al máximo la infraestructura de red y la topología de instancias de IA ML. AWS SageMaker

Ejecución de ejemplos de trabajos de entrenamiento de paralelismo de datos

Explore las siguientes muestras de entrenamiento distribuido que implementan técnicas de paralelismo de datos mediante la biblioteca de SMDDP.

Para configurar un entorno para usar la biblioteca SMDDP en SageMaker HyperPod

A continuación se indican los requisitos del entorno de formación para utilizar la biblioteca SMDDP en él. SageMaker HyperPod

PyTorch v2.0.1 y versiones posteriores
CUDA v11.8 y posteriores
Versión de tiempo de ejecución libstdc++ superior a 3
Python v3.10.x y posteriores
ml.p4d.24xlarge y ml.p4de.24xlarge, que son tipos de instancia compatibles con la biblioteca de SMDDP
imdsv2 habilitado en el host de entrenamiento

Según cómo desee ejecutar el trabajo de entrenamiento distribuido, hay dos opciones para instalar la biblioteca de SMDDP:

Una instalación directa mediante el archivo binario de SMDDP.
Uso de los SageMaker AI Deep Learning Containers (DLCs) preinstalados con la biblioteca SMDDP.

Las imágenes de Docker preinstaladas en la biblioteca SMDDP o en los archivos binarios de SMDDP aparecen en la sección Marcos compatibles de la documentación de la biblioteca SMDDP. URLs

Para instalar la biblioteca SMDDP en la DLAMI SageMaker HyperPod

pip install --no-cache-dir https://smdataparallel.s3.amazonaws.com/binary/pytorch/<pytorch-version>/cuXYZ/YYYY-MM-DD/smdistributed_dataparallel-X.Y.Z-cp310-cp310-linux_x86_64.whl
nota
Si trabaja en un entorno Conda, asegúrese de instalar utilizando en lugar de. PyTorch conda install pip
```
conda install pytorch==X.Y.Z  torchvision==X.Y.Z torchaudio==X.Y.Z pytorch-cuda=X.Y.Z -c pytorch -c nvidia
```

Uso de la biblioteca de SMDDP en un contenedor de Docker

La biblioteca SMDDP viene preinstalada en los SageMaker AI Deep Learning Containers (). DLCs Para encontrar la lista de marcos DLCs de SageMaker IA compatibles PyTorch con la biblioteca SMDDP, consulte los marcos compatibles en la documentación de la biblioteca SMDDP. También puede traer su propio contenedor de Docker con las dependencias necesarias instaladas para usar la biblioteca de SMDDP. Para obtener más información sobre cómo configurar un contenedor de Docker personalizado para usar la biblioteca de SMDDP, consulte también Creación de contenedor de Docker propio con la biblioteca de paralelismo de datos distribuidos de SageMaker AI.
importante
Para usar la biblioteca de SMDDP en un contenedor de Docker, monte el directorio /var/log de la máquina host en /var/log en el contenedor. Esto se puede hacer añadiendo la siguiente opción al ejecutar el contenedor.
```
docker run <OTHER_OPTIONS> -v /var/log:/var/log ...
```

Para obtener más información sobre cómo ejecutar trabajos de entrenamiento de paralelismo de datos con SMDDP en general, consulte Entrenamiento distribuido con la biblioteca de paralelismo de datos distribuidos de SageMaker AI.

Uso de SMP en un clúster SageMaker HyperPod

La biblioteca de paralelismo de modelos (SMP) de SageMaker IA ofrece varias técnicas de paralelismo de state-of-the-artmodelos, entre las que se incluyen:

paralelismo de datos totalmente particionados
paralelismo experto
entrenamiento mixto de precisión con/y tipos de datos FP16 BF16 FP8
paralelismo de tensores

La biblioteca SMP también es compatible con marcos de código abierto como PyTorch FSDP, NVIDIA Megatron y NVIDIA Transformer Engine.

Ejecución de un ejemplo de carga de trabajo de entrenamiento de paralelismo de modelos

Los equipos de servicios de SageMaker IA ofrecen ejemplos de trabajos de formación que implementan el paralelismo de modelos con la biblioteca SMP en. awsome-distributed-training/3.test_cases/17.SM-modelparallelv2

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ejecución de contenedores de Docker

Supervisión de los recursos del clúster