Ejecución del entrenamiento distribuido con la biblioteca de paralelismo de datos distribuidos de SageMaker AI - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecución del entrenamiento distribuido con la biblioteca de paralelismo de datos distribuidos de SageMaker AI

La biblioteca de paralelismo de datos distribuidos (SMDDP) de SageMaker AI amplía las capacidades del entrenamiento de SageMaker en modelos de aprendizaje profundo con eficiencia de escalado casi lineal proporcionando implementaciones de operaciones de comunicación colectiva optimizadas para la infraestructura de AWS.

Al entrenar modelos de machine learning (ML) de gran tamaño, como los modelos de lenguaje de gran tamaño (LLM) y los modelos de difusión, en un enorme conjunto de datos de entrenamiento, los profesionales de ML utilizan clústeres de aceleradores y técnicas de entrenamiento distribuido para reducir el tiempo de entrenamiento o resolver las limitaciones de memoria de los modelos que no caben en la memoria de cada GPU. Los profesionales de ML suelen empezar con varios aceleradores en una sola instancia y, después, escalarlos a clústeres de instancias a medida que aumentan sus requisitos de carga de trabajo. A medida que aumenta el tamaño del clúster, también lo hace la sobrecarga de comunicación entre varios nodos, lo que conduce a una disminución del rendimiento de computación general.

Para solucionar estos problemas de sobrecarga y memoria, la biblioteca de SMDDP ofrece lo siguiente.

  • La biblioteca de SMDDP optimiza los trabajos de entrenamiento para la infraestructura de red de AWS y la topología de instancias de ML de Amazon SageMaker AI.

  • La biblioteca de SMDDP mejora la comunicación entre nodos con implementaciones de operaciones de comunicación colectiva AllReduce y AllGather optimizadas para la infraestructura de AWS.

Para obtener más información sobre los detalles de las ofertas de bibliotecas de SMDDP, consulte Introducción a la biblioteca de paralelismo de datos distribuidos de SageMaker AI.

Para obtener más información sobre el entrenamiento con la estrategia paralelismo de modelos que ofrece SageMaker AI, consulte también (Archivado) Biblioteca de paralelismo de modelos de SageMaker v1.x.