View a markdown version of this page

SageMaker biblioteca de paralelismo de modelos v2 - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker biblioteca de paralelismo de modelos v2

nota

Desde el lanzamiento de la versión 2.0.0 de la biblioteca de paralelismo de SageMaker modelos (SMP) el 19 de diciembre de 2023, esta documentación se ha renovado para la biblioteca SMP v2. Para ver las versiones anteriores de la biblioteca de SMP, consulte Biblioteca de paralelismo de SageMaker modelos v1.x (Archivada).

La biblioteca de paralelismo de modelos de SageMaker IA de Amazon es una capacidad de la SageMaker IA que permite un entrenamiento optimizado a gran escala y de alto rendimiento en instancias de cómputo aceleradas por SageMaker IA. Las Características principales de la biblioteca de paralelismo de SageMaker modelos v2 incluyen técnicas y optimizaciones para acelerar y simplificar el entrenamiento de modelos grandes, como paralelismo híbrido de datos particionados, paralelismo de tensores, puntos de comprobación de activación y descarga de activaciones. Puede utilizar la biblioteca de SMP para acelerar el entrenamiento y el refinamiento de modelos de lenguaje de gran tamaño (LLM), modelos de visión amplia (LVM) y modelos fundacionales (FM) con cientos de miles de millones de parámetros.

La biblioteca de paralelismo de SageMaker modelos v2 (SMP v2) alinea las API y los métodos de la biblioteca con el paralelismo de datos PyTorch totalmente fragmentado (FSDP) de código abierto, lo que le brinda la ventaja de optimizar el rendimiento de la SMP con cambios mínimos en el código. Con SMP v2, puede mejorar el rendimiento computacional del entrenamiento de un modelo grande de última generación sobre IA al incorporar sus guiones de entrenamiento del FSDP a la IA. SageMaker PyTorch SageMaker

Puedes usar SMP v2 para los trabajos de SageMaker formación generales y para distribuir las cargas de trabajo de formación en clústeres. Amazon SageMaker HyperPod