Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Entrenar un modelo con Amazon SageMaker.
El entrenamiento de Amazon SageMaker es un servicio de machine learning (ML) totalmente administrado que SageMaker ofrece y que le ayuda a entrenar de manera eficaz una amplia gama de modelos de ML a escala. El núcleo de los trabajos de SageMaker AI es la creación de contenedores de las cargas de trabajo de ML y la capacidad de administrar los recursos de computación de AWS. La plataforma de entrenamiento de SageMaker se encarga del trabajo pesado asociado a la configuración y la administración de la infraestructura para las cargas de trabajo de entrenamiento de ML. Con el entrenamiento de SageMaker, puede centrarse en desarrollar, entrenar y afinar el modelo. Esta página presenta tres maneras recomendadas de empezar a entrenar un modelo en SageMaker, seguidas de opciones adicionales que puede tener en cuenta.
sugerencia
Para obtener información sobre el entrenamiento de modelos fundacionales para la IA generativa, consulte Use SageMaker JumpStart foundation models in Amazon SageMaker Studio.
Elección de una característica en el entrenamiento de Amazon SageMaker
Hay tres casos de uso principales para el entrenamiento de modelos de ML dentro de SageMaker AI. En esta sección se describen esos casos de uso, así como las características de SageMaker AI que recomendamos para cada caso de uso.
Tanto si está entrenando modelos complejos de aprendizaje profundo como si está implementando algoritmos de machine learning más pequeños, el entrenamiento de SageMaker proporciona soluciones optimizadas y rentables que cumplen con los requisitos de sus casos de uso.
Casos de uso
Los siguientes son los principales casos de uso para entrenar modelos de ML con SageMaker AI.
-
Caso de uso 1: desarrollo de un modelo de machine learning en un entorno sin código o de poco código.
-
Caso de uso 2: uso del código para desarrollar modelos de machine learning con mayor flexibilidad y control.
-
Caso de uso 3: desarrolle modelos de machine learning a escala con la máxima flexibilidad y control.
Características recomendadas
En la siguiente tabla, se describen tres escenarios habituales de modelos de ML de entrenamiento y las opciones correspondientes para empezar a usar el entrenamiento de SageMaker.
| Descriptor | Caso de uso 1 | Caso de uso 2 | Caso de uso 3 |
|---|---|---|---|
| Característica de SageMaker AI | Crear un modelo con Amazon SageMaker Canvas. | Entrene un modelo con uno de los algoritmos de ML integrados de SageMaker AI, como XGBoost o modelos específicos de tareas por SageMaker AI JumpStart con el SageMaker Python SDK. | Entrene un modelo a escala con la máxima flexibilidad, aprovechando el modo de script |
| Descripción | Usar sus propios datos. SageMaker AI ayuda a administrar la creación de modelos de ML y la configuración de la infraestructura y los recursos de entrenamiento. |
Use sus datos y elija uno de los algoritmos de ML integrados que SageMaker AI proporciona. Configure los hiperparámetros del modelo, las métricas de salida y la configuración básica de la infraestructura mediante el SageMaker Python SDK. La plataforma de entrenamiento de SageMaker ayuda a aprovisionar la infraestructura y los recursos de entrenamiento. |
Desarrolle su propio código de ML y llévelo como script o conjunto de scripts a SageMaker AI. Para obtener más información, consulte Computación distribuida con las prácticas recomendadas de SageMaker. Además, puede usar su propio contenedor de Docker. La plataforma de entrenamiento de SageMaker ayuda a aprovisionar la infraestructura y los recursos de entrenamiento a escala en función de su configuración personalizada. |
| Optimizado para |
Desarrollo de modelos con poco código o sin código y basado en la interfaz de usuario con una rápida experimentación con un conjunto de datos de entrenamiento. Cuando crea un modelo personalizado, un algoritmo se selecciona automáticamente en función de sus datos. Para ver opciones de personalización avanzadas, como la selección de algoritmos, consulte las configuraciones avanzadas de creación de modelos. |
Entrene modelos de ML con una personalización de alto nivel para los hiperparámetros, la configuración de la infraestructura y la capacidad de utilizar directamente marcos de ML y scripts de punto de entrada para lograr una mayor flexibilidad. Utilice algoritmos integrados, modelos previamente entrenados y modelos de JumpStart mediante Amazon SageMaker Python SDK |
Cargas de trabajo de entrenamiento en ML a escala, que requieren varias instancias y la máxima flexibilidad. Consulte la computación distribuida con las prácticas recomendadas de SageMaker. SageMaker AI utiliza imágenes de Docker para alojar el entrenamiento y el servicio de todos los modelos. Puede usar cualquier algoritmo externo o de SageMaker AI y usar contenedores de Docker para crear modelos. |
| Consideraciones |
Flexibilidad mínima para personalizar el modelo que Amazon SageMaker Canvas proporciona. |
El SageMaker Python SDK proporciona una interfaz simplificada y menos opciones de configuración en comparación con la API de entrenamiento de SageMaker de bajo nivel. |
Requiere conocimientos sobre la infraestructura de AWS y las opciones de entrenamiento distribuidas. Consulte también Create your own training container con el kit de herramientas de entrenamiento de SageMaker. |
| Entorno recomendado | Use Amazon SageMaker Canvas. Para obtener información sobre cómo configurarlo, consulte Introducción al uso de Amazon SageMaker Canvas. | Utilice SageMaker AI JupyterLab en Amazon SageMaker Studio. Para obtener más información sobre cómo configurarlo, consulte Iniciar Amazon SageMaker Studio. | Utilice SageMaker JupyterLab en Amazon SageMaker Studio. Para obtener más información sobre cómo configurarlo, consulte Iniciar Amazon SageMaker Studio. |
Opciones adicionales
SageMaker AI ofrece las siguientes opciones adicionales para entrenar modelos de ML.
Características de SageMaker AI que ofrecen capacidades de entrenamiento
-
SageMaker AI JumpStart: SageMaker AI JumpStart proporciona acceso al centro de modelos públicos de SageMaker AI que contiene los modelos fundacionales (FM) más recientes patentados y disponibles públicamente. Puede afinar, evaluar e implementar estos modelos en Amazon SageMaker Studio. SageMaker JumpStart agiliza el proceso de aprovechar los modelos fundacionales para sus casos de uso de IA generativa y le permite crear centros de modelos privados para utilizar los modelos fundacionales, al tiempo que impone barreras de protección y garantiza que su organización solo pueda acceder a modelos aprobados. Para empezar a usar SageMaker JumpStart, consulte Modelos fundacionales de Amazon SageMaker JumpStart.
-
SageMaker HyperPod: SageMaker HyperPod es un servicio de clústeres persistentes para casos de uso que necesitan clústeres resilientes para cargas de trabajo masivas de machine learning (ML) y para desarrollar modelos fundacionales (FM) de última generación. Acelera el desarrollo de este tipo de modelos al eliminar el trabajo pesado e indiferenciado que implica la creación y el mantenimiento de clústeres de computación a gran escala basados en miles de aceleradores, como AWS Trainium o las unidades de procesamiento gráfico (GPU) NVIDIA A100 y H100. Puede utilizar un software de administrador de cargas de trabajo, como Slurm, en el HyperPod.
Más características del entrenamiento de SageMaker
-
Ajuste de hiperparámetros: esta característica de SageMaker AI ayuda a definir un conjunto de hiperparámetros para un modelo y a iniciar muchos trabajos de entrenamiento en un conjunto de datos. En función de los valores de los hiperparámetros, es posible que el rendimiento del entrenamiento del modelo varíe. Esta característica proporciona el conjunto de hiperparámetros con mejor rendimiento dentro del rango determinado de hiperparámetros por los que ha configurado la búsqueda.
-
Entrenamiento distribuido: entrene previamente o afine los FM creados con PyTorch, NVIDIA CUDA y otros marcos basados en PyTorch. Para utilizar con eficiencia las instancias de GPU, utilice las bibliotecas de entrenamiento distribuido de SageMaker AI, que ofrecen operaciones de comunicación colectiva y diversas técnicas de paralelismo de modelos, como el paralelismo experto y el paralelismo de datos compartidos, que están optimizadas para la infraestructura de AWS.
-
Características de observabilidad: utilice las funcionalidades de generación de perfiles y depuración del entrenamiento de SageMaker para obtener información sobre las cargas de trabajo del entrenamiento del modelo, el rendimiento de los modelos y el uso de los recursos. Para obtener más información, consulte Depurar y mejorar el rendimiento del modelo y Perfilar y optimizar el rendimiento computacional.
-
Opciones de instancias eficientes y ahorro de costos: para optimizar la eficiencia y el costo de computación para el aprovisionamiento de instancias de entrenamiento, utilice Clústeres heterogéneos, Instancias de spot administradas o Grupos en caliente administrados.