Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Notas de lanzamiento del Compilador de entrenamiento de Amazon SageMaker
importante
Amazon Web Services (AWS) anuncia que no habrá nuevos lanzamientos o versiones del Compilador de entrenamiento de SageMaker. Puede seguir utilizando el Compilador de entrenamiento de SageMaker a través de los contenedores de aprendizaje profundo (DLC) de AWS existentes para entrenamiento de SageMaker. Es importante tener en cuenta que, si bien los DLC existentes siguen siendo accesibles, ya no recibirán parches ni actualizaciones de AWS, de acuerdo con la Política de compatibilidad del marco de contenedores de aprendizaje profundo de AWS.
Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones del Compilador de entrenamiento de Amazon SageMaker.
Notas de la versión del compilador de entrenamiento de SageMaker: 13 de febrero de 2023
Actualizaciones de divisas
Se ha añadido compatibilidad con PyTorch v1.13.1
Correcciones de errores
-
Se ha corregido un problema relacionado con las condiciones de carrera de la GPU que provocaba la pérdida de NAN en algunos modelos, como los modelos con transformador de visión (ViT).
Otros cambios:
-
El Compilador de entrenamiento de Sagemaker mejora el rendimiento al permitir que PyTorch/XLA anule automáticamente los optimizadores (como SGD, Adam, AdamW) en
torch.optimotransformers.optimizationcon sus versiones sin sincronización entorch_xla.amp.syncfree(comotorch_xla.amp.syncfree.SGD,torch_xla.amp.syncfree.Adam,torch_xla.amp.syncfree.AdamW). No tiene que cambiar las líneas de código en las que define los optimizadores en su script de entrenamiento.
Migración a contenedores de aprendizaje profundo de AWS
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con el Compilador de entrenamiento de Amazon SageMaker, consulte Marcos, Regiones de AWS, tipos de instancias y modelos probados compatibles .
Notas de la versión del compilador de entrenamiento de SageMaker: 9 de enero de 2023
Cambios bruscos
-
tf.keras.optimizers.Optimizerapunta a un nuevo optimizador en TensorFlow 2,11.0 y posteriores. Los antiguos optimizadores se trasladan atf.keras.optimizers.legacy. Es posible que se produzca un fallo en el trabajo debido al cambio de ruptura cuando haga lo siguiente.-
Cargar puntos de control de un optimizador antiguo. Le recomendamos que cambie a utilizar los optimizadores heredados.
-
Use TensorFlow v1. Le recomendamos que migre a TensorFlow v2, o que cambie a los optimizadores heredados si necesita seguir utilizando TensorFlow v1.
Para obtener una lista más detallada de los cambios en el optimizador, consulte las notas de la versión oficial de TensorFlow v2.11.0
en el repositorio GitHub de TensorFlow. -
Migración a contenedores de aprendizaje profundo de AWS
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con el Compilador de entrenamiento de Amazon SageMaker, consulte Marcos, Regiones de AWS, tipos de instancias y modelos probados compatibles .
Notas de la versión del compilador de entrenamiento de SageMaker: 8 de diciembre de 2022
Correcciones de errores
-
Se ha corregido la semilla para los trabajos de entrenamiento de PyTorch que inician PyTorch v1.12 para garantizar que no haya discrepancias en la inicialización del modelo en diferentes procesos. Consulte también Reproducibilidad de PyTorch
. -
Se solucionó el problema que provocaba que los trabajos de entrenamiento distribuidos de PyTorch en las instancias G4dn y G5 no se comunicaran de forma predeterminada a través de PCIe
.
Problemas conocidos
-
El uso inadecuado de las API PyTorch/XLA en los transformadores de visión de Hugging Face podría provocar problemas de convergencia.
Otros cambios
-
Cuando utilice la clase
Trainerde Hugging Face Transformers, asegúrese de que utiliza optimizadores SyncFree estableciendo el argumentooptimenadamw_torch_xla. Para obtener más información, consulte Grandes modelos lingüísticos mediante la clase Trainer de Hugging Face Transformers. Consulte también Optimizeren la documentación de Hugging Face Transformers.
Migración a contenedores de aprendizaje profundo de AWS
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:
-
PyTorch v1.12.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con el Compilador de entrenamiento de Amazon SageMaker, consulte Marcos, Regiones de AWS, tipos de instancias y modelos probados compatibles .
Notas de la versión del compilador de entrenamiento de SageMaker: 4 de octubre de 2022
Actualizaciones de divisas
-
Se ha agregado compatibilidad con TensorFlow v2.10.0.
Otros cambios:
-
Se ha añadido los modelos de Hugging Face NLP que utilizan la biblioteca Transformers a las pruebas del marco de TensorFlow. Para encontrar los modelos de Transformer probados, consulte Modelos probados.
Migración a contenedores de aprendizaje profundo de AWS
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con el Compilador de entrenamiento de Amazon SageMaker, consulte Marcos, Regiones de AWS, tipos de instancias y modelos probados compatibles .
Notas de la versión del compilador de entrenamiento de SageMaker: 1 de septiembre de 2022
Actualizaciones de divisas
-
Se ha añadido compatibilidad con Hugging Face Transformers v4.21.1 con PyTorch v1.11.0.
Mejoras
-
Se ha implementado un nuevo mecanismo de lanzamiento de entrenamiento distribuido para activar el Compilador de entrenamiento de SageMaker para modelos Hugging Face Transformer con PyTorch. Para obtener más información, consulte Ejecutar trabajos de entrenamiento de PyTorch con el Compilador de entrenamiento de SageMaker para entrenamiento distribuido.
-
Se ha integrado con EFA para mejorar la comunicación colectiva en el entrenamiento distribuido.
-
Se ha añadido compatibilidad con instancias G5 para trabajos de entrenamiento de PyTorch. Para obtener más información, consulte Marcos, Regiones de AWS, tipos de instancias y modelos probados compatibles .
Migración a contenedores de aprendizaje profundo de AWS
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:
-
HuggingFace v4.21.1 con PyTorch v1.11.0
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04Para obtener una lista completa de los contenedores prediseñados con el Compilador de entrenamiento de Amazon SageMaker, consulte Marcos, Regiones de AWS, tipos de instancias y modelos probados compatibles .
Notas de la versión del compilador de entrenamiento de SageMaker: 14 de junio de 2022
Nuevas características
-
Se ha agregado compatibilidad con TensorFlow v2.9.1. Compilador de entrenamiento de SageMaker es compatible totalmente con la compilación de módulos TensorFlow (
tf.*) y módulos TensorFlow Keras (tf.keras.*). -
Se ha añadido compatibilidad con contenedores personalizados creados mediante la ampliación de Contenedores de aprendizaje profundo de AWSpara TensorFlow. Para obtener más información, consulte Enable SageMaker Training Compiler Using the SageMaker Python SDK and Extending SageMaker AI Framework Deep Learning Containers.
-
Se ha añadido compatibilidad con instancias G5 para trabajos de entrenamiento de TensorFlow.
Migración a contenedores de aprendizaje profundo de AWS
Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:
-
TensorFlow 2,9.1
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerPara obtener una lista completa de los contenedores prediseñados con el Compilador de entrenamiento de Amazon SageMaker, consulte Marcos, Regiones de AWS, tipos de instancias y modelos probados compatibles .
Notas de la versión del compilador de entrenamiento de SageMaker: 26 de abril de 2022
Mejoras
-
Se ha añadido compatibilidad con todas las Regiones de AWS en las que están en servicio los contenedores de aprendizaje profundo de AWS
excepto China.
Notas de la versión del compilador de entrenamiento de SageMaker: 12 de abril de 2022
Actualizaciones de divisas
-
Se ha añadido compatibilidad con Hugging Face Transformers v4.17.0 con TensorFlow v2.6.3 y PyTorch v1.10.2.
Notas de la versión del compilador de entrenamiento de SageMaker: 21 de febrero de 2022
Mejoras
-
Se ha completado la prueba comparativa y se ha confirmado la aceleración del entrenamiento en los tipos de instancia de
ml.g4dn. Para obtener una lista completa de las instancias demlprobadas, consulte Tipos de instancias admitidos.
Notas de la versión del compilador de entrenamiento de SageMaker: 01 de diciembre de 2021
Nuevas características
Se ha lanzado el Compilador de entrenamiento de Amazon SageMaker en AWS re:Invent 2021.
Migración a contenedores de aprendizaje profundo de AWS
El Compilador de entrenamiento de Amazon SageMaker ha superado las pruebas de referencia y se ha migrado a Contenedores de aprendizaje profundo de AWS. Para obtener una lista completa de los contenedores prediseñados con el Compilador de entrenamiento de Amazon SageMaker, consulte Marcos, Regiones de AWS, tipos de instancias y modelos probados compatibles .