Notas de lanzamiento del Compilador de entrenamiento de Amazon SageMaker - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Notas de lanzamiento del Compilador de entrenamiento de Amazon SageMaker

importante

Amazon Web Services (AWS) anuncia que no habrá nuevos lanzamientos o versiones del Compilador de entrenamiento de SageMaker. Puede seguir utilizando el Compilador de entrenamiento de SageMaker a través de los contenedores de aprendizaje profundo (DLC) de AWS existentes para entrenamiento de SageMaker. Es importante tener en cuenta que, si bien los DLC existentes siguen siendo accesibles, ya no recibirán parches ni actualizaciones de AWS, de acuerdo con la Política de compatibilidad del marco de contenedores de aprendizaje profundo de AWS.

Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones del Compilador de entrenamiento de Amazon SageMaker.

Notas de la versión del compilador de entrenamiento de SageMaker: 13 de febrero de 2023

Actualizaciones de divisas
  • Se ha añadido compatibilidad con PyTorch v1.13.1

Correcciones de errores
  • Se ha corregido un problema relacionado con las condiciones de carrera de la GPU que provocaba la pérdida de NAN en algunos modelos, como los modelos con transformador de visión (ViT).

Otros cambios:
  • El Compilador de entrenamiento de Sagemaker mejora el rendimiento al permitir que PyTorch/XLA anule automáticamente los optimizadores (como SGD, Adam, AdamW) en torch.optim o transformers.optimization con sus versiones sin sincronización en torch_xla.amp.syncfree (como torch_xla.amp.syncfree.SGD, torch_xla.amp.syncfree.Adam, torch_xla.amp.syncfree.AdamW). No tiene que cambiar las líneas de código en las que define los optimizadores en su script de entrenamiento.

Migración a contenedores de aprendizaje profundo de AWS

Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:

Notas de la versión del compilador de entrenamiento de SageMaker: 9 de enero de 2023

Cambios bruscos

  • tf.keras.optimizers.Optimizer apunta a un nuevo optimizador en TensorFlow 2,11.0 y posteriores. Los antiguos optimizadores se trasladan a tf.keras.optimizers.legacy. Es posible que se produzca un fallo en el trabajo debido al cambio de ruptura cuando haga lo siguiente.

    • Cargar puntos de control de un optimizador antiguo. Le recomendamos que cambie a utilizar los optimizadores heredados.

    • Use TensorFlow v1. Le recomendamos que migre a TensorFlow v2, o que cambie a los optimizadores heredados si necesita seguir utilizando TensorFlow v1.

    Para obtener una lista más detallada de los cambios en el optimizador, consulte las notas de la versión oficial de TensorFlow v2.11.0 en el repositorio GitHub de TensorFlow.

Migración a contenedores de aprendizaje profundo de AWS

Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:

Notas de la versión del compilador de entrenamiento de SageMaker: 8 de diciembre de 2022

Correcciones de errores

  • Se ha corregido la semilla para los trabajos de entrenamiento de PyTorch que inician PyTorch v1.12 para garantizar que no haya discrepancias en la inicialización del modelo en diferentes procesos. Consulte también Reproducibilidad de PyTorch.

  • Se solucionó el problema que provocaba que los trabajos de entrenamiento distribuidos de PyTorch en las instancias G4dn y G5 no se comunicaran de forma predeterminada a través de PCIe.

Problemas conocidos

  • El uso inadecuado de las API PyTorch/XLA en los transformadores de visión de Hugging Face podría provocar problemas de convergencia.

Otros cambios

Migración a contenedores de aprendizaje profundo de AWS

Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:

Notas de la versión del compilador de entrenamiento de SageMaker: 4 de octubre de 2022

Actualizaciones de divisas
  • Se ha agregado compatibilidad con TensorFlow v2.10.0.

Otros cambios:
  • Se ha añadido los modelos de Hugging Face NLP que utilizan la biblioteca Transformers a las pruebas del marco de TensorFlow. Para encontrar los modelos de Transformer probados, consulte Modelos probados.

Migración a contenedores de aprendizaje profundo de AWS

Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:

Notas de la versión del compilador de entrenamiento de SageMaker: 1 de septiembre de 2022

Actualizaciones de divisas
  • Se ha añadido compatibilidad con Hugging Face Transformers v4.21.1 con PyTorch v1.11.0.

Mejoras
Migración a contenedores de aprendizaje profundo de AWS

Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:

Notas de la versión del compilador de entrenamiento de SageMaker: 14 de junio de 2022

Nuevas características
Migración a contenedores de aprendizaje profundo de AWS

Esta versión ha superado las pruebas comparativas y se ha migrado al siguiente contenedor de aprendizaje profundo de AWS:

Notas de la versión del compilador de entrenamiento de SageMaker: 26 de abril de 2022

Mejoras

Notas de la versión del compilador de entrenamiento de SageMaker: 12 de abril de 2022

Actualizaciones de divisas
  • Se ha añadido compatibilidad con Hugging Face Transformers v4.17.0 con TensorFlow v2.6.3 y PyTorch v1.10.2.

Notas de la versión del compilador de entrenamiento de SageMaker: 21 de febrero de 2022

Mejoras
  • Se ha completado la prueba comparativa y se ha confirmado la aceleración del entrenamiento en los tipos de instancia de ml.g4dn. Para obtener una lista completa de las instancias de ml probadas, consulte Tipos de instancias admitidos.

Notas de la versión del compilador de entrenamiento de SageMaker: 01 de diciembre de 2021

Nuevas características
  • Se ha lanzado el Compilador de entrenamiento de Amazon SageMaker en AWS re:Invent 2021.

Migración a contenedores de aprendizaje profundo de AWS