Notes de mises à jour Amazon SageMaker Training Compiler - Amazon SageMaker AI

Notes de mises à jour Amazon SageMaker Training Compiler

Important

Amazon Web Services (AWS) annonce qu’il n’y aura aucune nouvelle mise à jour ou version de SageMaker Training Compiler. Vous pouvez continuer à utiliser SageMaker Training Compiler via les AWS Deep Learning Containers (DLC) existants pour SageMaker Training. Il est important de noter que même si les DLC existants restent accessibles, ils ne recevront plus de correctifs ni de mises à jour d’AWS, conformément à la politique de support du Framework AWS Deep Learning Containers.

Consultez les notes de mise à jour suivantes pour suivre les dernières mises à jour relatives à Amazon SageMaker Training Compiler.

Notes de mises à jour du compilateur d’entraînement SageMaker : 13 février 2023

Mises à jour des devises
  • Ajout de la prise en charge de PyTorch v1.13.1

Correctifs de bogue
  • Correction d’un problème lié aux conditions de concurrence sur le GPU qui entraînait une perte de NAN sur certains modèles, tels que les modèles de transformeur de vision (ViT).

Autres modifications
  • Le compilateur d’entraînement SageMaker améliore les performances en permettant à PyTorch/XLA de remplacer automatiquement les optimiseurs (tels que SGD, Adam, AdamW) dans torch.optim ou transformers.optimization ou avec leurs versions sans synchronisation dans torch_xla.amp.syncfree (telles que torch_xla.amp.syncfree.SGD, torch_xla.amp.syncfree.Adam ou torch_xla.amp.syncfree.AdamW). Vous n’avez pas besoin de modifier les lignes de code dans lesquelles vous définissez les optimiseurs dans votre script d’entraînement.

Migration vers AWS Deep Learning Containers

Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :

Notes de publication de SageMaker Training Compiler : 9 janvier 2023

Évolutions

  • tf.keras.optimizers.Optimizer pointe vers un nouvel optimiseur dans TensorFlow 2.11.0 et versions ultérieures. Les anciens optimiseurs sont déplacés vers tf.keras.optimizers.legacy. Vous risquez de rencontrer un échec de tâche en raison de cette évolution lorsque vous effectuez les opérations suivantes.

    • Chargement de points de contrôle à partir d’un ancien optimiseur. Nous vous recommandons de passer aux optimiseurs hérités.

    • Utilisation de TensorFlow v1. Nous vous recommandons de migrer vers TensorFlow v2 ou de passer aux optimiseurs hérités si vous devez continuer à utiliser TensorFlow v1.

    Pour obtenir une liste plus détaillée des évolutions provenant des modifications d’optimiseur, consultez les notes de mises à jour officielles de TensorFlow v2.11.0 dans le référentiel GitHub de TensorFlow.

Migration vers AWS Deep Learning Containers

Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :

Notes de mises à jour SageMaker Training Compiler : 8 décembre 2022

Correctifs de bogue

  • Correction de la valeur des tâches d’entraînement PyTorch à partir de PyTorch v1.12 afin de garantir qu’il n’y ait aucune différence dans l’initialisation du modèle entre les différents processus. Consultez également PyTorch Reproductibility (Reproductibilité PyTorch).

  • Correction du problème qui empêchait la communication par défaut via PCIe pour les tâches d’entraînement distribué par PyTorch sur les instances G4dn et G5.

Problèmes connus

  • Une utilisation incorrecte des API PyTorch/XLA dans les transformateurs de vision de Hugging Face peut entraîner des problèmes de convergence.

Autres modifications

Migration vers AWS Deep Learning Containers

Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :

Notes de mises à jour de SageMaker Training Compiler : 4 octobre 2022

Mises à jour des devises
  • Ajout de la prise en charge de TensorFlow v2.10.0.

Autres modifications
  • Ajout de modèles Hugging Face NLP utilisant la bibliothèque Transformers aux tests de framework TensorFlow. Pour trouver les modèles de transformateur testés, consultez la section Modèles testés.

Migration vers AWS Deep Learning Containers

Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :

Notes de mises à jour de SageMaker Training Compiler : 1er septembre 2022

Mises à jour des devises
  • Ajout de la prise en charge de Hugging Face Transformers v4.21.1 avec PyTorch v1.11.0.

Améliorations
Migration vers AWS Deep Learning Containers

Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :

Notes de mises à jour de SageMaker Training Compiler : 14 juin 2022

Nouvelles fonctions
Migration vers AWS Deep Learning Containers

Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :

Notes de mises à jour de SageMaker Training Compiler : 26 avril 2022

Améliorations

Notes de mises à jour de SageMaker Training Compiler : 12 avril 2022

Mises à jour des devises
  • Ajout de la prise en charge de Hugging Face Transformers v4.17.0 avec TensorFlow v2.6.3 et PyTorch v1.10.2.

Notes de mises à jour SageMaker Training Compiler : 21 février 2022

Améliorations
  • Test d’évaluation terminé et accélérations d’entraînement confirmées sur les types d’instances ml.g4dn. Pour une liste complète des instances ml testées, consultez Types d’instance pris en charge.

Notes de mises à jour SageMaker Training Compiler : 1er décembre 2021

Nouvelles fonctions
  • Lancement de Amazon SageMaker Training Compiler à l’occasion de l’AWS re:Invent 2021.

Migration vers AWS Deep Learning Containers