Notes de mises à jour Amazon SageMaker Training Compiler
Important
Amazon Web Services (AWS) annonce qu’il n’y aura aucune nouvelle mise à jour ou version de SageMaker Training Compiler. Vous pouvez continuer à utiliser SageMaker Training Compiler via les AWS Deep Learning Containers (DLC) existants pour SageMaker Training. Il est important de noter que même si les DLC existants restent accessibles, ils ne recevront plus de correctifs ni de mises à jour d’AWS, conformément à la politique de support du Framework AWS Deep Learning Containers.
Consultez les notes de mise à jour suivantes pour suivre les dernières mises à jour relatives à Amazon SageMaker Training Compiler.
Notes de mises à jour du compilateur d’entraînement SageMaker : 13 février 2023
Mises à jour des devises
Ajout de la prise en charge de PyTorch v1.13.1
Correctifs de bogue
-
Correction d’un problème lié aux conditions de concurrence sur le GPU qui entraînait une perte de NAN sur certains modèles, tels que les modèles de transformeur de vision (ViT).
Autres modifications
-
Le compilateur d’entraînement SageMaker améliore les performances en permettant à PyTorch/XLA de remplacer automatiquement les optimiseurs (tels que SGD, Adam, AdamW) dans
torch.optimoutransformers.optimizationou avec leurs versions sans synchronisation danstorch_xla.amp.syncfree(telles quetorch_xla.amp.syncfree.SGD,torch_xla.amp.syncfree.Adamoutorch_xla.amp.syncfree.AdamW). Vous n’avez pas besoin de modifier les lignes de code dans lesquelles vous définissez les optimiseurs dans votre script d’entraînement.
Migration vers AWS Deep Learning Containers
Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultez Cadres, Régions AWS, types d’instance et modèles testés pris en charge.
Notes de publication de SageMaker Training Compiler : 9 janvier 2023
Évolutions
-
tf.keras.optimizers.Optimizerpointe vers un nouvel optimiseur dans TensorFlow 2.11.0 et versions ultérieures. Les anciens optimiseurs sont déplacés verstf.keras.optimizers.legacy. Vous risquez de rencontrer un échec de tâche en raison de cette évolution lorsque vous effectuez les opérations suivantes.-
Chargement de points de contrôle à partir d’un ancien optimiseur. Nous vous recommandons de passer aux optimiseurs hérités.
-
Utilisation de TensorFlow v1. Nous vous recommandons de migrer vers TensorFlow v2 ou de passer aux optimiseurs hérités si vous devez continuer à utiliser TensorFlow v1.
Pour obtenir une liste plus détaillée des évolutions provenant des modifications d’optimiseur, consultez les notes de mises à jour officielles de TensorFlow v2.11.0
dans le référentiel GitHub de TensorFlow. -
Migration vers AWS Deep Learning Containers
Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :
-
TensorFlow v2.11.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultez Cadres, Régions AWS, types d’instance et modèles testés pris en charge.
Notes de mises à jour SageMaker Training Compiler : 8 décembre 2022
Correctifs de bogue
-
Correction de la valeur des tâches d’entraînement PyTorch à partir de PyTorch v1.12 afin de garantir qu’il n’y ait aucune différence dans l’initialisation du modèle entre les différents processus. Consultez également PyTorch Reproductibility
(Reproductibilité PyTorch). -
Correction du problème qui empêchait la communication par défaut via PCIe
pour les tâches d’entraînement distribué par PyTorch sur les instances G4dn et G5.
Problèmes connus
-
Une utilisation incorrecte des API PyTorch/XLA dans les transformateurs de vision de Hugging Face peut entraîner des problèmes de convergence.
Autres modifications
-
Lorsque vous utilisez la classe
Trainerdes transformeurs Hugging Face, assurez-vous d’utiliser les optimiseurs SyncFree en définissant l’argumentoptimsuradamw_torch_xla. Pour plus d’informations, consultez Modèles linguistiques de grande taille utilisant la classe Trainer de Hugging Face Transformers. Voir également Optimizer(Optimiseur) dans la documentation de Hugging Face Transformers.
Migration vers AWS Deep Learning Containers
Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :
-
PyTorch v1.12.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultez Cadres, Régions AWS, types d’instance et modèles testés pris en charge.
Notes de mises à jour de SageMaker Training Compiler : 4 octobre 2022
Mises à jour des devises
-
Ajout de la prise en charge de TensorFlow v2.10.0.
Autres modifications
-
Ajout de modèles Hugging Face NLP utilisant la bibliothèque Transformers aux tests de framework TensorFlow. Pour trouver les modèles de transformateur testés, consultez la section Modèles testés.
Migration vers AWS Deep Learning Containers
Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :
-
TensorFlow v2.10.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultez Cadres, Régions AWS, types d’instance et modèles testés pris en charge.
Notes de mises à jour de SageMaker Training Compiler : 1er septembre 2022
Mises à jour des devises
-
Ajout de la prise en charge de Hugging Face Transformers v4.21.1 avec PyTorch v1.11.0.
Améliorations
-
Implémentation d’un nouveau mécanisme de lancement d’entraînement distribué pour activer SageMaker Training Compiler pour les modèles de transformeur Hugging Face avec PyTorch. Pour en savoir plus, consultez Exécution de tâches d’entraînement PyTorch avec SageMaker Training Compiler pour un entraînement distribué.
-
Intégration à EFA pour améliorer la communication collective dans le cadre de l’entraînement distribué.
-
Ajout de la prise en charge des instances G5 pour les tâches d’entraînement PyTorch. Pour plus d’informations, consultez Cadres, Régions AWS, types d’instance et modèles testés pris en charge.
Migration vers AWS Deep Learning Containers
Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :
-
Hugging Face v4.21.1 avec PyTorch v1.11.0
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04Pour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultez Cadres, Régions AWS, types d’instance et modèles testés pris en charge.
Notes de mises à jour de SageMaker Training Compiler : 14 juin 2022
Nouvelles fonctions
-
Ajout de la prise en charge de TensorFlow v2.9.1. SageMaker Training Compiler prend entièrement en charge la compilation des modules TensorFlow (
tf.*) et TensorFlow Keras (tf.keras.*). -
Ajout de la prise en charge des conteneurs personnalisés créés par extension des conteneurs AWS de deep learning pour TensorFlow. Pour plus d’informations, consultez Activation de SageMaker Training Compiler à l’aide du kit SageMaker Python SDK et de l’extension des conteneurs de deep learning de framework SageMaker AI.
-
Ajout de la prise en charge des instances G5 pour les tâches d’entraînement TensorFlow.
Migration vers AWS Deep Learning Containers
Cette version a réussi les tests d’évaluation et est migrée vers le conteneur AWS Deep Learning Container suivant :
-
TensorFlow 2.9.1
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerPour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultez Cadres, Régions AWS, types d’instance et modèles testés pris en charge.
Notes de mises à jour de SageMaker Training Compiler : 26 avril 2022
Améliorations
-
Ajout de la prise en charge de toutes les Régions AWS où les conteneurs AWS Deep Learning Containers
sont en service, à l’exception des régions chinoises.
Notes de mises à jour de SageMaker Training Compiler : 12 avril 2022
Mises à jour des devises
-
Ajout de la prise en charge de Hugging Face Transformers v4.17.0 avec TensorFlow v2.6.3 et PyTorch v1.10.2.
Notes de mises à jour SageMaker Training Compiler : 21 février 2022
Améliorations
-
Test d’évaluation terminé et accélérations d’entraînement confirmées sur les types d’instances
ml.g4dn. Pour une liste complète des instancesmltestées, consultez Types d’instance pris en charge.
Notes de mises à jour SageMaker Training Compiler : 1er décembre 2021
Nouvelles fonctions
Lancement de Amazon SageMaker Training Compiler à l’occasion de l’AWS re:Invent 2021.
Migration vers AWS Deep Learning Containers
Amazon SageMaker Training Compiler a réussi les tests d’évaluation et est migré vers AWS Deep Learning Containers. Pour obtenir la liste complète des conteneurs prédéfinis avec Amazon SageMaker Training Compiler, consultez Cadres, Régions AWS, types d’instance et modèles testés pris en charge.