Notes de mise à jour de la bibliothèque SageMaker AI de parallélisme des modèles - Amazon SageMaker AI

Notes de mise à jour de la bibliothèque SageMaker AI de parallélisme des modèles

Consultez les notes de mise à jour relatives au suivi des dernières mises à jour relatives à la bibliothèque SageMaker AI de parallélisme distribué des données (SMDDP).

Bibliothèque SageMaker AI de parallélisme distribué des données v2.5.0

Date : 17 octobre 2024

Nouvelles fonctionnalités

  • Ajout de la prise en charge de PyTorch v2.4.1 avec CUDA v12.1.

Intégration dans les conteneurs Docker distribués par la bibliothèque SageMaker AI de parallélisme des modèles (SMP)

Cette version de la bibliothèque SMDDP est migrée vers Bibliothèque SageMaker de parallélisme des modèles v2.6.0.

658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121

Pour les régions dans lesquelles les images Docker SMP sont disponibles, consultez Régions AWS.

Fichier binaire de cette version

Vous pouvez télécharger ou installer la bibliothèque à l’aide de l’URL suivante.

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl

Bibliothèque SageMaker AI de parallélisme distribué des données v2.3.0

Date : 11 juin 2024

Nouvelles fonctionnalités

  • Ajout de la prise en charge de PyTorch v2.3.0 avec CUDA v12.1 et Python v3.11.

  • Ajout de la prise en charge de PyTorch Lightning v2.2.5. Ceci est intégré au conteneur de cadre SageMaker AI pour PyTorch v2.3.0.

  • Ajout de la validation du type d’instance lors de l’importation pour empêcher le chargement de la bibliothèque SMDDP sur des types d’instance non pris en charge. Pour obtenir la liste des types d’instances compatibles avec la bibliothèque SMDDP, consultez Cadres de travail, Régions AWS et types d’instances pris en charge.

Intégration aux conteneurs de cadres SageMaker AI

Cette version de la bibliothèque SMDDP est migrée vers le conteneur de cadre SageMaker AI suivant.

  • PyTorch v2.3.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker

Pour obtenir la liste complète des versions de la bibliothèque SMDDP et des conteneurs prédéfinis, consultez Cadres de travail, Régions AWS et types d’instances pris en charge.

Fichier binaire de cette version

Vous pouvez télécharger ou installer la bibliothèque à l’aide de l’URL suivante.

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl

Autres modifications

  • La bibliothèque SMDDP v2.2.0 est intégrée au conteneur de cadre SageMaker AI pour PyTorch v2.2.0.

Bibliothèque SageMaker AI de parallélisme distribué des données v2.2.0

Date : 04 mars 2024

Nouvelles fonctionnalités

  • Ajout de la prise en charge de PyTorch v2.2.0 avec CUDA v12.1.

Intégration dans les conteneurs Docker distribués par la bibliothèque SageMaker AI de parallélisme des modèles (SMP)

Cette version de la bibliothèque SMDDP est migrée vers Bibliothèque SageMaker de parallélisme des modèles v2.2.0.

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

Pour les régions dans lesquelles les images Docker SMP sont disponibles, consultez Régions AWS.

Fichier binaire de cette version

Vous pouvez télécharger ou installer la bibliothèque à l’aide de l’URL suivante.

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl

Bibliothèque SageMaker AI de parallélisme distribué des données v2.1.0

Date : 1er mars 2024

Nouvelles fonctionnalités

  • Ajout de la prise en charge de PyTorch v2.1.0 avec CUDA v12.1.

Correctifs de bogues

  • Correction du problème de fuite de mémoire du CPU dans SMDDP v2.0.1.

Intégration aux conteneurs de cadres SageMaker AI

Cette version de la bibliothèque SMDDP a réussi les tests d’évaluation et est migrée vers le conteneur de cadre SageMaker AI suivant.

  • PyTorch v2.1.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker

Intégration dans les conteneurs Docker distribués par la bibliothèque SageMaker AI de parallélisme des modèles (SMP)

Cette version de la bibliothèque SMDDP est migrée vers Bibliothèque SageMaker de parallélisme des modèles v2.1.0.

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121

Pour les régions dans lesquelles les images Docker SMP sont disponibles, consultez Régions AWS.

Fichier binaire de cette version

Vous pouvez télécharger ou installer la bibliothèque à l’aide de l’URL suivante.

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl

Bibliothèque SageMaker AI de parallélisme distribué des données v2.0.1

Date : 7 décembre 2023

Nouvelles fonctionnalités

Problèmes connus

  • Problème de fuite de mémoire du CPU dû à une augmentation progressive de la mémoire du CPU pendant l’entraînement avec l’opération AllReduce SMDDP en mode DDP.

Intégration aux conteneurs de cadres SageMaker AI

Cette version de la bibliothèque SMDDP a réussi les tests d’évaluation et est migrée vers le conteneur de cadre SageMaker AI suivant.

  • PyTorch v2.0.1

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker

Fichier binaire de cette version

Vous pouvez télécharger ou installer la bibliothèque à l’aide de l’URL suivante.

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

Autres modifications

  • À partir de cette version, la documentation de la bibliothèque SMDDP est entièrement disponible dans ce Guide du développeur Amazon SageMaker AI. Remplacée par le guide complet du développeur SMDDP v2 dans le Guide du développeur Amazon SageMaker AI, la référence supplémentaire pour SMDDP v1.x dans la documentation du kit SageMaker AI Python SDK n’est plus prise en charge. Si vous avez toujours besoin de la documentation SMP v1.x, consultez l’instantané suivant dans la documentation du kit SageMaker Python SDK v2.212.0.