Framework e Regioni AWS supportati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Framework e Regioni AWS supportati

Prima di utilizzare la libreria di parallelismo dei modelli SageMaker, verifica quali sono i framework e i tipi di istanza supportati e se ci sono quote sufficienti nel tuo account AWS e Regione AWS.

Nota

Per controllare gli ultimi aggiornamenti e le note di rilascio della libreria, consulta anche Release notes for the SageMaker model parallelism library in Documentazione di SageMaker Python SDK.

Framework supportati

La libreria di parallelismo dei modelli SageMaker supporta i seguenti framework di deep learning ed è disponibile in AWS container di deep learning (DLC) o scaricabile come file binario.

Versioni di PyTorch supportate da SageMaker AI e dalla libreria SageMaker Model Parallelism

Versione PyTorch Versione della libreria di parallelismo dei modelli SageMaker URI dell’immagine del container DLC integrata smdistributed-modelparallel URL del file binario**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
Nota

La libreria di parallelismo dei modelli SageMaker v1.6.0 e versioni successive offre funzionalità estese per PyTorch. Per ulteriori informazioni, consulta Caratteristiche principali della libreria di parallelismo dei modelli SageMaker.

** Gli URL dei file binari servono per l'installazione della libreria di parallelismo dei modelli SageMaker in container personalizzati. Per ulteriori informazioni, consulta Creazione del proprio container Docker con la libreria di parallelismo dei modelli distribuiti SageMaker.

Versioni di TensorFlow supportate da SageMaker AI e dalla libreria SageMaker Model Parallelism

Versione di TensorFlow Versione della libreria di parallelismo dei modelli SageMaker URI dell’immagine del container DLC integrata smdistributed-modelparallel
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versioni di Hugging Face Transformers supportate da SageMaker AI e dalla libreria di parallelizzazione dei dati distribuiti di SageMaker

I container di Deep Learning AWS per Hugging Face utilizzano i container di addestramento SageMaker per PyTorch e TensorFlow come loro immagini di base. Per cercare le versioni della libreria di trasformatori Hugging Face e le versioni abbinate di PyTorch e TensorFlow, consulta gli ultimi Container Hugging Face e le versioni precedenti dei container Hugging Face.

Regioni AWS

La libreria di parallelismo dei dati SageMaker è disponibile in tutte le Regioni AWS in cui sono in servizio i AWS container di deep learning per SageMaker. Per ulteriori informazioni, consulta Immagini dei container di deep learning disponibili.

Tipi di istanze supportati

La libreria di parallelismo dei modelli SageMaker richiede uno dei seguenti tipi di istanza ML.

Tipo di istanza
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Per le specifiche dei tipi di istanza, consulta la sezione Elaborazione accelerata nella pagina tipi di istanza Amazon EC2. Per informazioni sui prezzi in base all’istanza, consulta Prezzi di Amazon SageMaker AI.

Se hai ricevuto un messaggio di errore simile al seguente, segui le istruzioni in Richiesta di aumento della quota di servizio per le risorse SageMaker AI.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.