Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creare una configurazione endpoint
Dopo aver creato un modello, creare una configurazione endpoint. È quindi possibile distribuire il modello utilizzando le specifiche nella configurazione endpoint. Nella configurazione, si specifica se si desidera un endpoint in tempo reale o serverless. Per creare una configurazione endpoint serverless, puoi utilizzare la console Amazon SageMaker AI
Per creare una configurazione endpoint (mediante l’API)
L'esempio seguente utilizza l'AWSSDK for Python (Boto3) per chiamare l'
-
Per
EndpointConfigName, scegliere un nome per la configurazione endpoint. Il nome deve essere univoco all'interno dell’account in una Regione. -
(Facoltativo) Per
KmsKeyId, usa l'ID chiave, l'ARN della chiave, il nome alias o l'alias ARN per qualsiasi AWS KMS chiave che desideri utilizzare. SageMaker L'intelligenza artificiale utilizza questa chiave per crittografare la tua immagine Amazon ECR. -
Per
ModelName, usare il nome del modello da distribuire. Dovrebbe essere lo stesso modello usato nella fase Creazione di un modello. -
Per
ServerlessConfig:-
Imposta
MemorySizeInMBsu2048. Per questo esempio, abbiamo impostato le dimensioni della memoria su 2048 MB, ma è possibile scegliere uno dei valori seguenti: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB. -
Imposta
MaxConcurrencysu20. Per questo esempio, impostiamo il numero massimo di simultaneità su 20. Il numero massimo di richiami simultanei che è possibile impostare per un endpoint serverless è 200, mentre il valore minimo che è possibile scegliere è 1. -
(Facoltativo) Per utilizzare Concorrenza assegnata, impostare
ProvisionedConcurrencysu 10. Per questo esempio, impostiamo Concorrenza assegnata su 10. Il numeroProvisionedConcurrencyper un endpoint serverless deve essere inferiore o uguale al numeroMaxConcurrency. È possibile lasciarlo vuoto se si desidera utilizzare l'endpoint Serverless Inference su richiesta. È possibile scalare dinamicamente Effettua il provisioning di simultaneità. Per ulteriori informazioni, consulta Dimensionamento automatico del provisioning simultaneo per un endpoint serverless.
-
response = client.create_endpoint_config( EndpointConfigName="<your-endpoint-configuration>", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )
Per creare una configurazione endpoint (mediante la console)
-
Accedi alla console Amazon SageMaker AI
. -
Nella scheda di navigazione, scegliere Inferenza.
-
Quindi, scegliere Configurazioni endpoint.
-
Scegliere Crea configurazione endpoint.
-
Per Nome configurazione endpoint, inserire un nome univoco all'interno dell'account in una Regione.
-
Per Tipo di endpoint, selezionare Serverless.
-
Per le varianti di produzione, scegliere Aggiungi modello.
-
In Aggiungi modello, selezionare il modello da utilizzare dall'elenco dei modelli, quindi scegliere Salva.
-
Dopo aver aggiunto il modello, in Azioni, scegliere Modifica.
-
Per Dimensioni memoria, scegliere le dimensioni della memoria desiderate in GB.
-
Per Max simultaneità, inserire il numero massimo di invocazioni simultanee desiderato per l'endpoint. Il valore massimo inseribile è 200, mentre quello minimo è 1.
-
(Facoltativo) Per utilizzare Simultaneità assegnata, inserire il numero desiderato di chiamate simultanee nel campo dell’impostazione Simultaneità assegnata. Il numero di richiami simultanei assegnati deve essere minore o uguale al numero massimo di richiami simultanei.
-
Selezionare Salva.
-
(Facoltativo) Per Tag, immettere le coppie chiave-valore se si desidera creare metadati per la configurazione endpoint.
-
Scegliere Crea configurazione endpoint.