Parametri per endpoint multi-container con invocazione diretta
Oltre alle metriche degli endpoint elencate in Metriche di Amazon SageMaker AI in Amazon CloudWatch, SageMaker AI fornisce anche metriche per container.
I parametri di container per endpoint multi-container con invocazione diretta si trovano in CloudWatch e sono suddivisi in due spazi di nomi: AWS/SageMaker e aws/sagemaker/Endpoints. Lo spazio dei nomi AWS/SageMaker include parametri relativi alle chiamate e lo spazio dei nomi aws/sagemaker/Endpoints include parametri di utilizzo della memoria e della CPU.
La tabella seguente elenca i parametri di container per endpoint multi-container con invocazione diretta. Tutti i parametri utilizzano la dimensione [EndpointName, VariantName,
ContainerName], che filtra i parametri su un endpoint specifico, per una variante specifica e corrispondente a un container specifico. Questi parametri condividono gli stessi nomi dei parametri utilizzati per le pipeline di inferenza, ma a livello di container [EndpointName, VariantName, ContainerName].
| Nome parametro | Descrizione | Dimensione | NameSpace |
Invocations
|
Il numero di richieste InvokeEndpoint inviate a un container all'interno di un endpoint. Per ottenere il numero totale di richieste inviate a quel container, utilizza la statistica Sum. Unità: nessuna statistica valida: Sum, Sample Count |
EndpointName, VariantName,
ContainerName
|
AWS/SageMaker |
Invocation4XX Errors
|
Numero di richieste InvokeEndpoint per cui il modello ha restituito un codice di risposta HTTP 4xx per un container specifico. Per ogni risposta 4xx, SageMaker AI invia 1. Unità: nessuna statistica valida: Average, Sum |
EndpointName, VariantName,
ContainerName
|
AWS/SageMaker |
Invocation5XX Errors
|
Numero di richieste InvokeEndpoint per cui il modello ha restituito un codice di risposta HTTP 5xx per un container specifico. Per ogni risposta 5xx, SageMaker AI invia 1. Unità: nessuna statistica valida: Average, Sum |
EndpointName, VariantName,
ContainerName
|
AWS/SageMaker |
ContainerLatency
|
Il tempo impiegato dal container di destinazione per rispondere come visualizzato da SageMaker AI. ContainerLatency include il tempo impiegato per inviare la richiesta, recuperare la risposta dal container del modello e completare l’inferenza nel container. Unità: microsecondi statistiche valide: Average, Sum, Min, Max, Sample Count |
EndpointName, VariantName,
ContainerName
|
AWS/SageMaker |
OverheadLatency
|
Il tempo aggiunto al tempo richiesto per rispondere a una richiesta client da SageMaker AI per le operazioni di gestione. La misurazione di OverheadLatency ha inizio dal momento in cui SageMaker AI riceve la richiesta finché non restituisce una risposta al client, meno il valore di ModelLatency. La latenza di gestione può variare in base alle dimensioni di payload di richiesta e risposta, frequenza delle richieste e autenticazione o autorizzazione della richiesta, tra gli altri fattori. Unità: microsecondi statistiche valide: Average, Sum, Min, Max, `Conteggio di esempio ` |
EndpointName, VariantName,
ContainerName
|
AWS/SageMaker |
CPUUtilization
|
Percentuale di unità CPU utilizzate da ciascun container in esecuzione su un'istanza. Il valore varia da 0% a 100% ed è moltiplicato per il numero di CPU. Ad esempio, se ci sono quattro CPU, CPUUtilization può variare da 0% a 400%. Per gli endpoint con chiamata diretta, il numero di parametri di utilizzo della CPU è uguale al numero di container in quell'endpoint. Unità: percentuale |
EndpointName, VariantName,
ContainerName
|
aws/sagemaker/Endpoints |
MemoryUtilizaton
|
Percentuale di memoria utilizzata da ciascun container in esecuzione su un'istanza. Questo valore è compreso tra 0% e 100%. Analogamente a CPUUtilization, negli endpoint con invocazione diretta, il numero di parametri MemoryUtilization è uguale al numero di container in quell'endpoint. Unità: percentuale |
EndpointName, VariantName,
ContainerName
|
aws/sagemaker/Endpoints |
Tutti i parametri della tabella precedente sono specifici per gli endpoint multi-container con invocazione diretta. Oltre a questi parametro speciali per container, esistono anche parametri a livello di variante con dimensione [EndpointName, VariantName] per tutti i parametri previsti nella tabella ContainerLatency.