Allarmi e log per il monitoraggio delle metriche da endpoint asincroni

Puoi monitorare SageMaker AI utilizzando Amazon CloudWatch, che raccoglie i dati non elaborati e li elabora trasformandoli in metriche leggibili quasi in tempo reale. Con Amazon CloudWatch, puoi accedere alle informazioni storiche per una prospettiva migliore sulle prestazioni del servizio o dell'applicazione Web. Per ulteriori informazioni su Amazon CloudWatch, consulta Che cos'è Amazon CloudWatch?

Monitoraggio con CloudWatch

I parametri riportati di seguito sono un elenco esaustivo di parametri per gli endpoint asincroni e si trovano nello spazio dei nomi AWS/SageMaker. Qualsiasi parametro non elencato di seguito non viene pubblicato se l'endpoint è abilitato per l'inferenza asincrona. Tali parametri includono (ma non sono limitati a):

Latenza generale
Invocazioni
InvocationsPerInstance

Parametri degli endpoint comuni

Questi parametri sono gli stessi pubblicati oggi per gli endpoint in tempo reale. Per ulteriori informazioni su altre metriche in Amazon CloudWatch, consulta Monitor SageMaker AI with Amazon CloudWatch.

Nome parametro Descrizione Unità/statistiche

Nome parametro	Descrizione	Unità/statistiche
`Invocation4XXErrors`	Numero di richieste in cui il modello ha restituito un codice di risposta HTTP 4xx. Per ogni risposta 4xx, viene inviato 1; altrimenti, viene inviato 0.	Unità: nessuna Statistiche valide: Average, Sum
`Invocation5XXErrors`	Numero di richieste InvokeEndpoint in cui il modello ha restituito un codice di risposta HTTP 5xx. Per ogni risposta 5xx, viene inviato 1; altrimenti, viene inviato 0.	Unità: nessuna Statistiche valide: Average, Sum
`ModelLatency`	L’intervallo di tempo impiegato da un modello per rispondere come mostrato in SageMaker AI. Questo intervallo include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container di un modello e il tempo richiesto per completare l'inferenza nel container.	Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi

Invocation4XXErrors

Numero di richieste in cui il modello ha restituito un codice di risposta HTTP 4xx. Per ogni risposta 4xx, viene inviato 1; altrimenti, viene inviato 0.

Unità: nessuna

Statistiche valide: Average, Sum

Invocation5XXErrors

Numero di richieste InvokeEndpoint in cui il modello ha restituito un codice di risposta HTTP 5xx. Per ogni risposta 5xx, viene inviato 1; altrimenti, viene inviato 0.

Unità: nessuna

Statistiche valide: Average, Sum

ModelLatency

L’intervallo di tempo impiegato da un modello per rispondere come mostrato in SageMaker AI. Questo intervallo include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container di un modello e il tempo richiesto per completare l'inferenza nel container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

Parametri degli endpoint di inferenza asincrona

Questi parametri sono pubblicati per gli endpoint abilitati all'inferenza asincrona. I parametri seguenti sono pubblicati con la dimensione EndpointName.

Nome parametro	Descrizione	Unità/statistiche
`ApproximateBacklogSize`	Il numero di elementi in coda per un endpoint che sono attualmente in fase di elaborazione o che devono ancora essere elaborati.	Unità: numero Statistiche valide: medio, massimo, minimo
`ApproximateBacklogSizePerInstance`	Numero di elementi nella coda diviso per il numero di istanze dietro un endpoint. Questo parametri viene utilizzato principalmente per configurare il dimensionamento automatico delle applicazioni per un endpoint abilitato alla modalità asincrona.	Unità: numero Statistiche valide: medio, massimo, minimo
`ApproximateAgeOfOldestRequest`	Permanenza della richiesta più vecchia in coda.	Unità: secondi Statistiche valide: medio, massimo, minimo
`HasBacklogWithoutCapacity`	Il valore di questo parametro è `1` quando ci sono richieste in coda ma non ci sono istanze dietro l'endpoint. Il valore è `0` in tutti gli altri momenti. Puoi utilizzare questo parametro per scalare automaticamente l'endpoint da zero istanze dopo aver ricevuto una nuova richiesta in coda.	Unità: numero Statistiche valide: media

I parametri seguenti sono pubblicati con le dimensioni EndpointName e VariantName.

Nome parametro	Descrizione	Unità/statistiche
`RequestDownloadFailures`	Quando si verifica un errore di inferenza a causa di un problema durante il download della richiesta da Amazon S3.	Unità: numero Statistiche valide: somma
`ResponseUploadFailures`	Quando si verifica un errore di inferenza a causa di un problema durante il caricamento della risposta su Amazon S3.	Unità: numero Statistiche valide: somma
`NotificationFailures`	Quando si verifica un problema di pubblicazione delle notifiche.	Unità: numero Statistiche valide: somma
`RequestDownloadLatency`	Tempo totale per scaricare il payload di richiesta.	Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ResponseUploadLatency`	Tempo totale per caricare il payload di risposta.	Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ExpiredRequests`	Numero di richieste in coda che non riescono a causa del raggiungimento del TTL della richiesta specificata.	Unità: numero Statistiche valide: somma
`InvocationFailures`	Se una chiamata fallisce per qualsiasi motivo.	Unità: numero Statistiche valide: somma
`InvocationsProcesssed`	Numero di chiamate asincrone elaborate dall'endpoint.	Unità: numero Statistiche valide: somma
`TimeInBacklog`	Tempo totale in cui la richiesta è rimasta in coda prima dell'elaborazione. Questo non include il tempo di elaborazione effettivo (ad esempio tempo di download, tempo di caricamento, latenza del modello).	Unità: millisecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`TotalProcessingTime`	L’ora in cui la richiesta di inferenza è stata ricevuta da SageMaker AI fino al termine dell’elaborazione della richiesta. Ciò include il tempo di arretrato e il tempo necessario per caricare e inviare eventuali notifiche di risposta.	Unità: millisecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi

Amazon SageMaker Asynchronous Inference include anche parametri a livello di host. Per informazioni sulle metriche a livello di host, consulta SageMaker AI Jobs and Endpoint Metrics.

Log

Oltre ai Registri dei log dei container pubblicati su Amazon CloudWatch nel tuo account, ottieni anche un nuovo log della piattaforma per tracciare ed eseguire il debugging delle richieste di inferenza.

I nuovi log vengono pubblicati nel gruppo di log endpoint:


/aws/sagemaker/Endpoints/[EndpointName]

Il nome del flusso di log è composto da:


[production-variant-name]/[instance-id]/data-log.

Le righe di registro contengono l'ID di inferenza della richiesta in modo che gli errori possano essere facilmente mappati su una particolare richiesta.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Elimina

Controllo dei risultati della previsione