Parametri per endpoint multi-container con invocazione diretta

Oltre ai parametri degli endpoint elencati inMetriche di Amazon SageMaker AI in Amazon CloudWatch, l' SageMaker IA fornisce anche parametri per contenitore.

Le metriche per contenitore per endpoint multi-contenitore con invocazione diretta si trovano e sono classificate in due namespace: e. CloudWatch AWS/SageMaker aws/sagemaker/Endpoints Lo spazio dei nomi AWS/SageMaker include parametri relativi alle chiamate e lo spazio dei nomi aws/sagemaker/Endpoints include parametri di utilizzo della memoria e della CPU.

La tabella seguente elenca i parametri di container per endpoint multi-container con invocazione diretta. Tutti i parametri utilizzano la dimensione [EndpointName, VariantName, ContainerName], che filtra i parametri su un endpoint specifico, per una variante specifica e corrispondente a un container specifico. Questi parametri condividono gli stessi nomi dei parametri utilizzati per le pipeline di inferenza, ma a livello di container [EndpointName, VariantName, ContainerName].

Nome parametro	Description	Dimensione	NameSpace
`Invocations`	Il numero di richieste `InvokeEndpoint` inviate a un container all'interno di un endpoint. Per ottenere il numero totale di richieste inviate a quel container, utilizza la statistica `Sum`. Unità: nessuna statistica valida: `Sum`, `Sample Count`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`Invocation4XX Errors`	Numero di richieste `InvokeEndpoint` per cui il modello ha restituito un codice di risposta HTTP `4xx` per un container specifico. `4xx`Per ogni SageMaker risposta`1`, AI invia un. Unità: nessuna statistica valida: `Average`, `Sum`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`Invocation5XX Errors`	Numero di richieste `InvokeEndpoint` per cui il modello ha restituito un codice di risposta HTTP `5xx` per un container specifico. Per ogni `5xx` risposta, SageMaker AI invia un`1`. Unità: nessuna statistica valida: `Average`, `Sum`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`ContainerLatency`	Il tempo impiegato dal contenitore di destinazione per rispondere, così come viene visualizzato dall' SageMaker IA. `ContainerLatency`include il tempo impiegato per inviare la richiesta, recuperare la risposta dal contenitore del modello e completare l'inferenza nel contenitore. Unità: microsecondi statistiche valide: `Average`, `Sum`, `Min`, `Max`, `Sample Count`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`OverheadLatency`	Il tempo aggiunto al tempo impiegato per rispondere a una richiesta del cliente da parte di SageMaker AI for overhead. `OverheadLatency`viene misurato dal momento in cui l' SageMaker IA riceve la richiesta fino a quando non restituisce una risposta al client, meno il. `ModelLatency` La latenza di gestione può variare in base alle dimensioni di payload di richiesta e risposta, frequenza delle richieste e autenticazione o autorizzazione della richiesta, tra gli altri fattori. Unità: microsecondi statistiche valide: `Average`, `Sum`, `Min`, `Max`, `Conteggio di esempio `	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`CPUUtilization`	Percentuale di unità CPU utilizzate da ciascun container in esecuzione su un'istanza. Il valore varia dallo 0% al 100% e viene moltiplicato per il numero di. CPUs Ad esempio, se ce ne sono quattro CPUs, `CPUUtilization` può variare dallo 0% al 400%. Per gli endpoint con chiamata diretta, il numero di CPUUtilization metriche è uguale al numero di contenitori in quell'endpoint. Unità: percentuale	`EndpointName`, `VariantName`, `ContainerName`	`aws/sagemaker/Endpoints`
`MemoryUtilizaton`	Percentuale di memoria utilizzata da ciascun container in esecuzione su un'istanza. Questo valore è compreso tra 0% e 100%. Analogamente agli endpoint con invocazione diretta CPUUtilization, il numero di metriche è uguale al numero di MemoryUtilization contenitori in quell'endpoint. Unità: percentuale	`EndpointName`, `VariantName`, `ContainerName`	`aws/sagemaker/Endpoints`

Tutti i parametri della tabella precedente sono specifici per gli endpoint multi-container con invocazione diretta. Oltre a questi parametro speciali per container, esistono anche parametri a livello di variante con dimensione [EndpointName, VariantName] per tutti i parametri previsti nella tabella ContainerLatency.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Sicurezza con endpoint multi-container con invocazione diretta

Endpoint multi-container con scalabilità automatica