Alarmes et journaux pour le suivi des métriques provenant des points de terminaison asynchrones

Vous pouvez surveiller l' SageMaker IA à l'aide d'Amazon CloudWatch, qui collecte les données brutes et les transforme en indicateurs lisibles en temps quasi réel. Avec Amazon CloudWatch, vous pouvez accéder à des informations historiques et avoir une meilleure idée des performances de votre application ou service Web. Pour plus d'informations sur Amazon CloudWatch, consultez Qu'est-ce qu'Amazon CloudWatch ?

Surveillance avec CloudWatch

Voici une liste exhaustive des métriques pour les points de terminaison asynchrones qui figurent dans l'espace de noms AWS/SageMaker. Toute métrique n'apparaissant pas n'est pas publiée si le point de terminaison est activé pour l'inférence asynchrone. Ces métriques incluent (sans s'y limiter) :

OverheadLatency
Invocations
InvocationsPerInstance

Métriques de point de terminaison courantes

Ces métriques sont les mêmes que celles publiées aujourd'hui pour les points de terminaison en temps réel. Pour plus d'informations sur les autres statistiques d'Amazon CloudWatch, consultez Monitor SageMaker AI with Amazon CloudWatch.

Nom de la métrique Description Unit/Stats

Nom de la métrique	Description	Unit/Stats
`Invocation4XXErrors`	Nombre de demandes dans lesquelles le modèle a retourné un code de réponse HTTP 4xx. Pour chaque réponse 4xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée.	Unités : aucune Statistiques valides : Moyenne, somme
`Invocation5XXErrors`	Nombre de InvokeEndpoint requêtes pour lesquelles le modèle a renvoyé un code de réponse HTTP 5xx. Pour chaque réponse 5xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée.	Unités : aucune Statistiques valides : Moyenne, somme
`ModelLatency`	Intervalle de temps nécessaire à un modèle pour répondre tel qu'il est vu par l' SageMaker IA. Cet intervalle inclut le temps de communication local pris pour envoyer la requête et pour récupérer la réponse du conteneur d’un modèle et le temps nécessaire pour terminer l’inférence dans le conteneur.	Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

Invocation4XXErrors

Nombre de demandes dans lesquelles le modèle a retourné un code de réponse HTTP 4xx. Pour chaque réponse 4xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée.

Unités : aucune

Statistiques valides : Moyenne, somme

Invocation5XXErrors

Nombre de InvokeEndpoint requêtes pour lesquelles le modèle a renvoyé un code de réponse HTTP 5xx. Pour chaque réponse 5xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée.

Unités : aucune

Statistiques valides : Moyenne, somme

ModelLatency

Intervalle de temps nécessaire à un modèle pour répondre tel qu'il est vu par l' SageMaker IA. Cet intervalle inclut le temps de communication local pris pour envoyer la requête et pour récupérer la réponse du conteneur d’un modèle et le temps nécessaire pour terminer l’inférence dans le conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

Métriques de point de terminaison d'inférence asynchrone

Ces métriques sont publiées pour les points de terminaison activés pour l'inférence asynchrone. Les métriques suivantes sont publiées avec la dimension EndpointName :

Nom de la métrique	Description	Unit/Stats
`ApproximateBacklogSize`	Nombre d'éléments dans la file d'attente d'un point de terminaison en cours de traitement ou à traiter.	Unités : nombre Statistiques valides : moyenne, maximum, minimum
`ApproximateBacklogSizePerInstance`	Nombre d'éléments de la file d'attente divisé par le nombre d'instances derrière un point de terminaison. Cette métrique est principalement utilisée pour configurer la scalabilité automatique des applications pour un point de terminaison asynchrone.	Unités : nombre Statistiques valides : moyenne, maximum, minimum
`ApproximateAgeOfOldestRequest`	Âge de la requête la plus ancienne de la file d'attente.	Unités : secondes Statistiques valides : moyenne, maximum, minimum
`HasBacklogWithoutCapacity`	La valeur de cette métrique est `1` lorsqu'il y a des demandes dans la file d'attente, mais zéro instance derrière le point de terminaison. La valeur est `0` à tout autre moment. Vous pouvez utiliser cette métrique pour mettre automatiquement à l'échelle votre point de terminaison à partir de zéro instance dès réception d'une nouvelle demande dans la file d'attente.	Unités : nombre Statistiques valides : moyenne

Les métriques suivantes sont publiées avec les dimensions EndpointName et VariantName :

Nom de la métrique	Description	Unit/Stats
`RequestDownloadFailures`	Lorsqu'un échec d'inférence survient en raison d'un problème lors du téléchargement de la requête depuis Amazon S3.	Unités : nombre Statistiques valides : somme
`ResponseUploadFailures`	Lorsqu'un échec d'inférence survient en raison d'un problème lors du chargement de la réponse vers Amazon S3.	Unités : nombre Statistiques valides : somme
`NotificationFailures`	Lorsqu'un problème survient pendant la publication de notifications.	Unités : nombre Statistiques valides : somme
`RequestDownloadLatency`	Temps total de téléchargement de la charge utile de la requête.	Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage
`ResponseUploadLatency`	Temps total de chargement de la charge utile de la réponse.	Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage
`ExpiredRequests`	Nombre de requêtes dans la file d'attente qui échouent en raison de leur durée de vie de requête spécifiée.	Unités : nombre Statistiques valides : somme
`InvocationFailures`	Si une invocation échoue pour quelque raison que ce soit.	Unités : nombre Statistiques valides : somme
`InvocationsProcesssed`	Nombre d'invocations asynchrones traitées par le point de terminaison.	Unités : nombre Statistiques valides : somme
`TimeInBacklog`	Durée totale pendant laquelle la requête a été mise en file d'attente avant d'être traitée. Cela n'inclut pas le temps de traitement réel (c'est-à-dire le temps de téléchargement, le temps de chargement, la latence du modèle).	Unités : millisecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage
`TotalProcessingTime`	Heure à laquelle la demande d'inférence a été reçue par l' SageMaker IA par rapport à la fin du traitement de la demande. Cela inclut le temps dans le backlog et le temps nécessaire pour charger et envoyer des notifications de réponse, le cas échéant.	Unités : millisecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

Amazon SageMaker Asynchronous Inference inclut également des métriques au niveau de l'hôte. Pour plus d'informations sur les métriques au niveau de l'hôte, consultez les rubriques SageMaker AI Jobs et Endpoint Metrics.

Journaux

Outre les journaux des conteneurs Model publiés sur Amazon CloudWatch dans votre compte, vous bénéficiez également d'un nouveau journal de plateforme pour le suivi et le débogage des demandes d'inférence.

Les nouveaux journaux sont publiés sous le groupe de journaux de points de terminaison :


/aws/sagemaker/Endpoints/[EndpointName]

Le nom de flux de journaux est composé des éléments suivants :


[production-variant-name]/[instance-id]/data-log.

Les lignes des journaux contiennent l'ID d'inférence de la requête, de sorte que les erreurs peuvent être facilement mappées à une requête particulière.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Suppression

Vérifier les résultats de la prédiction