Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Alarmes et journaux pour le suivi des métriques provenant des points de terminaison asynchrones
Vous pouvez surveiller SageMaker AI à l’aide d’Amazon CloudWatch, qui collecte et traite les données brutes pour les transformer en métriques lisibles en quasi temps réel. Avec Amazon CloudWatch, vous pouvez accéder aux informations historiques et acquérir un meilleur point de vue de la façon dont votre service ou application web s'exécute. Pour plus d’informations sur Amazon CloudWatch, consultez Qu’est-ce que Amazon CloudWatch ?.
Surveillance avec CloudWatch
Voici une liste exhaustive des métriques pour les points de terminaison asynchrones qui figurent dans l'espace de noms AWS/SageMaker. Toute métrique n'apparaissant pas n'est pas publiée si le point de terminaison est activé pour l'inférence asynchrone. Ces métriques incluent (sans s'y limiter) :
OverheadLatency
Invocations
InvocationsPerInstance
Métriques de point de terminaison courantes
Ces métriques sont les mêmes que celles publiées aujourd'hui pour les points de terminaison en temps réel. Pour plus d’informations sur les autres métriques dans Amazon CloudWatch, consultez Surveiller Amazon SageMaker à l’aide d’Amazon CloudWatch.
| Nom de la métrique | Description | Unité/Statistiques |
|---|---|---|
|
Nombre de demandes dans lesquelles le modèle a retourné un code de réponse HTTP 4xx. Pour chaque réponse 4xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée. |
Unités : aucune Statistiques valides : Moyenne, somme |
|
Nombre de requêtes InvokeEndpoint dans lesquelles le modèle a renvoyé un code de réponse HTTP 5xx. Pour chaque réponse 5xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée. |
Unités : aucune Statistiques valides : Moyenne, somme |
|
L’intervalle de temps nécessaire à un modèle pour répondre, comme observé depuis SageMaker AI. Cet intervalle inclut le temps de communication local pris pour envoyer la requête et pour récupérer la réponse du conteneur d'un modèle et le temps nécessaire pour terminer l'inférence dans le conteneur. |
Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
Métriques de point de terminaison d'inférence asynchrone
Ces métriques sont publiées pour les points de terminaison activés pour l'inférence asynchrone. Les métriques suivantes sont publiées avec la dimension EndpointName :
| Nom de la métrique | Description | Unité/Statistiques |
|---|---|---|
|
Nombre d'éléments dans la file d'attente d'un point de terminaison en cours de traitement ou à traiter. |
Unités : nombre Statistiques valides : moyenne, maximum, minimum |
|
Nombre d'éléments de la file d'attente divisé par le nombre d'instances derrière un point de terminaison. Cette métrique est principalement utilisée pour configurer la scalabilité automatique des applications pour un point de terminaison asynchrone. |
Unités : nombre Statistiques valides : moyenne, maximum, minimum |
|
Âge de la requête la plus ancienne de la file d'attente. |
Unités : secondes Statistiques valides : moyenne, maximum, minimum |
|
La valeur de cette métrique est |
Unités : nombre Statistiques valides : Moyenne |
Les métriques suivantes sont publiées avec les dimensions EndpointName et VariantName :
| Nom de la métrique | Description | Unité/Statistiques |
|---|---|---|
|
Lorsqu'un échec d'inférence survient en raison d'un problème lors du téléchargement de la requête depuis Amazon S3. |
Unités : nombre Statistiques valides : somme |
|
Lorsqu'un échec d'inférence survient en raison d'un problème lors du chargement de la réponse vers Amazon S3. |
Unités : nombre Statistiques valides : somme |
|
Lorsqu'un problème survient pendant la publication de notifications. |
Unités : nombre Statistiques valides : somme |
|
Temps total de téléchargement de la charge utile de la requête. |
Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
|
Temps total de chargement de la charge utile de la réponse. |
Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
|
Nombre de requêtes dans la file d'attente qui échouent en raison de leur durée de vie de requête spécifiée. |
Unités : nombre Statistiques valides : somme |
|
Si une invocation échoue pour quelque raison que ce soit. |
Unités : nombre Statistiques valides : somme |
|
Nombre d'invocations asynchrones traitées par le point de terminaison. |
Unités : nombre Statistiques valides : somme |
|
Durée totale pendant laquelle la requête a été mise en file d'attente avant d'être traitée. Cela n'inclut pas le temps de traitement réel (c'est-à-dire le temps de téléchargement, le temps de chargement, la latence du modèle). |
Unités : millisecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
|
Durée entre l’heure de réception de la demande d’inférence par SageMaker AI et la fin de son traitement. Cela inclut le temps dans le backlog et le temps nécessaire pour charger et envoyer des notifications de réponse, le cas échéant. |
Unités : millisecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
L'inférence asynchrone d'Amazon SageMaker inclut également des métriques au niveau de l'hôte. Pour en savoir plus sur les métriques de niveau hôte, consultez Tâches SageMaker AI et métriques de point de terminaison.
Journaux
En plus des modèles de journaux de conteneur qui sont publiés sur Amazon CloudWatch dans votre compte, vous obtenez également un nouveau journal de plateforme pour le suivi et le débogage des requêtes d'inférence.
Les nouveaux journaux sont publiés sous le groupe de journaux de points de terminaison :
/aws/sagemaker/Endpoints/[EndpointName]
Le nom de flux de journaux est composé des éléments suivants :
[production-variant-name]/[instance-id]/data-log.
Les lignes des journaux contiennent l'ID d'inférence de la requête, de sorte que les erreurs peuvent être facilement mappées à une requête particulière.