Informations sur l'agent - Évaluations - Amazon CloudWatch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Informations sur l'agent - Évaluations

Les évaluations fournissent des mesures de surveillance continue de la qualité à vos agents d'intelligence artificielle. Vous pouvez utiliser les informations fournies par le tableau de bord pour évaluer les performances, la qualité et la fiabilité de vos agents d'IA.

Au lieu de s'appuyer sur des cas de test simulés, les évaluations capturent les sessions utilisateur réelles et les interactions des agents, fournissant ainsi une vue complète des performances des agents, de l'entrée à la sortie finale. Avec les évaluations des agents, vous pouvez définir des règles d'échantillonnage pour évaluer uniquement un pourcentage des sessions ou des traces, puis appliquer divers évaluateurs pour évaluer et évaluer les performances opérationnelles d'un agent IA. Les évaluations et les scores obtenus sont affichés dans le tableau de bord des évaluations, ce qui vous permet de suivre les tendances, d'identifier les problèmes de qualité potentiels, de définir des alarmes et d'étudier et de diagnostiquer les problèmes potentiels.

Le tableau de bord des évaluations répertorie toutes les évaluations qui ont été activées et configurées pour l'agent sélectionné. Pour plus d'informations sur la configuration des évaluations pour un agent, consultez la section AgentCore évaluations. Vous pouvez développer chaque évaluation pour afficher les sessions, les traces et les périodes évaluées.

Evaluations

Détails des évaluations

Pour chaque évaluation, le tableau de bord comprend les sections suivantes :

Evaluation configuration metrics

Fournit des métriques pour la configuration globale de l'évaluation. Un évaluateur définit comment évaluer un aspect spécifique de la performance d'un agent d'intelligence artificielle. Pour obtenir plus de détails sur un évaluateur, choisissez son nom dans la colonne Evaluateur. Pour afficher un graphique à barres et analyser les tendances pour un évaluateur, choisissez la valeur dans la colonne Nombre.

Métriques de configuration d'évaluation
Session evaluations

Fournit les résultats d'évaluation aux évaluateurs au niveau de la session. Une session représente un regroupement logique d'interactions connexes provenant d'un seul utilisateur ou d'un seul flux de travail. Une session peut contenir une ou plusieurs traces. Vous pouvez choisir une session à filtrer jusqu'à la liste des traces de cette session dans la section Évaluations des traces.

Évaluations des sessions
Trace evaluations

Fournit les résultats d'évaluation aux évaluateurs au niveau du suivi. Une trace est un enregistrement complet de l'exécution ou de la demande d'un seul agent. Une trace peut contenir une ou plusieurs plages. Choisissez une trace pour afficher les détails de la trace ainsi que tous les évaluateurs qui ont été exécutés sur cette trace.

Évaluations de suivi
Span evaluations

Fournit les résultats d'évaluation aux évaluateurs au niveau de l'échelle. Un intervalle représente les différentes opérations effectuées au cours de cette exécution. Choisissez une plage pour afficher les détails de la période ainsi que toutes les opérations effectuées au cours de cette période.

Évaluations de l'Espagne

Graphiques d'évaluations

Le tableau de bord des évaluations inclut également un graphique à barres pour chaque évaluateur. Les graphiques montrent les tendances de chaque évaluateur au fil du temps et vous permettent de définir des alarmes pour des valeurs métriques spécifiques. Pour définir une alarme, cliquez sur une barre dans le graphique, puis choisissez l'icône Alarme (cloche). Pour de plus amples informations, veuillez consulter Utilisation des CloudWatch alarmes Amazon.

Graphiques d'évaluations

Travailler avec les résultats de l'évaluation

Si vous avez besoin d'un accès direct aux données de vos résultats d'évaluation, ou si vous souhaitez créer des visualisations personnalisées ou travailler en dehors de la console d' AgentCore évaluation, vous pouvez accéder à vos résultats d'évaluation directement via les CloudWatch journaux, les CloudWatch métriques et les CloudWatch tableaux de bord.

Accès aux résultats des évaluations dans CloudWatch les journaux

Les résultats de votre évaluation sont automatiquement publiés dans CloudWatch Logs in Embedded Metric Format (EMF).

Pour trouver le groupe journal des résultats de votre évaluation
  1. Ouvrez la CloudWatch console.

  2. Dans le volet de navigation, choisissez Logs Management > Log groups.

  3. Recherchez ou accédez aux groupes de journaux avec le préfixe :/aws/bedrock-agentcore/evaluations/.

  4. Au sein de ce groupe de journaux, les événements du journal contiennent les résultats de l'évaluation.

Pour plus d'informations sur l'utilisation des groupes de journaux et l'interrogation des données des journaux, consultez les sections Utilisation des groupes de journaux et des flux de journaux et Analyse des données des CloudWatch journaux avec Logs Insights.

Accès aux métriques d'évaluation dans CloudWatch Metrics

Les métriques des résultats d'évaluation sont automatiquement extraites des journaux EMF (Embedded Metric Format) et publiées dans CloudWatch Metrics.

Pour trouver vos indicateurs d'évaluation
  1. Ouvrez la CloudWatch console.

  2. Dans le volet de navigation, choisissez Metrics > All metrics.

  3. Sélectionnez l'espace de noms Bedrock AgentCore /Evaluations.

  4. Parcourez les métriques disponibles par dimension.

Pour plus d'informations sur l'affichage et l'utilisation des métriques, voir Utilisation CloudWatch des métriques et représentation graphique des métriques.

Création de tableaux de bord personnalisés

Vous pouvez créer des tableaux de bord personnalisés pour visualiser vos indicateurs d'évaluation aux côtés d'autres indicateurs opérationnels.

Pour créer un tableau de bord avec des indicateurs d'évaluation
  1. Dans la CloudWatch console, choisissez Dashboards dans le volet de navigation.

  2. Choisissez Create dashboard (Créer un tableau de bord).

  3. Ajoutez des widgets et sélectionnez des métriques dans l'espace de noms AgentCoreBedrock/Evaluations.

  4. Personnalisez la plage de temps, les statistiques et le type de visualisation en fonction de vos besoins.

Pour obtenir des instructions détaillées, consultez les sections Création et utilisation de tableaux de bord personnalisés et Utilisation de CloudWatch tableaux de bord.

Configuration d'alarmes sur les métriques d'évaluation

Vous pouvez configurer des alarmes pour vous avertir lorsque les mesures d'évaluation dépassent les seuils que vous avez spécifiés, par exemple lorsque l'exactitude tombe en dessous des niveaux acceptables.

Pour créer une alarme sur les métriques d'évaluation
  1. Dans la CloudWatch console, choisissez Alarmes > Toutes les alarmes.

  2. Sélectionnez Créer une alerte.

  3. Choisissez Select metric et accédez à l'espace de noms AgentCoreBedrock/Evaluations.

  4. Sélectionnez la métrique que vous souhaitez surveiller.

  5. Configurez les conditions de seuil (seuil de détection dynamique des anomalies disponible lorsque vous n'avez pas besoin de spécifier un seuil numérique statique) et les actions de notification.

Pour obtenir des instructions détaillées, consultez les sections Utilisation des CloudWatch alarmes et Création CloudWatch d'une alarme basée sur un seuil statique.

Ressources supplémentaires