Suivi des progrès au fil des itérations - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Suivi des progrès au fil des itérations

Vous pouvez suivre les métriques via MLflow.

Création d'une MLflow application

Utilisation de l'interface utilisateur de Studio : si vous créez une tâche de formation via l'interface utilisateur de Studio, une MLflow application par défaut est créée automatiquement et sélectionnée par défaut dans les options avancées.

Utilisation de la CLI : si vous utilisez la CLI, vous devez créer une MLflow application et la transmettre comme entrée à la demande d'API de la tâche de formation.

mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)

Accédez à l' MLflow application

À l'aide de la CLI : créez une URL pré-signée pour accéder à l'interface utilisateur de l' MLflow application :

aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text

Utilisation de l'interface utilisateur de Studio : l'interface utilisateur de Studio affiche les indicateurs clés enregistrés MLflow et fournit un lien vers l'interface utilisateur de MLflow l'application.

Indicateurs clés à suivre

Surveillez ces indicateurs au fil des itérations pour évaluer les améliorations et suivre l'avancement des travaux :

Pour SFT

  • Courbes de pertes d'entraînement

  • Nombre d'échantillons consommés et temps de traitement des échantillons

  • Précision des performances sur des ensembles de test conservés

  • Conformité au format (par exemple, débit de sortie JSON valide)

  • Perplexité quant aux données d'évaluation spécifiques à un domaine

Pour RFT

  • Scores de récompense moyens au cours de l'entraînement

  • Répartition des récompenses (pourcentage de réponses offrant des récompenses élevées)

  • Tendances en matière de récompenses de validation (attention aux surajustements)

  • Taux de réussite spécifiques aux tâches (par exemple, taux de réussite de l'exécution du code, précision des problèmes mathématiques)

Général

  • Comparez les deltas de performance entre les itérations

  • Scores d'évaluation humaine sur des échantillons représentatifs

  • Métriques de production (en cas de déploiement itératif)

Déterminer quand s'arrêter

Arrêtez d'itérer lorsque :

  • Plateaux de performance : l'entraînement supplémentaire n'améliore plus de manière significative les indicateurs cibles

  • Le changement de technique est utile : si une technique plafonne, essayez de la changer (par exemple, SFT → RFT → SFT) pour dépasser les plafonds de performance

  • Indicateurs cibles atteints : vos critères de réussite sont remplis

  • Régression détectée : les nouvelles itérations dégradent les performances (voir les procédures de restauration ci-dessous)

Pour les procédures d'évaluation détaillées, reportez-vous à la section Évaluation.