Métriques Amazon CloudWatch pour la surveillance et l’analyse des tâches d’entraînement - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Métriques Amazon CloudWatch pour la surveillance et l’analyse des tâches d’entraînement

Une tâche d’entraînement Amazon SageMaker est un processus itératif d’enseignement d’un modèle pour effectuer des prédictions en présentant des exemples à partir d’un jeu de données d’entraînement. En règle générale, un algorithme d’entraînement calcule plusieurs métriques, telles que les erreurs d’entraînement et la précision des prédictions. Ces métriques permettent de diagnostiquer si le modèle apprend bien et généralisera pour effectuer des prédictions sur des données inconnues. L’algorithme d’entraînement écrit les valeurs de ces métriques dans des journaux, que SageMaker AI surveille et envoie à Amazon CloudWatch en temps réel. Pour analyser les performances de votre tâche d’entraînement, vous pouvez afficher des graphes de ces métriques dans CloudWatch. Lorsqu’une tâche d’entraînement est terminée, vous pouvez également obtenir une liste des valeurs de métriques qu’elle calcule dans son itération finale en appelant l’opération DescribeTrainingJob.

Note

Amazon CloudWatch prend en charge les métriques personnalisées haute résolution. Son niveau de résolution maximum est de 1 seconde. Cependant, plus la résolution est élevée, plus la durée de vie des métriques CloudWatch est courte. Pour une résolution d’une fréquence de 1 seconde, les métriques CloudWatch sont disponibles pendant 3 heures. Pour plus d’informations sur la résolution et la durée de vie des métriques CloudWatch, consultez GetMetricStatistics dans la Référence des API Amazon CloudWatch.

Astuce

Si vous souhaitez profiler votre tâche d’entraînement avec un niveau de résolution plus élevé jusqu’à une granularité de 100 millisecondes (0,1 seconde) et stocker les métriques d’entraînement indéfiniment dans Amazon S3 pour une analyse personnalisée à tout moment, envisagez d’utiliser Amazon SageMaker Debugger. SageMaker Debugger fournit des règles intégrées pour détecter automatiquement les problèmes d’entraînement courants. Il détecte les problèmes d’utilisation des ressources matérielles (tels que les goulets d’étranglement du processeur, du GPU et des I/O) et les problèmes de modèle non convergents (tels que le surajustement, les gradients de disparition et l’explosion des tenseurs). SageMaker Debugger fournit également des visualisations via Studio Classic et son rapport de profilage. Pour explorer les visualisations du débogueur, consultez Démonstration du tableau de bord SageMaker Debugger Insights, Démonstration du rapport de profilage Debugger et Analyser les données à l’aide de la bibliothèque client SMDebug.