Qualité des données - Amazon SageMaker AI

Qualité des données

La surveillance de la qualité des données contrôle automatiquement les modèles de machine learning (ML) en production et vous avertit en cas de problèmes liés à la qualité des données. Les modèles ML en production doivent faire des prédictions par rapport aux données concrètes qui ne sont pas soigneusement organisées, comme la plupart des jeux de données pour l'entraînement. Si la nature statistique des données reçues par votre modèle en production diffère de la nature des données de référence sur lesquelles il a été entraîné, le modèle commence à produire des prédictions moins précises. Amazon SageMaker Model Monitor utilise des règles pour détecter les écarts dans vos modèles et vous en avertit le cas échéant. Pour contrôler la qualité des données, procédez comme suit :

  • Activez la capture de données. Les entrées et sorties d'inférence sont capturées à partir d'un point de terminaison d'inférence en temps réel ou d'une tâche de transformation par lots et les données sont stockées dans Amazon S3. Pour plus d’informations, consultez Capture des données.

  • Créez une tâche de référence. Dans cette étape, vous exécutez une tâche de référence qui analyse le jeu de données d'entrée que vous fournissez. La tâche calcule les contraintes et les statistiques du schéma de référence pour chaque fonction à l'aide de Deequ, une bibliothèque open source créée sur Apache Spark et utilisée pour mesurer la qualité des données dans les jeux de données volumineux. Pour plus d’informations, consultez Création d’une référence.

  • Définissez et planifiez des tâches de surveillance de la qualité des données. Pour obtenir des informations spécifiques et des exemples de code sur les tâches de surveillance de la qualité des données, consultez Planification des tâches de surveillance de la qualité des données. Pour des informations générales sur les tâches de surveillance, consultez Planification des tâches de surveillance.

    • Utilisez le cas échéant des scripts de prétraitement et de post-traitement pour transformer les données issues de votre analyse de la qualité des données. Pour plus d’informations, consultez Prétraitement et post-traitement.

  • Affichez les métriques de qualité des données. Pour plus d’informations, consultez Schéma des statistiques (fichier statistics.json).

  • Intégrez la surveillance de la qualité des données avec Amazon CloudWatch. Pour plus d’informations, consultez Métriques CloudWatch.

  • Interprétez les résultats d'une tâche de surveillance. Pour plus d’informations, consultez Interprétation des résultats.

  • Utilisez SageMaker Studio pour activer la surveillance de la qualité des données et afficher les résultats si vous utilisez un point de terminaison en temps réel. Pour plus d’informations, consultez Visualisation des résultats pour les points de terminaison en temps réel dans Amazon SageMaker Studio.

Note

Model Monitor calcule les mesures et les statistiques du modèle uniquement sur des données tabulaires. Par exemple, un modèle de classification d'images qui prend des images en tant qu'entrée et génère une étiquette basée sur ces images en sortie peut toujours être surveillé. Model Monitor serait capable de calculer des mesures et des statistiques pour la sortie, et non pour l'entrée.