Préparation des données - Amazon SageMaker AI

Préparation des données

Note

Auparavant, Amazon SageMaker Data Wrangler faisait partie de l’expérience SageMaker Studio Classic. Désormais, si vous optez pour la nouvelle expérience Studio, vous devez utiliser SageMaker Canvas pour accéder à Data Wrangler et recevoir les dernières mises à jour des fonctionnalités. Si vous utilisiez Data Wrangler dans Studio Classic jusqu’à présent et que vous souhaitez migrer vers Data Wrangler dans Canvas, vous devrez peut-être accorder des autorisations supplémentaires afin de pouvoir créer et utiliser une application Canvas. Pour plus d’informations, consultez (Facultatif) Migration de Data Wrangler dans Studio Classic vers SageMaker Canvas.

Pour savoir comment migrer vos flux de données depuis Data Wrangler dans Studio Classic, consultez (Facultatif) Migration des données de Studio Classic vers Studio.

Utilisez Amazon SageMaker Data Wrangler dans Amazon SageMaker Canvas pour préparer, caractériser et analyser vos données. Vous pouvez intégrer un flux de préparation de données Data Wrangler dans vos flux de travail de machine learning (ML) afin de simplifier et de rationaliser le prétraitement des données et l’ingénierie des caractéristiques en utilisant peu ou pas de codage. Vous pouvez également ajouter vos propres scripts et transformations Python pour personnaliser les flux de travail.

  • Flux de données : créez un flux de données permettant de définir une série d’étapes de préparation des données ML. Vous pouvez utiliser un flux pour combiner des jeux de données provenant de différentes sources de données, identifier le nombre et les types de transformations que vous souhaitez appliquer aux jeux de données, et définir un flux de préparation des données qui peut être intégré à un pipeline ML.

  • Transformation : nettoyez et transformez votre jeu de données à l’aide de transformations standard, telles que les outils de formatage de chaînes, de vecteurs et de données numériques. Caractérisez vos données à l’aide de transformations telles que la vectorisation de texte et de date/heure et l’encodage catégoriel.

  • Générer des informations à partir des données : vérifiez automatiquement la qualité des données et détectez des anomalies dans vos données grâce au rapport d’informations et de qualité des données de Data Wrangler.

  • Analyser : analysez les caractéristiques de votre jeu de données à n’importe quel moment de votre flux. Data Wrangler dispose d’outils intégrés de visualisation des données, tels que des diagrammes de dispersion et des histogrammes, ainsi que d’outils d’analyse des données, tels que l’analyse des fuites de caractéristique cible et la modélisation rapide pour comprendre la corrélation des caractéristiques.

  • Export (Exporter) : exportez votre flux de travail de préparation des données vers un autre emplacement. Voici des exemples d'emplacements :

    • Compartiment Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Feature Store : stockez les caractéristiques et leurs données dans un magasin centralisé.

  • Automatiser la préparation des données : créez des flux de travail de machine learning à partir de votre flux de données.

    • Amazon SageMaker Pipelines : générez des flux de travail qui gèrent vos tâches SageMaker AI de préparation des données, d’entraînement des modèles et de déploiement des modèles.

    • Pipeline d’inférence en série : créez un pipeline d’inférence en série à partir de votre flux de données. Utilisez-le pour faire des prédictions sur de nouvelles données.

    • Script Python : stockez les données et leurs transformations dans un script Python pour vos flux de travail personnalisés.