Préparation des données

Note

Amazon SageMaker Data Wrangler faisait auparavant partie de l'expérience SageMaker Studio Classic. Désormais, si vous passez à la nouvelle expérience Studio, vous devez utiliser SageMaker Canvas pour accéder à Data Wrangler et recevoir les dernières mises à jour des fonctionnalités. Si vous utilisiez Data Wrangler dans Studio Classic jusqu’à présent et que vous souhaitez migrer vers Data Wrangler dans Canvas, vous devrez peut-être accorder des autorisations supplémentaires afin de pouvoir créer et utiliser une application Canvas. Pour de plus amples informations, veuillez consulter (Facultatif) Migrer de Data Wrangler dans Studio Classic vers Canvas SageMaker.

Pour savoir comment migrer vos flux de données depuis Data Wrangler dans Studio Classic, consultez (Facultatif) Migration des données de Studio Classic vers Studio.

Utilisez Amazon SageMaker Data Wrangler dans Amazon SageMaker Canvas pour préparer, présenter et analyser vos données. Vous pouvez intégrer un flux de préparation de données Data Wrangler dans vos flux de travail de machine learning (ML) afin de simplifier et de rationaliser le prétraitement des données et l’ingénierie des caractéristiques en utilisant peu ou pas de codage. Vous pouvez également ajouter vos propres scripts et transformations Python pour personnaliser les flux de travail.

Flux de données : créez un flux de données permettant de définir une série d’étapes de préparation des données ML. Vous pouvez utiliser un flux pour combiner des jeux de données provenant de différentes sources de données, identifier le nombre et les types de transformations que vous souhaitez appliquer aux jeux de données, et définir un flux de préparation des données qui peut être intégré à un pipeline ML.
Transformation : nettoyez et transformez votre jeu de données à l’aide de transformations standard, telles que les outils de formatage de chaînes, de vecteurs et de données numériques. Mettez en valeur vos données à l'aide de transformations telles que le texte, date/time l'intégration et le codage catégoriel.
Générer des informations à partir des données : vérifiez automatiquement la qualité des données et détectez des anomalies dans vos données grâce au rapport d’informations et de qualité des données de Data Wrangler.
Analyser : analysez les caractéristiques de votre jeu de données à n’importe quel moment de votre flux. Data Wrangler dispose d’outils intégrés de visualisation des données, tels que des diagrammes de dispersion et des histogrammes, ainsi que d’outils d’analyse des données, tels que l’analyse des fuites de caractéristique cible et la modélisation rapide pour comprendre la corrélation des caractéristiques.
Export (Exporter) : exportez votre flux de travail de préparation des données vers un autre emplacement. Voici des exemples d'emplacements :
- Compartiment Amazon Simple Storage Service (Amazon S3)
- Amazon SageMaker Feature Store : stockez les fonctionnalités et leurs données dans un magasin centralisé.
Automatiser la préparation des données : créez des flux de travail de machine learning à partir de votre flux de données.
- Amazon SageMaker Pipelines — Créez des flux de travail qui gèrent la préparation de vos données d' SageMaker IA, la formation des modèles et les tâches de déploiement de modèles.
- Pipeline d’inférence en série : créez un pipeline d’inférence en série à partir de votre flux de données. Utilisez-le pour faire des prédictions sur de nouvelles données.
- Script Python : stockez les données et leurs transformations dans un script Python pour vos flux de travail personnalisés.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Re-import un exemple de jeu de données supprimé

Création d’un flux de données