Datenvorbereitung
Anmerkung
Zuvor war Amazon SageMaker Data Wrangler Teil der Konfiguration von SageMaker Studio Classic. Wenn Sie nun auf die neue Studio-Konfiguration aktualisieren, müssen Sie SageMaker Canvas verwenden, um auf Data Wrangler zuzugreifen und die neuesten Funktionsupdates zu erhalten. Wenn Sie bisher Data Wrangler in Studio Classic verwendet haben und zu Data Wrangler in Canvas migrieren möchten, müssen Sie möglicherweise zusätzliche Berechtigungen erteilen, damit Sie eine Canvas-Anwendung erstellen und verwenden können. Weitere Informationen finden Sie unter (Optional) Migrieren von Data Wrangler in Studio Classic zu SageMaker Canvas.
Informationen zur Migration Ihrer Datenflüsse von Data Wrangler in Studio Classic finden Sie unter (Optional) Migrieren von Daten von Studio Classic zu Studio.
Verwenden Sie Amazon SageMaker Data Wrangler in Amazon SageMaker Canvas, um Ihre Daten zu importieren, vorzubereiten und zu analysieren. Sie können einen Data Wrangler-Datenvorbereitungsablauf in Ihre Workflows für Machine Learning (ML) integrieren, um die Datenvorverarbeitung und das Feature-Engineering mit wenig bis gar keiner Codierung zu vereinfachen und zu optimieren. Sie können auch Ihre eigenen Python-Skripts und -Transformationen hinzufügen, um Workflows anzupassen.
-
Daten-Flow – Erstellen Sie einen Daten-Flow, um eine Reihe von Schritten zur ML-Datenvorbereitung zu definieren. Sie können einen Flow verwenden, um Datensätze aus verschiedenen Datenquellen zu kombinieren, die Anzahl und die Typen von Transformationen zu ermitteln, die Sie auf Datensätze anwenden möchten, und einen Datenvorbereitungsworkflow zu definieren, der in eine ML-Pipeline integriert werden kann.
-
Transformieren – Bereinigen und transformieren Sie Ihren Datensatz mithilfe von Standardtransformationen wie String-, Vektor- und numerischen Datenformatierungstools. Präsentieren Sie Ihre Daten mithilfe von Transformationen wie Text- und Datums-/Uhrzeiteinbettung und kategorischer Kodierung.
-
Dateneinblicke generieren – Überprüfen Sie automatisch die Datenqualität und erkennen Sie Anomalien in Ihren Daten mit dem Datenqualitäts- und Insights-Bericht von Data Wrangler.
-
Analysieren – Analysieren Sie Features in Ihrem Datensatz an jedem beliebigen Punkt Ihres Daten-Flows. Data Wrangler umfasst integrierte Tools zur Datenvisualisierung wie Streudiagramme und Histogramme sowie Datenanalysetools wie Target Leakage Analysis und Schnellmodellierung, um die Merkmalskorrelation zu verstehen.
-
Export – Exportieren Sie Ihren Datenvorbereitungs-Workflow an einen anderen Ort. Im Folgenden finden Sie Beispiele für Standorte:
-
Amazon Simple Storage Service (Amazon S3)-Bucket
-
Amazon SageMaker Feature Store – Speichern Sie die Features und ihre Daten in einem zentralen Speicher.
-
-
Datenvorbereitung automatisieren – Erstellen Sie anhand Ihres Datenflusses Workflows für Machine Learning.
-
Amazon SageMaker Pipelines – Erstellen Sie Workflows, die Ihre SageMaker-AI-Datenvorbereitung, das Modelltraining und die Modellbereitstellung verwalten.
-
Serielle Inferenz-Pipeline – Erstellen Sie eine serielle Inferenz-Pipeline aus Ihrem Datenfluss. Verwenden Sie sie, um Vorhersagen für neue Daten zu treffen.
-
Python-Skript – Speichern Sie die Daten und ihre Transformationen in einem Python-Skript für Ihre benutzerdefinierten Workflows.
-