Workloads zur Datentransformation mit SageMaker Processing - Amazon SageMaker AI

Workloads zur Datentransformation mit SageMaker Processing

SageMaker Processing bezieht sich auf die Funktionen von SageMaker AI, Aufgaben zur Vor- und Nachverarbeitung von Daten sowie zum Feature Engineering und zur Modellbewertung in der vollständig verwalteten Infrastruktur von SageMaker AI auszuführen. Diese Aufgaben werden als Verarbeitungsjobs ausgeführt. Im Folgenden finden Sie Informationen und Ressourcen, um mehr über SageMaker Processing zu erfahren.

Mithilfe der SageMaker Processing API können Datenwissenschaftler Skripte und Notebooks ausführen, um Datensätze in Vorbereitung auf das Machine Learning zu verarbeiten, zu transformieren und zu analysieren. In Kombination mit anderen kritischen von SageMaker AI bereitgestellten Machine-Learning-Aufgaben, wie Training und Hosting, bietet Processing Ihnen die Vorteile einer vollständig verwalteten Machine-Learning-Umgebung, einschließlich der gesamten in SageMaker AI integrierten Sicherheits- und Compliance-Unterstützung. Sie haben die Flexibilität, die integrierten Datenverarbeitungscontainer zu verwenden oder eigene Container für die benutzerdefinierte Verarbeitungslogik bereitzustellen und anschließend Jobs für die Ausführung aus der verwalteten Infrastruktur von SageMaker AI zu übermitteln.

Anmerkung

Sie können einen Verarbeitungsjob programmgesteuert erstellen, indem Sie die CreateProcessingJob-API-Aktion in einer beliebigen Sprache aufrufen, die von SageMaker AI unterstützt wird, oder indem Sie die AWS CLI verwenden. Informationen darüber, wie diese API-Aktion in eine Funktion in der Sprache Ihrer Wahl übersetzt wird, finden Sie im Abschnitt Siehe auch von CreateProcessingJob und Auswahl eines SDK. Ein Beispiel für Python-Benutzer finden Sie im Abschnitt Amazon SageMaker Processing im SageMaker Python SDK. Alternativ finden Sie die vollständige Anforderungssyntax von create_processing_job in AWS SDK für Python (Boto3).

Das folgende Diagramm zeigt, wie Amazon SageMaker AI einen Verarbeitungsauftrag erstellt. Amazon SageMaker AI nimmt Ihr Skript, kopiert Ihre Daten aus Amazon Simple Storage Service (Amazon S3) und ruft dann einen Verarbeitungscontainer ab. Die zugrunde liegende Infrastruktur für einen Verarbeitungsauftrag wird vollständig von Amazon SageMaker AI verwaltet. Nach der Übermittlung eines Auftrags startet SageMaker AI die Rechen-Instances, verarbeitet und analysiert die Eingabedaten und gibt die Ressourcen nach Abschluss frei. Die Ausgabe des Processing-Auftrages wird im Amazon-S3-Bucket gespeichert, den Sie angegeben haben.

Anmerkung

Die Eingabedaten müssen in einem Amazon-S3-Bucket gespeichert sein. Alternativ können Sie Amazon Athena oder Amazon Redshift als Eingabequellen verwenden.

Ausführen eines Verarbeitungsauftrags.
Tipp

Bewährte Methoden für verteiltes Rechnen für Training und Verarbeitung von Machine Learning (ML) im Allgemeinen finden Sie unter Verteilte Datenverarbeitung mit den Best Practices von SageMaker AI.

Verwenden Sie Amazon SageMaker Processing Sample Notebooks

Anhand von zwei Beispiel-Jupyter-Notebooks zeigen wir, wie Datenvorverarbeitung, Modellauswertung oder beides durchgeführt werden.

Ein Beispiel-Notebook, in dem gezeigt wird, wie scikit-learn-Skripte zur Datenvorverarbeitung, Modelltraining und -evaluierung mit dem SageMaker Python-SDK für Python von Processing ausgeführt werden, finden Sie unter scikit-learn-Verarbeitung. In diesem Notebook wird auch gezeigt, wie Sie einen eigenen benutzerdefinierten Container verwenden, um Verarbeitungslasten mit Python-Bibliotheken und anderen spezifischen Abhängigkeiten auszuführen.

Ein Beispiel-Notebook, in dem gezeigt wird, wie für die verteilte Datenverarbeitung mit Spark verwendet wird, finden Sie unter Verteilte Verarbeitung (Spark). Dieses Notebook zeigt auch, wie ein Regressionsmodell mit XGBoost mit dem vorverarbeiteten Datensatz trainiert wird.

Anleitungen zum Erstellen von und Zugreifen auf Jupyter-Notebook-Instances, die Sie zum Ausführen der Beispiele in SageMaker AI verwenden können, finden Sie unter Notebook-Instances für Amazon SageMaker. Nach dem Erstellen und Öffnen einer Notebook-Instance wählen Sie die Registerkarte SageMaker-AI-Beispiele aus, um eine Liste aller SageMaker-AI-Beispiele anzuzeigen. Zum Öffnen eines Notebooks wählen Sie die Registerkarte Verwenden und dann Kopie erstellen aus.

Überwachen Sie Amazon SageMaker-Verarbeitungsaufträge mit CloudWatch Logs und -Metriken

Amazon SageMaker Processing stellt Amazon CloudWatch-Protokolle und -Metriken zur Überwachung von Verarbeitungsaufträgen bereit. CloudWatch bietet CPU-, GPU-, Arbeitsspeicher-, GPU-Speicher- und Festplattenmetriken sowie Ereignisprotokollierung. Weitere Informationen erhalten Sie unter Metriken von Amazon SageMaker AI in Amazon CloudWatch und CloudWatch-Protokolle für Amazon SageMaker AI.