Daten exportieren - Amazon SageMaker AI

Daten exportieren

Exportieren Sie die Daten, um die Transformationen aus Ihrem Datenfluss auf den gesamten importierten Datensatz anzuwenden. Sie können jeden Knoten in Ihrem Datenfluss an die folgenden Speicherorte exportieren:

  • SageMaker-Canvas-Datensatz

  • Amazon S3

Wenn Sie Modelle in Canvas trainieren möchten, können Sie Ihren vollständigen, transformierten Datensatz als Canvas-Datensatz exportieren. Wenn Sie Ihre transformierten Daten in Machine-Learning-Workflows außerhalb von SageMaker Canvas verwenden möchten, können Sie Ihren Datensatz nach Amazon S3 exportieren.

Exportieren in einen Canvas-Datensatz

Befolgen Sie die folgenden Schritte, um einen SageMaker-Canvas-Datensatz aus einem Knoten in Ihrem Datenfluss zu exportieren.

So exportieren Sie einen Knoten in Ihrem Fluss als SageMaker-Canvas-Datensatz
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Auslassungszeichen neben dem Knoten, den Sie exportieren möchten.

  3. Bewegen Sie den Mauszeiger im Kontextmenü über Exportieren und wählen Sie anschließend Daten in Canvas-Datensatz exportieren aus.

  4. Geben Sie im Seitenbereich In Canvas-Datensatz exportieren, einen Datensatznamen für den neuen Datensatz ein.

  5. Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Sie möchten, dass SageMaker Canvas Ihren vollständigen Datensatz verarbeitet und speichert. Deaktivieren Sie diese Option, um die Transformationen nur auf die Beispieldaten anzuwenden, mit denen Sie in Ihrem Datenfluss arbeiten.

  6. Wählen Sie Export aus.

Sie sollten nun in der Lage sein, die Seite Datensätze der Canvas-Anwendung aufzurufen und Ihren neuen Datensatz anzuzeigen.

Exportieren zu Amazon S3

Beim Export Ihrer Daten zu Amazon S3 können Sie die Skalierung anpassen, um Daten jeder Größe zu transformieren und zu verarbeiten. Canvas verarbeitet Ihre Daten automatisch lokal, sofern der Speicher der Anwendung die Größe Ihres Datensatzes bewältigen kann. Wenn die Größe Ihres Datensatzes die lokale Speicherkapazität von 5 GB überschreitet, initiiert Canvas in Ihrem Auftrag einen Remote-Auftrag, um zusätzliche Rechenressourcen bereitzustellen und die Daten schneller zu verarbeiten. Standardmäßig verwendet Canvas Amazon EMR Serverless, um diese Remote-Aufträge auszuführen. Sie können Canvas jedoch manuell so konfigurieren, dass entweder EMR Serverless oder ein SageMaker-Verarbeitungsauftrag mit Ihren eigenen Einstellungen verwendet wird.

Anmerkung

Bei der Ausführung eines EMR-Serverless-Auftrags übernimmt der Auftrag standardmäßig die IAM-Rolle, die KMS-Schlüsseleinstellungen und die Tags Ihrer Canvas-Anwendung.

Im Folgenden werden die Optionen für Remote-Aufträge in Canvas zusammengefasst:

  • EMR Serverless: Dies ist die Standardoption, die Canvas für Remote-Aufträge verwendet. EMR Serverless stellt automatisch Rechenressourcen bereit und skaliert diese, um Ihre Daten zu verarbeiten, sodass Sie sich keine Gedanken über die Auswahl der richtigen Rechenressourcen für Ihren Workload machen müssen. Weitere Informationen zu EMR Serverless finden Sie im Benutzerhandbuch für EMR Serverless.

  • SageMaker-Verarbeitung: SageMaker-Verarbeitungsaufträge bieten erweiterte Optionen und eine detaillierte Kontrolle über die Rechenressourcen, die zur Verarbeitung Ihrer Daten verwendet werden. Sie können beispielsweise den Typ und die Anzahl der Rechen-Instances angeben, den Auftrag in Ihrer eigenen VPC konfigurieren und den Netzwerkzugriff steuern, Verarbeitungsaufträge automatisieren und vieles mehr. Weitere Informationen zur Automatisierung von Verarbeitungsaufträgen finden Sie unter Erstellen eines Zeitplans für die automatische Verarbeitung neuer Daten. Allgemeine Informationen zu SageMaker-Verarbeitungsaufträgen finden Sie unter Workloads zur Datentransformation mit SageMaker Processing.

Die folgenden Dateitypen werden beim Export nach Amazon S3 unterstützt:

  • CSV

  • Parquet

Lesen Sie die folgenden Seiten, um zu beginnen.

Voraussetzungen für EMR-Serverless-Aufträge

Um einen Remote-Auftrag zu erstellen, der EMR-Serverless-Ressourcen verwendet, müssen Sie über die erforderlichen Berechtigungen verfügen. Sie können Berechtigungen entweder über die Domain von Amazon SageMaker AI oder die Benutzerprofileinstellungen gewähren oder Sie können die AWS-IAM-Rolle Ihres Benutzers manuell konfigurieren. Anweisungen zum Erteilen von Berechtigungen zur Verarbeitung großer Datenmengen finden Sie unter Gewähren von Berechtigungen zur Verwendung großer Datenmengen während des gesamten ML-Lebenszyklus für Benutzer.

Wenn Sie diese Richtlinien nicht konfigurieren möchten, aber dennoch große Datensätze mit Data Wrangler verarbeiten müssen, können Sie alternativ einen SageMaker-Verarbeitungsauftrag verwenden.

Gehen Sie wie folgt vor, um Ihre Daten nach Amazon S3 zu exportieren. Um einen Remote-Auftrag zu konfigurieren, befolgen Sie bitte die optionalen erweiterten Schritte.

So exportieren Sie einen Knoten in Ihrem Fluss nach Amazon S3
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Auslassungszeichen neben dem Knoten, den Sie exportieren möchten.

  3. Bewegen Sie den Mauszeiger im Kontextmenü über Exportieren und wählen Sie anschließend Daten nach Amazon S3 exportieren aus.

  4. Im Seitenbereich Nach Amazon S3 exportieren können Sie den Datensatznamen für den neuen Datensatz ändern.

  5. Geben Sie für den S3-Standort den Amazon-S3-Standort ein, in den Sie den Datensatz exportieren möchten. Sie können die S3-URI, den Alias oder die ARN des S3-Speicherorts oder des S3-Zugangspunkts eingeben. Weitere Informationen zu Zugangspunkten finden Sie unter Verwalten des Datenzugriffs mit Amazon S3 Access Points im Benutzerhandbuch für Amazon S3.

  6. (Optional) Geben Sie für erweiterte Einstellungen Werte für die folgenden Felder an:

    1. Dateityp – Das Dateiformat Ihrer exportierten Daten.

    2. Trennzeichen – Das Trennzeichen, das zum Trennen von Werten in der Datei verwendet wird.

    3. Komprimierung – die Komprimierungsmethode, mit der die Dateigröße reduziert wird.

    4. Anzahl der Partitionen – Die Anzahl der Datensatzdateien, die Canvas als Ausgabe des Auftrags schreibt.

    5. Spalten auswählen – Sie können eine Teilmenge von Spalten aus den Daten auswählen, die in die Partitionen aufgenommen werden sollen.

  7. lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Sie möchten, dass Canvas Ihre Datenflusstransformationen auf Ihren gesamten Datensatz anwendet und das Ergebnis exportiert. Wenn Sie diese Option deaktivieren, wendet Canvas die Transformationen nur auf die Stichprobe Ihres Datensatzes an, die im interaktiven Data Wrangler-Datenfluss verwendet wird.

    Anmerkung

    Wenn Sie nur eine Stichprobe Ihrer Daten exportieren, verarbeitet Canvas Ihre Daten in der Anwendung und erstellt keinen Remote-Auftrag für Sie.

  8. Lassen Sie die Option Automatische Auftragskonfiguration ausgewählt, wenn Sie möchten, dass Canvas automatisch entscheidet, ob der Auftrag mit dem Canvas-Anwendungsspeicher oder einem EMR-Serverless-Auftrag ausgeführt werden soll. Wenn Sie diese Option deaktivieren und Ihren Auftrag manuell konfigurieren, können Sie zwischen einem EMR-Serverless- und einem SageMaker-Verarbeitungsauftrag wählen. Anweisungen zum Konfigurieren eines EMR Serverless- oder SageMaker Verarbeitungsauftrags finden Sie im Abschnitt nach diesem Verfahren, bevor Sie Ihre Daten exportieren.

  9. Wählen Sie Export aus.

Die folgenden Verfahren zeigen, wie Sie die Einstellungen für den Remote-Auftrag für EMR-Serverless- oder SageMaker-Verarbeitung manuell konfigurieren können, wenn Sie Ihren vollständigen Datensatz nach Amazon S3 exportieren.

EMR Serverless

Um einen EMR-Serverless-Auftrag beim Exportieren nach Amazon S3 zu konfigurieren, gehen Sie wie folgt vor:

  1. Deaktivieren Sie im Seitenbereich „Nach Amazon S3 exportieren“ die Option Automatische Auftragskonfiguration.

  2. Wählen Sie EMR Serverless aus.

  3. Geben Sie für Auftragsname einen Namen für Ihren EMR-Serverless-Auftrag ein. Der Name kann Buchstaben, Zahlen, Bindestriche und Unterstriche enthalten.

  4. Geben Sie für die IAM-Rolle die IAM-Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen zum Ausführen von EMR-Serverless-Anwendungen verfügen. Weitere Informationen finden Sie unter Gewähren von Berechtigungen zur Verwendung großer Datenmengen während des gesamten ML-Lebenszyklus für Benutzer.

  5. (Optional) Geben Sie für KMS-Schlüssel die Schlüssel-ID oder den ARN eines AWS KMS key an, um die Auftragsprotokolle zu verschlüsseln. Wenn Sie keinen Schlüssel eingeben, verwendet Canvas einen Standardschlüssel für EMR Serverless.

  6. (Optional) Geben Sie für die Überwachungskonfiguration den Namen einer Protokollgruppe von Amazon CloudWatch Logs ein, in der Sie Ihre Protokolle veröffentlichen möchten.

  7. (Optional) Fügen Sie für Tags Metadaten-Tags zum EMR Serverless-Auftrag hinzu, die aus Schlüssel-Wert-Paaren bestehen. Diese Tags können zur Kategorisierung und Suche von Aufträgen verwendet werden.

  8. Wählen Sie Export, um den Auftrag zu starten.

SageMaker Processing

Um einen SageMaker-Verarbeitungsauftrag beim Exportieren nach Amazon S3 zu konfigurieren, gehen Sie wie folgt vor:

  1. Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Auftragskonfiguration.

  2. Wählen Sie SageMaker-Verarbeitung aus.

  3. Geben Sie unter Auftragsname einen Namen für Ihren SageMaker-AI-Verarbeitungsauftrag ein.

  4. Wählen Sie unter Instance-Typ den Typ der Rechen-Instance aus, auf der der Verarbeitungsauftrag ausgeführt werden soll.

  5. Geben Sie unter Anzahl der Instances die Anzahl der Instances an, die gestartet werden sollen.

  6. Geben Sie für die IAM-Rolle die IAM-Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen für SageMaker AI verfügen, um in Ihrem Namen Verarbeitungsaufträge zu erstellen und auszuführen. Diese Berechtigungen werden gewährt, wenn Sie die Richtlinie AmazonSageMakerFullAccess mit Ihrer IAM-Rolle verknüpft haben.

  7. Geben Sie für die Volumengröße die Speichergröße in GB für das ML-Speichervolumen ein, das jeder Verarbeitungs-Instance zugeordnet ist. Wählen Sie die Größe auf der Grundlage Ihrer erwarteten Eingabe- und Ausgabedatengröße.

  8. (Optional) Geben Sie für den Volume-KMS-Schlüssel einen KMS-Schlüssel an, um das Speichervolume zu verschlüsseln. Wenn Sie keinen Schlüssel angeben, wird der standardmäßige Amazon-EBS-Verschlüsselungsschlüssel verwendet.

  9. (Optional) Geben Sie für KMS-Schlüssel einen KMS-Schlüssel an, um die Eingabe- und Ausgabedatenquellen von Amazon S3 zu verschlüsseln, die vom Verarbeitungsauftrag verwendet werden.

  10. (Optional) Gehen Sie für Konfiguration des Spark-Speichers wie folgt vor:

    1. Geben Sie den Treiberspeicher in MB für den Spark-Treiberknoten ein, der die Auftragskoordination und -planung übernimmt.

    2. Geben Sie Executor-Speicher in MB für die Spark-Executor-Knoten ein, die einzelne Aufgaben im Auftrag ausführen.

  11. (Optional) Gehen Sie für Zusätzliche Konfigurationen wie folgt vor:

    1. Geben Sie für die Subnetzkonfiguration die IDs der VPC-Subnetze ein, in denen die Verarbeitungs-Instances gestartet werden sollen. Standardmäßig verwendet der Auftrag die Einstellungen Ihrer Standard-VPC.

    2. Geben Sie für die Sicherheitsgruppenkonfiguration die IDs der Sicherheitsgruppen ein, um die Regeln für eingehende und ausgehende Konnektivität zu steuern.

    3. Aktivieren Sie die Option Verschlüsselung des Datenverkehrs zwischen Containern aktivieren, um die Netzwerkkommunikation zwischen Verarbeitungscontainern während des Auftrags zu verschlüsseln.

  12. (Optional) Für Zeitpläne zuordnen können Sie einen Amazon-EventBridge-Zeitplan erstellen, damit der Verarbeitungsauftrag in regelmäßigen Abständen ausgeführt wird. Wählen Sie Neuen Zeitplan erstellen aus und füllen Sie das Dialogfeld aus. Weitere Informationen zum Ausfüllen dieses Abschnitts und zum Ausführen von Verarbeitungsaufträgen nach einem Zeitplan finden Sie unter Erstellen eines Zeitplans für die automatische Verarbeitung neuer Daten.

  13. (Optional) Fügen Sie Tags als Schlüssel-Wert-Paare hinzu, damit Sie Verarbeitungsaufträge kategorisieren und nach ihnen suchen können.

  14. Wählen Sie Exportieren aus, um den Verarbeitungsauftrag zu starten.

Nach dem Export Ihrer Daten sollten Sie den vollständig verarbeiteten Datensatz am angegebenen Amazon-S3-Speicherort finden.