Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Tutorial: Erstellen Sie einen Workflow end-to-end für maschinelles Lernen in SageMaker Canvas
Dieses Tutorial führt Sie durch einen Workflow für end-to-end maschinelles Lernen (ML) mit Amazon SageMaker Canvas. SageMaker Canvas ist eine visuelle Schnittstelle ohne Code, mit der Sie Daten aufbereiten und ML-Modelle trainieren und bereitstellen können. Für das Tutorial verwenden Sie einen Datensatz zu New Yorker Taxis, um ein Modell zu trainieren, das den Fahrpreis für eine bestimmte Fahrt vorhersagt. Sie erhalten praktische Erfahrung mit wichtigen ML-Aufgaben wie der Bewertung der Datenqualität und der Behebung von Datenproblemen, der Aufteilung von Daten in Trainings- und Testsätze, dem Training und der Bewertung von Modellen, dem Erstellen von Prognosen und der Bereitstellung Ihres trainierten Modells — alles innerhalb der Canvas-Anwendung. SageMaker
Wichtig
In diesem Tutorial wird davon ausgegangen, dass Sie oder Ihr Administrator ein Konto erstellt haben. AWS Informationen zum Erstellen eines AWS Kontos finden Sie unter Erste Schritte: Sind Sie ein AWS Erstbenutzer?
Einrichtung
Eine Amazon SageMaker AI-Domain ist ein zentraler Ort zur Verwaltung all Ihrer Amazon SageMaker AI-Umgebungen und -Ressourcen. Eine Domain dient als virtuelle Grenze für Ihre Arbeit im Bereich SageMaker KI und bietet Isolierung und Zugriffskontrolle für Ihre Ressourcen für maschinelles Lernen (ML).
Um mit Amazon SageMaker Canvas zu beginnen, müssen Sie oder Ihr Administrator zur SageMaker AI-Konsole navigieren und eine Amazon SageMaker AI-Domain erstellen. Eine Domain verfügt über die Speicher- und Rechenressourcen, die Sie für die Ausführung von SageMaker Canvas benötigen. Innerhalb der Domain konfigurieren Sie SageMaker Canvas für den Zugriff auf Ihre Amazon S3 S3-Buckets und die Bereitstellung von Modellen. Gehen Sie wie folgt vor, um eine Quick-Domain einzurichten und eine SageMaker Canvas-Anwendung zu erstellen.
So richten Sie SageMaker Canvas ein
-
Navigieren Sie zur SageMaker AI-Konsole
. -
Wählen Sie in der linken Navigationsleiste SageMaker Canvas aus.
-
Wählen Sie „ SageMaker KI-Domain erstellen“.
-
Wählen Sie Einrichten aus. Die Einrichtung der Domain kann einige Minuten dauern.
Das vorherige Verfahren verwendete eine schnelle Domaineinrichtung. Sie können eine erweiterte Konfiguration vornehmen, um alle Aspekte der Kontoeinstellungen zu steuern, einschließlich Berechtigungen, Integrationen und Verschlüsselung. Weitere Informationen zu einer benutzerdefinierten Einrichtung finden Sie unter Benutzerdefiniertes Setup für Amazon SageMaker AI verwenden.
Standardmäßig erhalten Sie durch die schnelle Domaineinrichtung die Berechtigungen zum Bereitstellen von Modellen. Wenn Sie benutzerdefinierte Berechtigungen über eine Standarddomäne eingerichtet haben und manuell Berechtigungen für die Modellbereitstellung erteilen müssen, lesen Sie Berechtigungsverwaltung.
Flow-Erstellung
Amazon SageMaker Canvas ist eine Plattform für maschinelles Lernen, die es Benutzern ermöglicht, Modelle für maschinelles Lernen ohne umfangreiche Programmierkenntnisse oder maschinelles Lernen zu erstellen, zu trainieren und einzusetzen. Eine der leistungsstarken Funktionen von Amazon SageMaker Canvas ist die Möglichkeit, große Datensätze aus verschiedenen Quellen wie Amazon S3 zu importieren und mit ihnen zu arbeiten.
In diesem Tutorial verwenden wir den Taxidatensatz von NYC, um mithilfe eines Amazon SageMaker Canvas Data Wrangler-Datenflusses den Fahrpreis für jede Fahrt vorherzusagen. Das folgende Verfahren beschreibt die Schritte zum Importieren einer modifizierten Version des Datensatz zu New Yorker Taxis in einen Datenfluss.
Anmerkung
Zur besseren Verarbeitung importiert SageMaker Canvas eine Stichprobe Ihrer Daten. Standardmäßig werden 50 000 Zeilen nach dem Zufallsprinzip ausgewählt.
So importieren Sie den Datensatz zu New Yorker Taxis
-
Wählen Sie SageMaker auf der Canvas-Startseite Data Wrangler aus.
-
Wählen Sie Daten importieren.
-
Wählen Sie Tabellarisch aus.
-
Wählen Sie die Toolbox neben der Datenquelle aus.
-
Wählen Sie Amazon S3 aus der Dropdown-Liste aus.
-
Geben Sie für Eingabe des S3-Endpunktes die Option
s3://aus.amazon-sagemaker-data-wrangler-documentation-artifacts/canvas-single-file-nyc-taxi-dataset.csv -
Wählen Sie Go aus.
-
Aktivieren Sie das Kontrollkästchen neben dem Datensatz.
-
Wählen Sie Datenvorschau aus.
-
Wählen Sie Speichern.
Datenqualitäts- und Insights-Bericht 1 (Beispiel)
Nach dem Import eines Datensatzes in Amazon SageMaker Canvas können Sie einen Datenqualitäts- und Insights-Bericht für eine Stichprobe der Daten erstellen. Nutzen Sie ihn, um wertvolle Einblicke in den Datensatz zu gewinnen. Der Bericht bewirkt Folgendes:
-
Beurteilt die Vollständigkeit des Datensatzes
-
Identifiziert fehlende Werte und Ausreißer
Es kann andere potenzielle Probleme identifizieren, die sich auf die Modellleistung auswirken können. Außerdem wird die Vorhersagekraft der einzelnen Merkmale in Bezug auf die Zielvariable bewertet, sodass Sie die relevantesten Merkmale für das Problem, das Sie zu lösen versuchen, identifizieren können.
Wir können die Erkenntnisse aus dem Bericht nutzen, um die Höhe des Fahrpreises vorherzusagen. Indem Sie die Spalte für den Fahrpreis als Zielvariable angeben und Regression als Problemtyp auswählen, analysiert der Bericht, ob der Datensatz für die Vorhersage kontinuierlicher Werte wie Fahrpreise geeignet ist. Der Bericht sollte zeigen, dass Features wie year und Hour_of_Day eine geringe Aussagekraft für die gewählte Zielvariable haben, sodass Sie wertvolle Erkenntnisse gewinnen können.
Gehen Sie wie folgt vor, um einen Datenqualitäts- und Insights-Bericht basierend auf einer Stichprobe mit 50 000 Zeilen aus dem Datensatz zu erhalten.
So erhalten Sie einen Bericht basierend auf einer Stichprobe
-
Wählen Sie im Popup-Fenster neben dem Knoten Datentypen die Option Daten-Insights erhalten aus.
-
Geben Sie unter Analysename einen Namen für den Bericht an.
-
Wählen Sie als Problemtyp die Option Regression aus.
-
Wählen Sie für die Ziel-Spalte die Option Fahrpreis aus.
-
Wählen Sie Erstellen aus.
Sie können den Datenqualitäts- und Insights-Bericht basierend auf einer Stichprobe Ihrer Daten überprüfen. Aus dem Bericht geht hervor, dass die Features year und Hour_of_Day keine Vorhersage der Zielvariablen, dem Fahrpreis, ermöglichen.
Wählen Sie oben in der Navigation den Namen des Datenflusses aus, um zu ihm zurückzukehren.
Löschen von Jahr und Tageszeit
Wir verwenden die Insights aus dem Bericht, um die Spalten year und hour_of_day zu löschen, um den Feature-Bereich zu optimieren und möglicherweise die Modellleistung zu verbessern.
Amazon SageMaker Canvas bietet eine benutzerfreundliche Oberfläche und Tools zur Durchführung solcher Datentransformationen.
Gehen Sie wie folgt vor, um die Spalten year und hour_of_day mit dem Data Wrangler-Tool in Amazon Canvas aus dem NYC-Taxi-Datensatz zu löschen. SageMaker
-
Wählen Sie das Symbol neben Datentypen aus.
-
Wählen Sie Schritt hinzufügen.
-
Schreiben Sie in der Suchleiste den Text Spalte löschen.
-
Wählen Sie Spalten verwalten aus.
-
Wählen Sie Spalte löschen aus.
-
Wählen Sie für Zu löschende Spalten die Spalten year und hour_of_day aus.
-
Wählen Sie Vorschau, um zu sehen, wie Ihre Transformation Ihre Daten verändert.
-
Wählen Sie Hinzufügen aus.
Sie können das vorherige Verfahren als Grundlage verwenden, um alle anderen Transformationen in Canvas hinzuzufügen. SageMaker
Bericht 2 zur Datenqualität und zu Insights (vollständiger Datensatz)
Für den vorherigen Insights-Bericht haben wir eine Stichprobe des Datensatzes zum New Yorker Taxi verwendet. Für unseren zweiten Bericht führen wir eine umfassende Analyse des gesamten Datensatzes durch, um mögliche Probleme zu identifizieren, die sich auf die Modellleistung auswirken.
Gehen Sie wie folgt vor, um einen Datenqualitäts- und Insights-Bericht zu einem kompletten Datensatz zu erstellen.
So erhalten Sie einen Bericht über den gesamten Datensatz
-
Wählen Sie das Symbol neben dem Knoten Spalten löschen aus.
-
Wählen Sie Daten-Insights abrufen aus.
-
Geben Sie unter Analysename einen Namen für den Bericht an.
-
Wählen Sie als Problemtyp die Option Regression aus.
-
Wählen Sie für die Ziel-Spalte die Option Fahrpreis aus.
-
Wählen Sie für Datengröße die Option Vollständiger Datensatz aus.
-
Wählen Sie Erstellen aus.
Das Folgende ist ein Bild aus dem Insights-Bericht:
Er zeigt die folgenden Probleme:
-
Doppelte Zeilen
-
Verzerrtes Ziel
Doppelte Zeilen können zu Data Leakage führen, da das Modell während des Trainings und Testens denselben Daten ausgesetzt ist. Sie können zu übermäßig optimistischen Leistungskennzahlen führen. Durch das Entfernen doppelter Zeilen wird sichergestellt, dass das Modell anhand eindeutiger Instances trainiert wird, wodurch das Risiko von Data Leakage verringert und die Generalisierungsfähigkeit des Modells verbessert wird.
Eine verzerrte Verteilung der Zielvariablen, in diesem Fall die Spalte Fahrpreis, kann zu unausgewogenen Klassen führen, wodurch das Modell möglicherweise zugunsten der Mehrheitsklasse verzerrt wird. Dies kann zu einer schlechten Leistung bei Minderheitsklassen führen, was insbesondere in Szenarien problematisch ist, in denen die genaue Vorhersage seltener oder unterrepräsentierter Fälle von Bedeutung ist.
Behebung von Datenqualitätsproblemen
Um diese Probleme zu beheben und den Datensatz für die Modellierung vorzubereiten, können Sie nach den folgenden Transformationen suchen und diese anwenden:
-
Löschen Sie Duplikate mithilfe der Transformation Zeilen verwalten.
-
Behandeln Sie Ausreißer in der Spalte Fahrpreis mithilfe der numerischen Ausreißer mit robuster Standardabweichung.
-
Behandeln Sie Ausreißer in den Spalten Fahrtstrecke und Dauer mithilfe der numerischen Ausreißer mit robuster Standardabweichung.
-
Verwenden Sie die Option Kategorisch kodieren, um die Spalten Tarifcode-ID, Zahlungsart, Zusatzkennzeichen und Mautkennzeichen als Gleitkommazahlen zu kodieren.
Sollten Sie sich nicht sicher sein, wie Sie eine Transformation anwenden, lesen Sie Löschen von Jahr und Tageszeit.
Durch die Behebung dieser Datenqualitätsprobleme und die Anwendung geeigneter Transformationen können Sie die Eignung des Datensatzes für die Modellierung verbessern.
Überprüfung der Datenqualität und der Genauigkeit des Quick-Modells
Nach der Anwendung der Transformationen zur Behebung von Datenqualitätsproblemen, wie beispielsweise dem Entfernen doppelter Zeilen, erstellen wir unseren abschließenden Bericht zur Datenqualität und Insights. Dieser Bericht dient dazu, zu überprüfen, ob die angewandten Transformationen die Probleme behoben haben und der Datensatz nun für die Modellierung geeignet ist.
Bei der Überprüfung des abschließenden Berichts zu Datenqualität und Insights sollten Sie davon ausgehen, dass keine wesentlichen Probleme hinsichtlich der Datenqualität gemeldet werden. Aus dem Bericht sollte Folgendes hervorgehen:
-
Die Zielvariable ist nicht mehr verzerrt.
-
Es gibt keine Ausreißer oder doppelte Zeilen.
Darüber hinaus sollte der Bericht eine schnelle Modellbewertung enthalten, die auf einem Basismodell basiert, das anhand des transformierten Datensatzes trainiert wurde. Dieser Wert dient als erster Indikator für die potenzielle Genauigkeit und Leistung des Modells.
Gehen Sie wie folgt vor, um den Datenqualitäts- und Insights-Bericht zu erstellen.
So erstellen Sie einen Datenqualitäts- und Insights-Bericht
-
Wählen Sie das Symbol neben dem Knoten Spalten löschen aus.
-
Wählen Sie Daten-Insights abrufen aus.
-
Geben Sie unter Analysename einen Namen für den Bericht an.
-
Wählen Sie als Problemtyp die Option Regression aus.
-
Wählen Sie für die Ziel-Spalte die Option Fahrpreis aus.
-
Wählen Sie für Datengröße die Option Vollständiger Datensatz aus.
-
Wählen Sie Erstellen aus.
Aufteilen der Daten in Trainings- und Testdatensätze
Um ein Modell zu trainieren und seine Leistung zu bewerten, verwenden wir die Transformation Daten aufteilen, um die Daten in Trainings- und Testsätze aufzuteilen.
Standardmäßig verwendet SageMaker Canvas eine zufällige Aufteilung, aber Sie können auch die folgenden Arten von Teilungen verwenden:
-
Bestellt
-
Stratifiziert
-
Nach Schlüsseln aufteilen
Sie können den Prozentsatz für die Aufteilung ändern oder Teilungen hinzufügen.
Für dieses Tutorial verwenden Sie alle Standardeinstellungen in der Aufteilung. Sie müssen auf den Datensatz doppelklicken, um seinen Namen zu sehen. Der Trainingsdatensatz hat den Namen Dataset (Train).
Wenden Sie neben dem Ordinal-Codierungsknoten die Transformation Daten aufteilen an.
Trainieren von Modellen
Nachdem Sie Ihre Daten aufgeteilt haben, können Sie ein Modell trainieren. Dieses Modell lernt aus Mustern in Ihren Daten. Sie können es verwenden, um Vorhersagen zu treffen oder Erkenntnisse zu gewinnen.
SageMaker Canvas bietet sowohl Schnell-Builds als auch Standard-Builds. Verwenden Sie einen Standard-Build, um das leistungsstärkste Modell für Ihre Daten zu trainieren.
Bevor Sie mit dem Training eines Modells beginnen, müssen Sie den Trainingsdatensatz zunächst als SageMaker Canvas-Datensatz exportieren.
So exportieren Sie Ihren Datensatz
-
Wählen Sie neben dem Knoten für den Trainingsdatensatz das Symbol und dann Exportieren aus.
-
Wählen Sie den SageMaker Canvas-Datensatz aus.
-
Wählen Sie Exportieren aus, um den Datensatz zu exportieren.
Nachdem Sie einen Datensatz erstellt haben, können Sie ein Modell auf dem von Ihnen erstellten SageMaker Canvas-Datensatz trainieren. Für weitere Informationen zum Schulen eines Modells siehe Erstellen Sie ein benutzerdefiniertes numerisches oder kategoriales Vorhersagemodell.
Evaluieren des Modells und Treffen von Vorhersagen
Nach dem Training Ihres Machine-Learning-Modells ist es von entscheidender Bedeutung, dessen Leistung zu bewerten, um sicherzustellen, dass es Ihren Anforderungen entspricht und bei unbekannten Daten gut funktioniert. Amazon SageMaker Canvas bietet eine benutzerfreundliche Oberfläche, mit der Sie die Genauigkeit Ihres Modells beurteilen, seine Prognosen überprüfen und Einblicke in seine Stärken und Schwächen gewinnen können. Sie können die gewonnenen Erkenntnisse nutzen, um fundierte Entscheidungen über den Einsatz und mögliche Verbesserungsbereiche zu treffen.
Verwenden Sie das folgende Verfahren, um ein Modell zu bewerten, bevor Sie es bereitstellen.
So bewerten Sie ein Modell
-
Wählen Sie Meine Modelle aus.
-
Wählen Sie das Modell aus, das Sie erstellt haben.
-
Wählen Sie unter Versionen die Version aus, die dem Modell entspricht.
Sie können jetzt die Metriken zur Modellbewertung anzeigen.
Nachdem Sie das Modell evaluiert haben, können Sie Vorhersagen zu neuen Daten treffen. Wir verwenden den Testdatensatz, den wir erstellt haben.
Um den Testdatensatz für Vorhersagen zu verwenden, müssen wir ihn in einen SageMaker Canvas-Datensatz konvertieren. Der SageMaker Canvas-Datensatz hat ein Format, das das Modell interpretieren kann.
Gehen Sie wie folgt vor, um einen SageMaker Canvas-Datensatz aus dem Testdatensatz zu erstellen.
Um einen SageMaker Canvas-Datensatz zu erstellen
-
Wählen Sie neben dem Datensatz Dataset (Test) das Optionsfeld aus.
-
Wählen Sie Exportieren aus.
-
Wählen Sie den SageMaker Canvas-Datensatz aus.
-
Geben Sie als Datensatzname einen Namen für den Datensatz an.
-
Wählen Sie Export aus.
Gehen Sie wie folgt vor, um Vorhersagen zu treffen. Es wird davon ausgegangen, dass Sie sich weiterhin auf der Seite Analysieren befinden.
So treffen Sie Vorhersagen für den Testdatensatz
-
Wählen Sie Vorhersagen aus.
-
Wählen Sie Manuell aus.
-
Wählen Sie den Datensatz aus, den Sie exportiert haben.
-
Wählen Sie Vorhersagen generieren aus.
-
Wenn SageMaker Canvas mit der Generierung der Prognosen fertig ist, wählen Sie das Symbol rechts neben dem Datensatz aus.
-
Wählen Sie Vorschau aus, um die Prognosen anzuzeigen.
Bereitstellen eines Modells
Nachdem Sie Ihr Modell evaluiert haben, können Sie es auf einem Endpunkt bereitstellen. Sie können Anfragen an den Endpunkt senden, um Vorhersagen zu erhalten.
Gehen Sie wie folgt vor, um ein Modell bereitzustellen. Es wird davon ausgegangen, dass Sie sich weiterhin auf der Seite Vorhersagen befinden.
So stellen Sie ein Modell bereit
-
Wählen Sie Bereitstellen.
-
Wählen Sie Create deployment.
-
Wählen Sie Bereitstellen.
Bereinigen
Sie haben das Tutorial erfolgreich abgeschlossen. Um zusätzliche Kosten zu vermeiden, löschen Sie die Ressourcen, die Sie nicht verwenden.
Gehen Sie wie folgt vor, um den von Ihnen erstellten Endpunkt zu löschen. Es wird davon ausgegangen, dass Sie sich weiterhin auf der Seite Bereitstellen befinden.
So löschen Sie einen Endpunkt
-
Wählen Sie das Optionsfeld rechts neben Ihrer Bereitstellung aus.
-
Wählen Sie Bereitstellung löschen aus.
-
Wählen Sie Löschen aus.
Löschen Sie nach dem Löschen der Bereitstellung die Datensätze, die Sie in SageMaker Canvas erstellt haben. Führen Sie die folgenden Schritte aus, um die Datensätze zu löschen.
So löschen Sie die Datensätze
-
Wählen Sie im linken Navigationsbereich die Option Datensätze aus.
-
Wählen Sie den Datensatz aus, den Sie analysiert haben, und den synthetischen Datensatz, der für Vorhersagen verwendet wurde.
-
Wählen Sie Löschen aus.
Um zusätzliche Gebühren zu vermeiden, müssen Sie sich bei Canvas abmelden. SageMaker Weitere Informationen finden Sie unter Von Amazon SageMaker Canvas abmelden.