So funktionieren benutzerdefinierte Modelle - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So funktionieren benutzerdefinierte Modelle

Verwenden Sie Amazon SageMaker Canvas, um ein benutzerdefiniertes Modell für den Datensatz zu erstellen, den Sie importiert haben. Verwenden Sie das Modell, das Sie erstellt haben, um Vorhersagen für neue Daten zu treffen. SageMaker Canvas verwendet die Informationen im Datensatz, um bis zu 250 Modelle zu erstellen und das Modell auszuwählen, das die beste Leistung erbringt.

Wenn Sie mit der Erstellung eines Modells beginnen, empfiehlt Canvas automatisch einen oder mehrere Modelltypen. Modelltypen lassen sich in eine der folgenden Kategorien einteilen:

  • Numerische Vorhersage – Dies wird beim Machine Learning als Regression bezeichnet. Verwenden Sie den numerischen Prognosemodelltyp, wenn Sie Vorhersagen für numerische Daten treffen möchten. Möglicherweise möchten Sie den Preis von Häusern anhand von Features wie der Quadratmeterzahl des Hauses vorhersagen.

  • Kategorische Vorhersage – Dies wird beim Machine Learning als Klassifizierung bezeichnet. Wenn Sie Daten in Gruppen kategorisieren möchten, verwenden Sie die Typen von kategorialen Vorhersagemodellen:

    • Vorhersage mit 2 Kategorien – Verwenden Sie den Vorhersagemodelltyp 2 Kategorien (beim Machine Learning auch als binäre Klassifikation bezeichnet), wenn Sie zwei Kategorien haben, die Sie für Ihre Daten vorhersagen möchten. Beispielsweise können Sie feststellen, ob ein Kunde wahrscheinlich abwandern wird.

    • Vorhersage für 3 oder mehr Kategorien – Verwenden Sie den Modelltyp für die Vorhersage von Kategorien ab 3 oder mehr (beim Machine Learning auch als Klassifizierung mit mehreren Klassen bezeichnet), wenn Sie drei oder mehr Kategorien haben, die Sie für Ihre Daten vorhersagen möchten. So können Sie z. B. den Kreditstatus eines Kunden anhand von Features wie früheren Zahlungen vorhersagen.

  • Zeitreihenprognosen – Verwenden Sie Zeitreihenprognosen, wenn Sie Vorhersagen über einen bestimmten Zeitraum treffen möchten. So können Sie beispielsweise die Anzahl der Artikel vorhersagen, die Sie im nächsten Quartal verkaufen werden. Informationen zu Zeitreihenprognosen finden Sie unter Zeitreihenprognosen in Amazon SageMaker Canvas.

  • Bildvorhersage – Verwenden Sie den Modelltyp für die Bildvorhersage mit einer einzigen Beschriftung (beim Machine Learning auch als Bildklassifizierung mit einfacher Bezeichnung bezeichnet), wenn Sie Bildern Beschriftungen zuweisen möchten. So können Sie z. B. verschiedene Arten von Herstellungsfehlern in Bildern Ihres Produkts klassifizieren.

  • Textvorhersage – Verwenden Sie den Modelltyp für Textvorhersagen mit mehreren Kategorien (beim Machine Learning auch als Textklassifizierung mit mehreren Klassen bezeichnet), wenn Sie Textpassagen Beschriftungen zuweisen möchten. Angenommen, Sie verfügen über einen Datensatz mit Kundenrezensionen für ein Produkt und möchten ermitteln, ob Kunden das Produkt möchten oder nicht. Sie könnten Ihr Modell vorhersagen lassen, ob eine bestimmte Textpassage Positive, Negative, oder Neutral ist.

Eine Tabelle der unterstützten Eingabedatentypen für jeden Modelltyp finden Sie unter Benutzerdefinierte Modelle.

Für jedes tabellarische Datenmodell, das Sie erstellen (das numerische, kategoriale, Zeitreihenprognosen und Textvorhersagemodelle umfasst), wählen Sie die Zielspalte aus. Die Zielspalte ist die Spalte, die die Informationen enthält, die Sie vorhersagen möchten. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob Personen ihre Abonnements gekündigt haben, enthält die Zielspalte Datenpunkte, die entweder ein yes oder ein no zum Kündigungsstatus einer Person sind.

Bei Modellen zur Bildvorhersage erstellen Sie das Modell mit einem Datensatz von Bildern, denen Beschriftungen zugewiesen wurden. Für die unbeschrifteten Bilder, die Sie bereitstellen, prognostiziert das Modell eine Beschriftung. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob es sich bei dem Bild um eine Katze oder einen Hund handelt, geben Sie beim Erstellen des Modells Bilder an, die als Katzen oder Hunde gekennzeichnet sind. Dann kann das Modell unbeschriftete Bilder akzeptieren und sie entweder als Katzen oder Hunde vorhersagen.

Was geschieht, wenn Sie ein Modell erstellen

Um Ihr Modell zu erstellen, können Sie entweder einen Schnellaufbau oder einen Standardaufbau wählen. Der Schnellaufbau hat eine kürzere Bauzeit, der Standardaufbau hat jedoch im Allgemeinen eine höhere Genauigkeit.

Bei tabellarischen und Zeitreihen-Prognosemodellen verwendet Canvas Downsampling, um die Größe von Datensätzen zu reduzieren, die größer als 5 GB bzw. 30 GB sind. Canvas führt ein Downsampling mit der stratifizierten Sampling-Methode durch. Die folgende Tabelle listet die Größe des Downsamples nach Modelltyp auf. Zur Steuerung des Sampling-Verfahrens können Sie Data Wrangler in Canvas verwenden, um mit Ihrer bevorzugten Sampling-Methode Stichproben zu ziehen. Bei Zeitreihendaten können Sie ein Resampling durchführen, um Datenpunkte zu aggregieren. Weitere Informationen zum Sampling finden Sie unter Sampling. Weitere Informationen zum Resampling von Zeitreihendaten finden Sie unter Nehmen Sie erneut Proben aus den Zeitreihendaten.

Wenn Sie sich für einen Quick-Build eines Datensatzes mit mehr als 50 000 Zeilen entscheiden, reduziert Canvas Ihre Daten auf 50 000 Zeilen, um die Modelltrainingszeit zu verkürzen.

In der folgenden Tabelle werden die wichtigsten Merkmale des Modellbildungsprozesses zusammengefasst, darunter die durchschnittlichen Erstellungszeiten für jedes Modell und jeden Modelltyp, die Größe der Downsampling-Datei bei der Erstellung von Modellen mit großen Datensätzen sowie die minimale und maximale Anzahl von Datenpunkten, die für jeden Modelltyp erforderlich sind.

Limit Numerische und kategoriale Vorhersage Zeitreihenprognosen Bildvorhersage Textvorhersage

Schnelle Aufbauzeit

2-20 Minuten

2-20 Minuten

15-30 Minuten

15-30 Minuten

Standardbauzeit

2-4 Stunden

2-4 Stunden

2-5 Stunden

2-5 Stunden

Downsampling-Größe (die reduzierte Größe eines großen Datensatzes nach dem Canvas-Downsampling)

5 GB

30 GB

Mindestanzahl von Einträgen (Zeilen) für Schnellaufbau

Kategorie 2: 500 Zeilen

Kategorie 3+, numerisch, Zeitreihen: N/A

Mindestanzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau

250

50

50

Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Schnellaufbau

5000

7500

Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau

150.000

180 000

Maximale Anzahl von Spalten

1.000

1.000

Canvas prognostiziert Werte anhand der Informationen im Rest des Datensatzes, je nach Modelltyp:

  • Für kategoriale Vorhersagen ordnet Canvas jede Zeile einer der Kategorien zu, die in der Spalte Ziel aufgeführt sind.

  • Für numerische Vorhersagen verwendet Canvas die Informationen im Datensatz, um die numerischen Werte in der Zielspalte vorherzusagen.

  • Für Zeitreihenprognosen verwendet Canvas historische Daten, um Werte für die Zielspalte in der Zukunft vorherzusagen.

  • Für die Bildvorhersage verwendet Canvas Bilder, denen Beschriftungen zugewiesen wurden, um Beschriftungen für Bilder ohne Beschriftungen vorherzusagen.

  • Für die Textvorhersage analysiert Canvas Textdaten, denen Beschriftungen zugewiesen wurden, um Beschriftungen für Textpassagen ohne Beschriftungen vorherzusagen.

Zusätzliche Features, die Ihnen bei der Erstellung Ihres Modells helfen

Bevor Sie Ihr Modell erstellen, können Sie Data Wrangler in Canvas verwenden, um Ihre Daten mithilfe von mehr als 300 integrierten Transformationen und Operatoren vorzubereiten. Data Wrangler unterstützt Transformationen sowohl für tabellarische als auch für Bilddatensätze. Darüber hinaus können Sie eine Verbindung zu Datenquellen außerhalb von Canvas herstellen, Aufträge erstellen, um Transformationen auf Ihren gesamten Datensatz anzuwenden, und Ihre vollständig vorbereiteten und bereinigten Daten zur Verwendung in ML-Workflows außerhalb von Canvas exportieren. Weitere Informationen finden Sie unter Datenaufbereitung.

Um Visualisierungen und Analysen anzuzeigen, mit denen Sie Ihre Daten untersuchen und festlegen können, welche Features in Ihr Modell aufgenommen werden sollen, können Sie die integrierten Analysen von Data Wrangler verwenden. Sie können auch auf einen Datenqualitäts- und Insights-Bericht zugreifen, in dem potenzielle Probleme mit Ihrem Datensatz hervorgehoben und Empfehlungen zu deren Behebung gegeben werden. Weitere Informationen finden Sie unter Durchführen einer explorativen Datenanalyse (EDA).

Zusätzlich zu den fortschrittlicheren Funktionen zur Datenaufbereitung und Erkundung von Daten, die von Data Wrangler bereitgestellt werden, bietet Canvas einige grundlegende Features, die Sie verwenden können:

  • Informationen zum Filtern Ihrer Daten und zum Zugriff auf eine Reihe grundlegender Datentransformationen finden Sie unter Vorbereiten der Daten für die Modellerstellung.

  • Informationen zum Zugriff auf einfache Visualisierungen und Analytik für die Erkundung von Features finden Sie unter Datenexploration und Analyse.

  • Weitere Informationen zu zusätzlichen Featureswie der Vorschau Ihres Modells, der Validierung Ihres Datensatzes und der Änderung der Größe der Zufallsstichprobe, die zur Erstellung Ihres Modells verwendet wurde, finden Sie unter Zeigen Sie eine Vorschau Ihres Modells an.

Bei tabellarischen Datensätzen mit mehreren Spalten (z. B. Datensätze für die Erstellung von Modelltypen für kategoriale, numerische oder Zeitreihenprognosen) gibt es möglicherweise Zeilen mit fehlenden Datenpunkten. Während Canvas das Modell erstellt, fügt es fehlende Werte automatisch hinzu. Canvas verwendet die Werte in Ihrem Datensatz, um eine mathematische Näherung für die fehlenden Werte durchzuführen. Für die höchste Modellgenauigkeit empfehlen wir, die fehlenden Daten hinzuzufügen, wenn Sie sie finden können. Beachten Sie, dass die Feature für fehlende Daten für Modelle zur Textvorhersage oder Bildvorhersage nicht unterstützt wird.

Erste Schritte

Informationen zu den ersten Schritten beim Erstellen eines benutzerdefinierten Modells finden Sie in Ein Modell erstellen und folgen Sie dem Verfahren für den Modelltyp, den Sie erstellen möchten.