Erweiterte Konfigurationen für die Modellerstellung - Amazon SageMaker AI

Erweiterte Konfigurationen für die Modellerstellung

Amazon SageMaker Canvas unterstützt verschiedene erweiterte Einstellungen, die Sie beim Erstellen eines Modells konfigurieren können. Auf der folgenden Seite sind alle erweiterten Einstellungen zusammen mit zusätzlichen Informationen zu ihren Optionen und Konfigurationen aufgeführt.

Anmerkung

Die folgenden erweiterten Einstellungen werden derzeit nur für numerische, kategoriale und Zeitreihenprognosemodelle unterstützt.

Erweiterte Einstellungen für numerische und kategoriale Vorhersagemodelle

Canvas unterstützt die folgenden erweiterten Einstellungen für numerische und kategoriale Vorhersagemodelltypen.

Zielmetrik

Die Zielmetrik ist die Metrik, die Canvas beim Erstellen Ihres Modells optimieren soll. Wenn Sie keine Metrik auswählen, wählt Canvas standardmäßig eine für Sie aus. Beschreibungen der verfügbaren Metriken finden Sie unter Referenz zu den Metriken.

Trainingsmethode

Canvas kann anhand der Datensatzgröße die Trainingsmethode automatisch auswählen oder Sie können sie manuell auswählen. Die folgenden Trainingsmethoden stehen Ihnen zur Auswahl:

  • Ensembling – SageMaker AI nutzt die AutoGluon-Bibliothek, um mehrere Basismodelle zu trainieren. Um die optimale Kombination für Ihren Datensatz zu finden, führt der Ensemble-Modus 5–10 Versuche mit unterschiedlichen Modell- und Metaparametereinstellungen durch. Anschließend werden diese Modelle mithilfe einer Stacking-Ensemble-Methode kombiniert, um ein optimales Vorhersagemodell zu erstellen. Eine Liste der Algorithmen, die vom Ensemble-Modus für tabellarische Daten unterstützt werden, finden Sie im folgenden Algorithmen-Abschnitt.

  • Hyperparameter-Optimierung (HPO) – SageMaker AI ermittelt die optimale Version eines Modells, indem es Hyperparameter mithilfe von Bayes'scher Optimierung oder Multi-Fidelity-Optimierung anpasst, während Trainingsjobs für Ihren Datensatz ausgeführt werden. Der HPO-Modus wählt die Algorithmen aus, die für Ihren Datensatz am ehesten relevant sind, und wählt den optimalen Bereich für die Hyperparameter für die Optimierung Ihrer Modelle aus. Zur Optimierung Ihrer Modelle führt der HPO-Modus bis zu 100 Versuche durch (Standard), um die optimalen Einstellungen für die Hyperparameter innerhalb des ausgewählten Bereichs zu finden. Wenn Ihre Datensatzgröße weniger als 100 MB beträgt, verwendet SageMaker AI die Bayes'sche Optimierung. SageMaker AI wählt die Multi-Fidelity-Optimierung, wenn Ihr Datensatz größer als 100 MB ist.

    Eine Liste der Algorithmen, die vom HPO-Modus für tabellarische Daten unterstützt werden, finden Sie im folgenden Algorithmen-Abschnitt.

  • Automatisch – SageMaker AI wählt automatisch entweder den Ensemble-Modus oder den HPO-Modus basierend auf der Größe Ihres Datensatzes. Wenn Ihr Datensatz größer als 100 MB ist, wählt Autopilot HPO. Andernfalls wählt er den Ensembling-Modus.

Algorithmen

Im Ensembling-Modus unterstützt Autopilot die folgenden Algorithmen für Machine Learning:

  • LightGBM – Ein optimiertes Framework, das Baumalgorithmen mit Gradientenverstärkung nutzt. Dieser Algorithmus verwendet Bäume, die eher in die Breite als in die Tiefe wachsen, und ist in hohem Maße auf Geschwindigkeit optimiert.

  • CatBoost – Ein Framework, das Baumalgorithmen mit Gradientenverstärkung nutzt. Es ist für den Umgang mit kategorischen Variablen optimiert.

  • XGBoost – Ein Framework, das Baumalgorithmen mit Gradientenverstärkung verwendet, die eher in die Tiefe als in die Breite wachsen.

  • Random Forest – Ein Baumalgorithmus, der mehrere Entscheidungsbäume für zufällige Teilstichproben der Daten verwendet und ersetzt. Die Bäume werden auf jeder Ebene in optimale Knoten aufgeteilt. Die Entscheidungen der einzelnen Bäume werden zusammen gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern.

  • Extra Trees – Ein Baumalgorithmus, der für den gesamten Datensatz mehrere Entscheidungsbäume verwendet. Die Bäume werden auf jeder Ebene nach dem Zufallsprinzip aufgeteilt. Die Entscheidungen der einzelnen Bäume werden gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern. Zusätzliche Bäume sorgen im Vergleich zum Random-Forest-Algorithmus für ein gewisses Maß an Randomisierung.

  • Lineare Modelle – Ein Framework, das die Beziehung zwischen zwei Variablen in den beobachteten Daten mit Hilfe einer linearen Gleichung modelliert.

  • Neural Network Torch – Ein Modell für ein neuronales Netzwerk, das mit Pytorch implementiert wird.

  • Neural Network fast.ai – Ein Modell für ein neuronales Netzwerk, das mit fast.ai implementiert wird.

Im HPO-Modus unterstützt Canvas die folgenden Algorithmen für Machine Learning:

  • XGBoost – Ein Algorithmus für überwachtes Lernen, der versucht, eine Zielvariable genau vorherzusagen, indem mehrere Schätzungen anhand einer Menge einfacherer und schwächerer Modelle kombiniert werden.

  • Deep-Learning-Algorithmus – Ein künstliches neuronales Netzwerk mit mehrschichtigem Perceptron (MLP) und Feedforward. Dieser Algorithmus kann Daten verarbeiten, die nicht linear trennbar sind.

Datenteilung

Sie haben die Möglichkeit, festzulegen, wie Sie Ihren Datensatz zwischen dem Trainingssatz (dem Teil Ihres Datensatzes, der zum Erstellen des Modells verwendet wird) und dem Validierungssatz (dem Teil Ihres Datensatzes, der zum Überprüfen der Genauigkeit des Modells verwendet wird) aufteilen möchten. Ein gängiges Aufteilungsverhältnis ist beispielsweise 80 % Training und 20 % Validierung, wobei 80 % Ihrer Daten zum Aufbau des Modells verwendet werden, während 20 % für die Messung der Modellleistung gespeichert werden. Wenn Sie kein benutzerdefiniertes Verhältnis angeben, teilt Canvas Ihren Datensatz automatisch auf.

Max. Kandidaten

Anmerkung

Diese Feature ist ausschließlich im HPO-Trainingsmodus verfügbar.

Sie können die maximale Anzahl von Modellkandidaten angeben, die Canvas beim Erstellen Ihres Modells generiert. Wir empfehlen Ihnen, die Standardanzahl von Kandidaten (100) zu verwenden, um möglichst genaue Modelle zu erstellen. Die maximale Anzahl, die Sie angeben können, ist 250. Eine Verringerung der Anzahl der Modellkandidaten kann sich auf die Genauigkeit Ihres Modells auswirken.

Max. Auftragslaufzeit

Sie können die maximale Auftragslaufzeit oder die maximale Zeit festlegen, die Canvas für die Erstellung Ihres Modells benötigt. Nach Ablauf des Zeitlimits beendet Canvas die Erstellung und wählt den besten Modellkandidaten aus.

Die maximale Zeit, die Sie angeben können, beträgt 720 Stunden. Es wird dringend empfohlen, die maximale Auftragslaufzeit auf mehr als 30 Minuten festzulegen, um sicherzustellen, dass Canvas genügend Zeit hat, Modellkandidaten zu generieren und die Erstellung Ihres Modells abzuschließen.

Erweiterte Einstellungen für Zeitreihen-Prognosemodelle

Für Zeitreihen-Prognosemodelle unterstützt Canvas die Objective-Metrik, die im vorherigen Abschnitt aufgeführt ist.

Zeitreihen-Prognosemodelle unterstützen auch die folgenden erweiterten Einstellungen:

Algorithmusauswahl

Wenn Sie ein Zeitreihen-Prognosemodell erstellen, verwendet Canvas ein Ensemble (oder eine Kombination) aus statistischen und Machine-Learning-Lernalgorithmen, um äußert genaue Zeitreihenprognosen zu liefern. Standardmäßig wählt Canvas die optimale Kombination aller verfügbaren Algorithmen auf der Grundlage der Zeitreihen in Ihrem Datensatz aus. Sie haben jedoch die Möglichkeit, einen oder mehrere Algorithmen anzugeben, die für Ihr Prognosemodell verwendet werden sollen. In diesem Fall bestimmt Canvas die beste Mischung nur anhand der von Ihnen ausgewählten Algorithmen. Wenn Sie sich nicht sicher sind, welchen Algorithmus Sie für das Training Ihres Modells auswählen sollen, empfehlen wir Ihnen, alle verfügbaren Algorithmen auszuwählen.

Anmerkung

Die Auswahl des Algorithmus wird nur für Standard-Builds unterstützt. Wenn Sie in den erweiterten Einstellungen keine Algorithmen auswählen, führt SageMaker AI standardmäßig einen Quick-Build durch und trainiert Modellkandidaten mithilfe eines einzigen baumbasierten Lernalgorithmus. Weitere Informationen zum Unterschied zwischen Quick-Builds und Standard-Builds finden Sie unter So funktionieren benutzerdefinierte Modelle.

Canvas unterstützt die folgenden Algorithmen für Zeitreihenprognosen:

  • Autoregressive Integrated Moving Average (ARIMA) – ein einfaches stochastisches Zeitreihenmodell, das statistische Analysen zur Interpretation der Daten und zur Erstellung von Zukunftsprognosen verwendet. Dieser Algorithmus ist nützlich für einfache Datensätze mit weniger als 100 Zeitreihen.

  • Convolutional Neural Network – Quantile Regression (CNN-QR) – ein proprietärer, überwachter Lernalgorithmus, der ein globales Modell aus einer großen Sammlung von Zeitreihen trainiert und einen Quantil-Decoder verwendet, um Vorhersagen zu treffen. CNN-QR eignet sich am besten für große Datensätze, die Hunderte von Zeitreihen enthalten.

  • DeePar+ – ein proprietärer, überwachter Lernalgorithmus zur Vorhersage skalare Zeitreihen unter Verwendung rekurrenter neuronaler Netzwerke (RNNs), um ein einziges Modell gemeinsam über alle Zeitreihen hinweg zu trainieren. DeepAR+ funktioniert am besten mit umfangreichen Datensätzen, die Hunderte von Feature-Zeitreihen enthalten.

  • Non-Parametric Time Series (NPTS) – ein skalierbares, probabilistisches Basisprognosemodell, das die zukünftige Wertverteilung einer bestimmten Zeitreihe durch Stichproben aus vergangenen Beobachtungen vorhersagt. NPTS ist nützlich bei der Arbeit mit spärlichen oder intermittierenden Zeitreihen (z. B. bei der Prognose der Nachfrage nach einzelnen Artikeln, bei denen die Zeitreihe viele Nullen oder niedrige Werte aufweist).

  • Exponential Smoothing (ETS) – eine Prognosemethode, die Prognosen erstellt, die gewichtete Durchschnittswerte vergangener Beobachtungen sind, wobei die Gewichtung älterer Beobachtungen exponentiell abnimmt. Der Algorithmus eignet sich für einfache Datensätze mit weniger als 100 Zeitreihen und Datensätze mit saisonalen Mustern.

  • Prophet – ein additives Regressionsmodell, das am besten bei Zeitreihen mit starken saisonalen Effekten und mehreren Saisons historischer Daten funktioniert. Der Algorithmus ist nützlich für Datensätze mit nichtlinearen Wachstumstrends, die sich einem Grenzwert nähern.

Prognosequantile

Für Zeitreihenprognosen trainiert SageMaker AI 6 Modellkandidaten anhand Ihrer Zielzeitreihen. Anschließend kombiniert SageMaker AI diese Modelle mithilfe einer Stacking-Ensemble-Methode, um ein optimales Prognosemodell für eine bestimmte Zielmetrik zu erstellen. Jedes Prognosemodell erstellt eine probabilistische Prognose, indem es Prognosen in Quantilen zwischen P1 und P99 erstellt. Mit Hilfe dieser Quantile wird der Prognoseunsicherheit Rechnung getragen. Standardmäßig werden Prognosen für 0,1 (p10), 0,5 (p50) und 0,9 (p90) erzeugt. Sie können bis zu fünf Ihrer eigenen Quantile zwischen 0,01 (p1) und 0,99 (p99) in Schritten von 0,01 oder höher angeben.