CatBoost - Amazon SageMaker AI

CatBoost

CatBoost ist eine beliebte und leistungsstarke Open-Source-Implementierung des Gradient Boosting Decision Tree (GBDT)-Algorithmus. GBDT ist ein überwachter Lernalgorithmus, der versucht, eine Zielvariable genau vorherzusagen, indem Schätzungen aus einer Menge einfacherer und schwächerer Modelle kombiniert werden.

CatBoost führt zwei wichtige algorithmische Verbesserungen für GBDT ein:

  1. Die Implementierung von Ordered Boosting, einer permutationsgesteuerten Alternative zum klassischen Algorithmus

  2. Ein innovativer Algorithmus zur Verarbeitung kategorischer Features

Beide Techniken wurden entwickelt, um einer Verschiebung der Voraussage entgegenzuwirken, die durch eine besondere Art von Zielleckage verursacht wird, die in allen derzeit vorhandenen Implementierungen von Gradienten-Boosting-Algorithmen auftritt. Diese Seite enthält Informationen zu Empfehlungen für Amazon-EC2-Instances und Beispiel-Notebooks für CatBoost.

Empfehlungen für Amazon-EC2-Instances für den CatBoost-Algorithmus

SageMaker AI CatBoost trainiert derzeit nur mit CPUs. CatBoost ist ein speichergebundenes Algorithmus (im Gegensatz zu einem rechnergebundenen). Daher ist eine Allzweck-Datenverarbeitungs-Instance (z. B. M5) die bessere Wahl gegenüber einer für Datenverarbeitung optimierten Instance (z. B. C5). Des Weiteren empfehlen wir, dass Sie in ausgewählten Instances genügend Gesamtspeicher zur Verfügung haben, um die Trainingsdaten aufzunehmen.

CatBoost-Beispiel-Notebooks

In der folgenden Tabelle sind verschiedene Beispiel-Notebooks aufgeführt, die sich mit verschiedenen Anwendungsfällen des CatBoost-Algorithmus von Amazon SageMaker AI befassen.

Titel des Notebooks Beschreibung

Tabellarische Klassifizierung mit dem LightGBM- und CatBoost-Algorithmus von Amazon SageMaker AI

Dieses Notebook demonstriert die Verwendung des CatBoost-Algorithmus von Amazon SageMaker AI zum Trainieren und Hosten eines tabellarischen Klassifizierungsmodells.

Tabellarische Regression mit dem LightGBM- und CatBoost-Algorithmus von Amazon SageMaker AI

Dieses Notebook demonstriert die Verwendung des CatBoost-Algorithmus von Amazon SageMaker AI zum Trainieren und Hosten eines tabellarischen Regressionsmodells.

Anweisungen zum Erstellen von und Zugreifen auf Jupyter-Notebook-Instances, die Sie zum Ausführen des Beispiels in SageMaker AI verwenden können, finden Sie unter Notebook-Instances für Amazon SageMaker. Wenn Sie einer Notebook-Instance erstellt und geöffnet haben, wählen Sie die Registerkarte SageMaker-AI-Beispiele aus, um eine Liste aller SageMaker-AI-Beispiele anzuzeigen. Zum Öffnen eines Notebooks wählen Sie die Registerkarte Verwenden und dann Kopie erstellen aus.