JumpStart Modelle und Lösungsvorlagen Algorithmen für überwachtes Lernen Unüberwachtes Lernen Textuelle Analyse Bildverarbeitung

Integrierte Algorithmen und vortrainierte Modelle in Amazon SageMaker

Amazon SageMaker bietet eine Reihe integrierter Algorithmen, vortrainierter Modelle und vorgefertigter Lösungsvorlagen, um Datenwissenschaftlern und Machine-Learning-Experten dabei zu helfen, schnell mit dem Training und der Implementierung von Modellen für maschinelles Lernen zu beginnen. Für jemanden, der noch keine Erfahrung damit hat SageMaker, kann die Auswahl des richtigen Algorithmus für Ihren speziellen Anwendungsfall eine schwierige Aufgabe sein. Die folgende Tabelle enthält einen kurzen Spickzettel, der zeigt, wie Sie mit einem Beispielproblem oder Anwendungsfall beginnen und einen geeigneten integrierten Algorithmus finden können SageMaker , der für diesen Problemtyp gültig ist. Zusätzliche Anleitungen, die nach Lernparadigmen (beaufsichtigt und unbeaufsichtigt) und wichtigen Datendomains (Text und Bilder) geordnet sind, finden Sie in den Abschnitten nach der Tabelle.

Tabelle: Zuordnung von Anwendungsfällen zu integrierten Algorithmen

Lernparadigma oder -domain	-Problemtypen	Beispiele für Probleme und Anwendungsfälle	Dateneingabeformat	Integrierte Algorithmen
Vorab trainierte Modelle und vorgefertigte Lösungsvorlagen	Bildklassifizierung Tabellarische Klassifizierung Tabellarische Regression Textklassifizierung Objekterkennung Einbettung von Text Beantwortete Frage Klassifizierung von Satzpaaren Einbettung von Bildern Named Entity Recognition Instance-Segmentierung Textgenerierung Textzusammenfassung Semantische Segmentierung Maschinelle Übersetzung	Hier einige Beispiele der 15 Problemtypen, die mit den von Amazon bereitgestellten vortrainierten Modellen und vorgefertigten Lösungsvorlagen behoben werden können: SageMaker JumpStart Beantwortung von Fragen: Chatbot, der eine Antwort auf eine bestimmte Frage ausgibt. Textanalyse: Analysieren Sie Texte aus Modellen, die für eine bestimmte Branche wie Finanzen spezifisch sind.	Bild, Text, Tabellarisch	Beliebte Modelle, darunter Mobilenet, YOLO, Faster R-CNN, BERT, LightGBM und CatBoost Eine Liste der verfügbaren vortrainierten Modelle finden Sie unter Modelle. JumpStart Eine Liste der verfügbaren vorgefertigten Lösungsvorlagen finden Sie unter JumpStart Lösungen.
Überwachtes Lernen	Binäre/Mehrklassen-Klassifizierung	Sagen Sie voraus, ob ein Artikel zu einer Kategorie gehört: einem E-Mail-Spamfilter	Tabellarisch	AutoGluon-Tabellenblatt, CatBoost, Faktorisierungsmaschinen Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, LightGBM, Algorithmus für lineares Lernen, TabTransformer, XGBoost Algorithmus mit Amazon SageMaker AI
	Regression	Einen numeric/continuous Wert vorhersagen: Schätzen Sie den Wert eines Hauses	Tabellarisch	AutoGluon-Tabellenblatt, CatBoost, Faktorisierungsmaschinen Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, LightGBM, Algorithmus für lineares Lernen, TabTransformer, XGBoost Algorithmus mit Amazon SageMaker AI
	Prognose von Zeitreihen	Prognostizieren Sie basierend auf historischen Daten für ein künftiges Verhalten: Prognostizieren Sie Verkäufe für ein neues Produkt auf der Grundlage früherer Verkaufsdaten.	Tabellarisch	Verwendung des DeepAR-Prognosealgorithmus von SageMaker AI
	Einbettungen: Wandelt Objekte mit hoher Dimensionalität in Umgebung mit niedriger Dimensionalität um.	Verbessern Sie die Dateneinbettung von Objekten mit hoher Dimensionalität: Identifizieren Sie doppelte Support-Tickets oder finden Sie anhand der Ähnlichkeit des Textes in den Tickets die richtige Weiterleitung	Tabellarisch	Object2Vec-Algorithmus
Unüberwachtes Lernen	Feature Engineering: Reduzierung der Dimensionalität	Löschen Sie die Spalten aus einem Datensatz, die eine schwache Beziehung zu der label/target Variablen haben: der Farbe eines Autos bei der Vorhersage seines Kilometerstands.	Tabellarisch	Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)
	Anomalie-Erkennung	Erkennen Sie abnormales Verhalten in der Anwendung: Stellen Sie fest, wenn ein IoT-Sensor abnormale Messwerte sendet	Tabellarisch	Random Cut Forest (RCF)-Algorithmus
	IP-Anomalie-Erkennung	Schützen Sie Ihre Anwendung vor verdächtigen Benutzern: Stellen Sie fest, ob eine IP-Adresse, die auf einen Dienst zugreift, möglicherweise von einem schlechten Akteur stammt	Tabellarisch	IP Insights
	Clustering oder Gruppierung	Gruppieren Sie ähnliche objects/data Produkte: Suchen Sie anhand ihrer Transaktionshistorie nach Kunden mit hohen, mittleren und niedrigen Ausgaben	Tabellarisch	k-Means-Algorithmus
	Themenmodellierung	Organisieren Sie eine Reihe von Dokumenten nach Themen (die im Voraus nicht bekannt sind): Kennzeichnen Sie ein Dokument basierend auf der im Dokument verwendeten Begriffe als zu einer medizinischen Kategorie gehörig.	Text	Latent Dirichlet Allocation (LDA)-Algorithmus, Algorithmus für neuronale Themenmodellierung (NTM)
Textuelle Analyse	Textklassifizierung	Ordnen Sie Dokumenten in einem Korpus vordefinierte Kategorien zu: kategorisieren Sie Bücher in einer Bibliothek nach akademischen Disziplinen	Text	BlazingText-Algorithmus, Textklassifizierung – TensorFlow
	Maschinelle Übersetzung Algorithmus	Text von einer Sprache in eine andere umwandeln: Spanisch > Englisch	Text	Sequence-to-Sequence-Algorithmus
	Textzusammenfassung	Fassen Sie einen langen Textkorpus zusammen: ein Überblick über eine Forschungsarbeit	Text	Sequence-to-Sequence-Algorithmus
	S peech-to-text	Audiodateien in Text umwandeln: Transkribieren Sie Callcenter-Konversationen zur weiteren Analyse	Text	Sequence-to-Sequence-Algorithmus
Bildverarbeitung	Klassifizierung von Bildern und Multi-Labels	Kennzeichnen Sie ein Bild basierend auf dem Bildinhalt: Warnmeldungen zu Inhalten für Erwachsene in einem Bild	Image	Bildklassifizierung – MXNet
	Bildklassifizierung	Klassifizieren Sie mithilfe von Transfer Learning etwas in einem Bild.	Image	Bildklassifizierung – TensorFlow
	Erkennung und Klassifizierung von Objekten	Erkennen Sie Personen und Objekte auf einem Bild: Die Polizei sucht in einer großen Bildergalerie nach einer vermissten Person	Image	Objekterkennung – MXNet, Objekterkennung – TensorFlow
	Computervision	Kennzeichnen Sie jedes Pixel eines Bildes einzeln mit einer Kategorie: Selbstfahrende Autos bereiten sich darauf vor, Objekte zu identifizieren, die ihnen im Weg sind	Image	Semantischer Segmentierungsalgorithm

Wichtige Informationen zu den folgenden Elementen, die allen von SageMaker KI bereitgestellten integrierten Algorithmen gemeinsam sind, finden Sie unterParameter für integrierte Algorithmen.

Docker-Registry-Pfade
Datenformate
empfohlene EC2 Amazon-Instance-Typen
CloudWatch Logs

Die folgenden Abschnitte enthalten zusätzliche Anleitungen zu den integrierten Algorithmen von Amazon SageMaker AI, gruppiert nach den Paradigmen für überwachtes und unbeaufsichtigtes Lernen, zu denen sie gehören. Eine Beschreibung dieser Lernparadigmen und der damit verbundenen Problemtypen finden Sie unter Arten von Algorithmen. Es werden auch Abschnitte zu den integrierten SageMaker KI-Algorithmen bereitgestellt, die für zwei wichtige Bereiche des maschinellen Lernens verfügbar sind: Textanalyse und Bildverarbeitung.

Vortrainierte Modelle und Lösungsvorlagen
Überwachtes Lernen
Unüberwachtes Lernen
Textuelle Analyse
Bildverarbeitung

Vortrainierte Modelle und Lösungsvorlagen

Amazon SageMaker JumpStart bietet eine große Auswahl an vortrainierten Modellen, vorgefertigten Lösungsvorlagen und Beispielen für beliebte Problemtypen. Diese verwenden sowohl das SageMaker SDK als auch Studio Classic. Weitere Informationen zu diesen Modellen, Lösungen und den von Amazon SageMaker JumpStart bereitgestellten Beispiel-Notebooks finden Sie unterSageMaker JumpStart vortrainierte Modelle.

Überwachtes Lernen

Amazon SageMaker AI bietet mehrere integrierte Allzweckalgorithmen, die entweder für Klassifizierungs- oder Regressionsprobleme verwendet werden können.

AutoGluon-Tabellenblatt – Ein Open-Source-AutoML-Framework, das erfolgreich ist, indem es Modelle zusammenfügt und sie in mehreren Ebenen stapelt.
CatBoost – Eine Implementierung des Gradient-Boosted Trees-Algorithmus, der ein geordnetes Boosting und einen innovativen Algorithmus für die Verarbeitung kategorischer Features einführt.
Faktorisierungsmaschinen Algorithmus – Eine Erweiterung eines linearen Modells ist darauf ausgelegt, Interaktionen zwischen Funktionen innerhalb von hochdimensionalen Datensätzen mit geringer Dichte automatisch wirtschaftlich zu erfassen.
K-nearest neighbors (k-NN)-Algorithmus – Eine nicht-parametrische Methode, bei der die k nächstgelegenen beschrifteten Punkte verwendet werden, um einen Wert zuzuweisen. Bei der Klassifizierung handelt es sich um eine Bezeichnung für einen neuen Datenpunkt. Bei der Regression handelt es sich um einen prognostizierten Zielwert aus dem Durchschnitt der k nächstgelegenen Punkte.
LightGBM – Eine Implementierung des Algorithmus Gradient-Boosted Trees der zwei neuartige Techniken zur Verbesserung der Effizienz und Skalierbarkeit hinzufügt. Diese beiden neuen Techniken sind Gradient-based One-Side Sampling (GOSS) und Exclusive Feature Bundling (EFB).
Algorithmus für lineares Lernen – lernt eine lineare Funktion für die Regression oder eine lineare Schwellenwertfunktion für die Klassifizierung.
TabTransformer— eine neuartige Architektur zur detaillierten tabellarischen Datenmodellierung, die auf self-attention-based Transformers basiert.
XGBoost Algorithmus mit Amazon SageMaker AI – Eine Implementierung des Gradient-Boosted Trees-Algorithmus, der eine Reihe einfacherer und schwächerer Modelle kombiniert.

Amazon SageMaker AI bietet auch mehrere integrierte Algorithmen für überwachtes Lernen, die für speziellere Aufgaben beim Feature-Engineering und bei Prognosen aus Zeitreihendaten verwendet werden.

Object2Vec-Algorithmus – Ein neuer, hochgradig anpassbarer Mehrzweckalgorithmus, der für das Feature Engineering verwendet wird. Er kann dichte Einbettungen mit niedriger Dimensionalität von Objekten mit hoher Dimensionalität erlernen und so Merkmale erzeugen, die das Trainingseffizienz für nachgeschaltete Modelle verbessern. Dabei handelt es sich zwar um einen überwachten Algorithmus, es gibt jedoch viele Szenarien, in denen die Beziehungsbezeichnungen ausschließlich aus natürlichen Clustern in Daten gewonnen werden können. Für das Training sind zwar markierte Daten erforderlich, dies kann jedoch auch ohne ausdrückliche menschliche Anmerkungen erfolgen.
Verwendung des DeepAR-Prognosealgorithmus von SageMaker AI – Ein Algorithmus für überwachtes Lernen zur Prognose von skalaren (eindimensionalen) Zeitreihen mithilfe von wiederkehrenden neuronalen Netzwerken (RNN).

Unüberwachtes Lernen

Amazon SageMaker AI bietet mehrere integrierte Algorithmen, die für eine Vielzahl von unbeaufsichtigten Lernaufgaben verwendet werden können. Zu diesen Aufgaben gehören beispielsweise Clustering, Dimensionsreduzierung, Mustererkennung und Anomalieerkennung.

Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)–reduziert die Dimensionalität (Anzahl der Features) innerhalb eines Datensatzes, indem Datenpunkte auf die ersten Hauptkomponenten projiziert werden. Ziel ist es, so viele Informationen oder Variationen wie möglich beizubehalten. Für Mathematiker sind die Hauptkomponenten Eigenvektoren der Kovarianzmatrix der Daten.
k-Means-Algorithmus – findet diskrete Gruppierungen innerhalb von Daten. Dies ist der Fall, wenn Mitglieder einer Gruppe sich so ähnlich wie möglich sind und sich so stark wie möglich von Mitgliedern anderer Gruppen unterscheiden.
IP Insights— lernt die Nutzungsmuster für IPv4 Adressen. Es wurde entwickelt, um Verknüpfungen zwischen IPv4 Adressen und verschiedenen Entitäten wie Benutzer- IDs oder Kontonummern zu erfassen.
Random Cut Forest (RCF)-Algorithmus – erkennt anomale Datenpunkte innerhalb eines Datensatzes, die von ansonsten gut strukturierten oder gemusterten Daten abweichen.

Textuelle Analyse

SageMaker KI bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind. Dies umfasst Text, der bei der Verarbeitung natürlicher Sprache, der Klassifizierung oder Zusammenfassung von Dokumenten, der Themenmodellierung oder -klassifizierung sowie der Transkription oder Übersetzung von Sprachen verwendet wird.

BlazingText-Algorithmus – Eine hochoptimierte Implementierung von Word2VEC und Textklassifizierungsalgorithmen, die sich problemlos auf große Datensätze skalieren lässt. Sie ist nützlich für viele nachgelagerte Aufgaben der natürlichen Sprachverarbeitung (NLP).
Sequence-to-Sequence-Algorithmus – Ein überwachter Algorithmus wird allgemein für neuronale maschinelle Übersetzung verwendet.
Latent Dirichlet Allocation (LDA)-Algorithmus – Ein Algorithmus eignet sich für die Bestimmung von Themen in einer Reihe von Dokumenten. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während des Trainings keine Beispieldaten mit Antworten verwendet werden.
Algorithmus für neuronale Themenmodellierung (NTM) – Eine weitere unüberwachte Technik zur Bestimmung von Themen in einer Reihe von Dokumenten mithilfe eines neuronalen Netzwerkansatzes.
Textklassifizierung – TensorFlow – Ein überwachter Algorithmus, der Transfer Learning mit verfügbaren vorab trainierten Modellen für die Textklassifizierung unterstützt.

Bildverarbeitung

SageMaker KI bietet auch Bildverarbeitungsalgorithmen, die zur Bildklassifizierung, Objekterkennung und Computer Vision verwendet werden.

Bildklassifizierung – MXNet–Er verwendet Beispieldaten mit Antworten (bezeichnet als überwachter Algorithmus). Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.
Bildklassifizierung – TensorFlow— verwendet vortrainierte TensorFlow Hub-Modelle zur Feinabstimmung für bestimmte Aufgaben (wird als überwachter Algorithmus bezeichnet). Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.
Semantischer Segmentierungsalgorithm – bietet einen fein abgestimmten Ansatz auf Pixelebene für die Entwicklung von Computer Vision-Anwendungen.
Objekterkennung – MXNet – erkennt und klassifiziert Objekte in Bildern mithilfe eines einzigen tiefen neuronalen Netzwerks. Es handelt sich um einen überwachten Lernalgorithmus, der Bilder als Eingabe akzeptiert und alle Instances von Objekten innerhalb der Bilderszene identifiziert.
Objekterkennung – TensorFlow – erkennt Begrenzungsrahmen und Objektbezeichnungen in einem Bild. Es handelt sich um einen Algorithmus für überwachtes Lernen, der Transfer-Lernen mit verfügbaren vortrainierten Modellen unterstützt. TensorFlow

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Arten von Algorithmen

Allgemeine Informationen