Trainieren von Daten-Labeling durch Menschen mit Amazon SageMaker Ground Truth
Um ein Modell für Machine Learning zu trainieren, benötigen Sie einen großen, hochwertigen, beschrifteten Datensatz. Ground Truth hilft Ihnen dabei, hochwertige Trainingsdatensätze für Ihre Machine-Learning-Modelle zu erstellen. Mit Ground Truth können Sie Auftragnehmer von entweder Amazon Mechanical Turk, einen Anbieter Ihrer Wahl oder interne, private Arbeitskräfte zusammen mit Machine Learning für die Erstellung eines beschrifteten Datensatzes verwenden. Sie können die beschrifteten Datensatzausgabe aus Ground Truth verwenden, um Ihre eigenen Modelle zu trainieren. Ebenso können Sie die Ausgabe als Trainingsdatensatz für ein Modell von Amazon SageMaker AI nutzen.
Abhängig von Ihrer ML-Anwendung können Sie einen der integrierten Ground-Truth-Aufgabentypen auswählen, damit Auftragnehmer bestimmte Beschriftungstypen für Ihre Daten generieren. Sie können auch einen benutzerdefinierten Kennzeichnungs-Workflow erstellen, um Auftragnehmern, die Ihre Daten beschriften, eine eigene Benutzeroberfläche und Tools zur Verfügung zu stellen. Weitere Informationen zu den integrierten Ground-Truth-Aufgabentypen finden Sie unter Integrierte Aufgabentypen. Weitere Informationen zum Erstellen eines benutzerdefinierten Kennzeichnungs-Workflows finden Sie unter Benutzerdefinierte Kennzeichnung-Workflows.
Um das Beschriften Ihres Trainingsdatensatzes zu automatisieren, steht Ihnen optional das automatisierte Daten-Labeling zur Verfügung. Hierbei handelt es sich um einen Ground-Truth-Prozess, der mithilfe von Machine Learning entscheidet, welche Daten durch Menschen beschriftet werden müssen. Das automatisierte Daten-Labeling kann die für das Labeling erforderliche Zeit und den damit verbundenen manuellen Aufwand reduzieren. Weitere Informationen finden Sie unter Automatisieren des Daten-Labeling. Weitere Informationen zum Erstellen eines benutzerdefinierten Beschriftungs-Workflows finden Sie unter Benutzerdefinierte Kennzeichnung-Workflows.
Verwenden Sie entweder vorgefertigte oder benutzerdefinierte Tools zum Zuweisen von Labeling-Aufgaben für Ihre Trainingsdatensatz. Eine Beschriftungsbenutzeroberflächenvorlage ist eine Webseite, die Ground Truth verwendet, um Ihren Auftragnehmern Aufgaben und Anweisungen bereitzustellen. Die SageMaker-AI-Konsole bietet integrierte Vorlagen für die Datenbeschriftung. Sie können für Ihre ersten Schritte diese Vorlagen verwenden oder mithilfe von HTML 2.0-Komponenten Ihre eigenen Aufgaben und Anweisungen erstellen. Weitere Informationen finden Sie unter Benutzerdefinierte Kennzeichnung-Workflows.
Verwenden Sie die Arbeitskräfte Ihrer Wahl für das Labeling Ihres Datensatzes. Für die Wahl Ihrer Arbeitskräfte bieten sich Ihnen folgende Optionen:
-
Die Arbeitskräfte von Amazon Mechanical Turk bestehen aus über 500.000 unabhängigen Vertragspartnern weltweit.
-
Sie können private Arbeitskräfte nutzen, die Sie aus Ihren Mitarbeitern oder Auftragnehmern zusammenstellen, welche sich um die Verarbeitung von Daten innerhalb Ihrer Organisation kümmern.
-
Sie können die Dienste eines Anbieters im AWS Marketplace in Anspruch nehmen, welcher sich auf Daten-Labeling-Services spezialisiert hat.
Weitere Informationen finden Sie unter Arbeitskräfte.
Sie speichern Ihre Datensätze in Amazon-S3-Buckets. Die Buckets enthalten drei Dinge: Die zu beschriftenden Daten, eine Eingabe-Manifestdatei, die Ground Truth zum Lesen der Datendateien verwendet, und eine Ausgabe-Manifestdatei. Die Ausgabedatei enthält die Ergebnisse des Labeling-Auftrags. Weitere Informationen finden Sie unter Verwenden von Eingabe- und Ausgabedaten.
Ereignisse aus Ihren Beschriftungsaufträge werden in Amazon CloudWatch unter der /aws/sagemaker/LabelingJobs Gruppe angezeigt. CloudWatch verwendet den Namen des Beschriftungsauftrags als Namen für den Protokollstream.
Sie verwenden Ground Truth zum ersten Mal?
Wenn Sie Ground Truth zum ersten Mal verwenden, empfehlen wir Folgendes:
-
Erste Schritte: Erstellen eines Kennzeichnungsauftrags mit Begrenzungsrahmen über Ground Truth lesen – In diesem Abschnitt werden Sie schrittweise durch die Einrichtung Ihres ersten Ground-Truth-Beschriftungsauftrags geführt.
-
Entdecken Sie weitere Themen – Gehen Sie je nach Bedarf wie folgt vor:
-
Erkunden Sie die integrierten Aufgabentypen – Verwenden Sie integrierte Aufgabentypen, um den Prozess der Erstellung eines Beschriftungsauftrags zu optimieren. Weitere Informationen zu den integrierten Ground-Truth-Aufgabentypen finden Sie unter Integrierte Aufgabentypen.
-
Verwalten Sie Ihre Beschriftungsarbeitskraft – Stellen Sie neue Arbeitsteams zusammen und verwalten Sie Ihre bestehende Arbeitskraft. Weitere Informationen finden Sie unter Arbeitskräfte.
-
Erfahren Sie mehr über Streaming-Beschriftungsaufträge – Erstellen Sie einen Streaming-Beschriftungsauftrag und senden Sie mithilfe eines ständig laufenden Beschriftungsauftrags neue Datensatzobjekte in Echtzeit an Ihre Worker. Auftragnehmer erhalten kontinuierlich neue Datenobjekte zum Beschriften, solange der Beschriftungsauftrag aktiv ist und neue Objekte an ihn gesendet werden. Weitere Informationen hierzu finden Sie unter Ground Truth Streaming-Kennzeichnungsaufträge.
-
-
Weitere Informationen zu verfügbaren Vorgängen zur Automatisierung von Ground-Truth-Vorgängen finden Sie in der Referenz zur API für den SageMaker-AI-Dienst.