Erstellen eines Auftrags zur automatischen Modellbewertung in Studio - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen eines Auftrags zur automatischen Modellbewertung in Studio

Der in Studio verfügbare Assistent führt Sie durch die Auswahl eines zu evaluierenden Modells, die Auswahl eines Aufgabentyps, die Auswahl von Metriken und Datensätzen sowie die Konfiguration aller erforderlichen Ressourcen. In den folgenden Themen erfahren Sie, wie Sie einen optionalen benutzerdefinierten Eingabedatensatz formatieren, Ihre Umgebung einrichten und den Modellevaluierungsjob in Studio erstellen.

Um Ihren eigenen Datensatz für benutzerdefinierte Eingabeaufforderungen zu verwenden, muss es sich um eine jsonlines Datei handeln, in der jede Zeile ein gültiges JSON-Objekt ist. Jedes JSON-Objekt muss eine einzelne Eingabeaufforderung enthalten.

Um sicherzustellen, dass das von Ihnen ausgewählte JumpStart Modell eine gute Leistung erbringt, formatiert SageMaker Clarify automatisch alle Prompt-Datasets so, dass sie das Format haben, das für die von Ihnen ausgewählten Model Evaluation-Dimensionen am besten geeignet ist. Bei integrierten Prompt-Datensätzen erweitert SageMaker Clarify Ihre Eingabeaufforderung auch um zusätzlichen Anweisungstext. Um zu sehen, wie SageMaker Clarify die Eingabeaufforderungen ändert, wählen Sie unter den Bewertungsdimensionen, die Sie dem Modellevaluierungsjob hinzugefügt haben, die Option Prompt-Vorlage aus. Ein Beispiel dafür, wie Sie eine Eingabeaufforderungsvorlage ändern können, finden Sie unter Beispiel für eine Eingabeaufforderungsvorlage.

Mit diesem Schalter können Sie die Unterstützung für automatische Vorlagen für Eingabeaufforderungen, die SageMaker Clarify für integrierte Datensätze bereitstellt, ein- oder ausschalten. Wenn Sie die automatische Vorlage für Eingabeaufforderungen deaktivieren, können Sie Ihre eigenen benutzerdefinierten Vorlagen für Eingabeaufforderungen angeben, die auf alle Eingabeaufforderungen in Ihrem Datensatz angewendet werden.

In den folgenden Aufgabenlisten erfahren Sie, welche Schlüssel für einen benutzerdefinierten Datensatz in der Benutzeroberfläche verfügbar sind.

  • model_input – erforderlich, um die Eingabe für die folgenden Aufgaben anzugeben.

    • Die Aufforderung, auf die Ihr Modell bei Generierungs-, Toxizitäts - und Genauigkeitsaufgaben mit offenem Ende reagieren sollte.

    • Die Frage, die Ihr Modell in der Aufgaben Frage und Antworten und Faktenwissen beantworten soll.

    • Der Text, den Ihr Modell in der Textzusammenfassungsaufgabe zusammenfassen soll.

    • Der Text, den Ihr Modell in Klassifizierungsaufgaben klassifizieren soll.

    • Der Text, den Ihr Modell bei Aufgaben zur semantischen Robustheit stören soll.

  • target_output – erforderlich, um die Antwort anzugeben, anhand derer Ihr Modell für die folgenden Aufgaben bewertet wird.

    • Die Antwort auf Aufgaben zur Beantwortung von Fragen, Genauigkeit, semantische Robustheit und sachliche Bewertung.

    • Bei Aufgaben zur Genauigkeit und semantischen Robustheit trennen Sie akzeptable Antworten durch ein. <OR> Bei der Bewertung werden alle durch ein Komma getrennten Antworten als richtig akzeptiert. Geben Sie als Beispiel antarget_output="UK<OR>England<OR>United Kingdom", ob Sie entweder UK oder England oder United Kingdom als akzeptable Antworten akzeptieren möchten.

  • (Optional) category – generiert Bewertungsergebnisse für die einzelnen Kategorien.

  • sent_less_input— Erforderlich, um die Eingabeaufforderung anzugeben, die weniger voreingenommen für Aufgaben zur Stereotypisierung von Eingabeaufforderungen ist.

  • sent_more_input— Erforderlich, um die Eingabeaufforderung anzugeben, die bei Aufgaben zur Stereotypisierung stärker voreingenommen ist.

Eine Bewertung des Faktenwissens erfordert sowohl die zu stellende Frage als auch die Antwort, mit der die Antwort des Modells verglichen werden muss. Verwenden Sie den Schlüssel model_input mit dem in der Frage enthaltenen Wert und den Schlüssel target_output mit dem in der Antwort enthaltenen Wert:

{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

Das vorherige Beispiel ist ein einzelnes gültiges JSON-Objekt, das einen Datensatz in einer jsonlines Eingabedatei bildet. Jedes JSON-Objekt wird als Anfrage an Ihr Modell gesendet. Um mehrere Anfragen zu stellen, fügen Sie mehrere Zeilen hinzu. Das folgende Beispiel für eine Dateneingabe bezieht sich auf eine Frage-Antwort-Aufgabe, bei der ein optionaler category-Schlüssel zur Bewertung verwendet wird.

{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"} {"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"} {"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

Wenn Sie Ihren Algorithmus in der Benutzeroberfläche auswerten, werden die folgenden Standardwerte für Ihren Eingabedatensatz festgelegt:

  • Die Anzahl der Datensätze, die bei der Bewertung verwendet werden, ist festgelegt. Der Algorithmus wählt diese Anzahl von Anfragen nach dem Zufallsprinzip aus Ihrem Eingabedatensatz aus.

    • Um diese Zahl zu ändern: Verwenden Sie die fmeval Bibliothek wie unter Anpassen Ihres Workflows mithilfe der fmeval Bibliothek beschrieben, und legen Sie den Parameter num_records auf die gewünschte Anzahl von Stichproben fest, oder geben Sie den gesamten Datensatz -1 an. Die Standardanzahl der Datensätze, die bewertet werden, bezieht sich auf 100 Aufgaben wie Genauigkeit, schnelle Stereotypisierung, Toxizität, Klassifizierung und semantische Robustheit. Die Standardanzahl von Datensätzen für eine Aufgabe zum Thema Faktenwissen ist. 300

  • Das zuvor im target_output Parameter beschriebene Zielausgabetrennzeichen ist in der Benutzeroberfläche auf <OR> eingestellt.

    • Um akzeptable Antworten mit einem anderen Trennzeichen zu trennen: Verwenden Sie die fmeval Bibliothek wie unter Anpassen Ihres Workflows mithilfe der fmeval Bibliothek beschrieben, und setzen Sie den Parameter target_output_delimiter auf das gewünschte Trennzeichen.

  • Sie müssen ein textbasiertes JumpStart Sprachmodell verwenden, das für die Modellevaluierung verfügbar ist. Diese Modelle verfügen über mehrere Konfigurationsparameter für die Dateneingabe, die automatisch an den FMeval Prozess übergeben werden.

    • Um eine andere Art von Modell zu verwenden: Verwenden Sie die fmeval Bibliothek, um die Datenkonfiguration für Ihren Eingabedatensatz zu definieren.

Um eine automatische Evaluierung für Ihr Large Language Model (LLM) durchzuführen, müssen Sie Ihre Umgebung so einrichten, dass sie über die richtigen Berechtigungen für die Durchführung einer Evaluierung verfügt. Anschließend können Sie sich mithilfe der Benutzeroberfläche durch die einzelnen Schritte im Arbeitsablauf führen und eine Evaluierung durchführen. In den folgenden Abschnitten wird gezeigt, wie Sie die Benutzeroberfläche verwenden, um eine automatische Bewertung durchzuführen.

Voraussetzungen
  • Um eine Modellevaluierung in einer Studio-Benutzeroberfläche durchzuführen, müssen Ihre AWS Identity and Access Management (IAM-) Rolle und alle Eingabe-Datasets über die richtigen Berechtigungen verfügen. Wenn Sie keine SageMaker AI-Domäne oder IAM-Rolle haben, folgen Sie den Schritten unterLeitfaden für die Einrichtung von Amazon SageMaker AI.

So legen Sie Berechtigungen für Ihren S3-Bucket fest

Gehen Sie nach der Erstellung Ihrer Domain und Rolle wie folgt vor, um die für die Evaluierung Ihres Modells erforderlichen Berechtigungen hinzuzufügen.

  1. Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.

  2. Geben Sie im Navigationsbereich S3 in die Suchleiste oben auf der Seite ein.

  3. Wählen Sie S3 unter Services aus.

  4. Wählen Sie im Navigationsbereich die Option Buckets aus.

  5. Wählen Sie im Abschnitt Allgemeine Buckets unter Name den Namen des Amazon S3 S3-Buckets aus, den Sie zum Speichern Ihres benutzerdefinierten Prompt-Datensatzes verwenden möchten und in dem die Ergebnisse Ihres Modellevaluierungsjobs gespeichert werden sollen. Ihr Amazon S3 S3-Bucket muss sich in derselben Datei befinden AWS-Region wie Ihre Studio-Instance. Führen Sie die folgenden Schritte aus, wenn Sie noch keinen Amazon-S3-Bucket besitzen.

    1. Wählen Sie Bucket erstellen aus, um eine neue Seite „Bucket erstellen“ zu öffnen.

    2. Wählen Sie im Abschnitt Allgemeine Konfiguration unter AWSRegion die AWS Region aus, in der sich Ihr Foundation-Modell befindet.

    3. Benennen Sie Ihren S3-Bucket im Eingabefeld unter Bucket-Name.

    4. Akzeptieren Sie alle Standardoptionen.

    5. Wählen Sie Bucket erstellen aus.

    6. Wählen Sie im Abschnitt Allgemeine Buckets unter Name den Namen des S3-Buckets aus, den Sie erstellt haben.

  6. Wählen Sie die Registerkarte Berechtigungen.

  7. Scrollen Sie am unteren Rand des Fensters zum Abschnitt Cross-Origin Resource Sharing (CORS). Wählen Sie Bearbeiten aus.

  8. Um Ihrem Bucket die CORS-Berechtigungen hinzuzufügen, kopieren Sie den folgenden Code in das Eingabefeld.

    [ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
  9. Wählen Sie Änderungen speichern aus.

So fügen Sie Berechtigungen zu Ihrer IAM-Richtlinie hinzu
  1. Geben Sie in die Suchleiste oben auf der Seite IAM ein.

  2. Wählen Sie unter Dienste die Option Identity and Access Management (IAM) aus.

  3. Wählen Sie im Navigationsbereich Richtlinien aus.

  4. Wählen Sie Richtlinie erstellen aus. Wählen Sie im Abschnitt Richtlinien-Editor JSON aus.

  5. Wählen Sie Weiter aus.

  6. Stellen Sie sicher, dass die folgenden Berechtigungen im Richtlinien-Editor angezeigt werden. Sie können auch Folgendes kopieren und in den Richtlinien-Editor einfügen.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
  7. Wählen Sie Weiter aus.

  8. Geben Sie im Abschnitt Richtliniendetails unter Richtlinienname einen Richtliniennamen ein. Sie können auch eine optionale Beschreibung eingeben. Sie suchen nach diesem Richtliniennamen, wenn Sie ihn einer Rolle zuweisen.

  9. Wählen Sie Richtlinie erstellen aus.

So fügen Sie Berechtigungen zu Ihrer IAM-Rolle hinzu
  1. Wählen Sie im Navigationsbereich Roles (Rollen) aus. Geben Sie den Namen der Rolle ein, die Sie verwenden möchten.

  2. Wählen Sie unter Rollenname den Namen der Rolle aus. Das Hauptfenster ändert sich und zeigt nun Informationen zu Ihrer Rolle an.

  3. Wählen Sie im Abschnitt Berechtigungsrichtlinien den Abwärtspfeil neben Berechtigungen hinzufügen aus.

  4. Wählen Sie aus den angezeigten Optionen die Option Richtlinien anfügen aus.

  5. Suchen Sie in der Liste der angezeigten Richtlinien nach der Richtlinie, die Sie in Schritt 5 erstellt haben. Aktivieren Sie das Kontrollkästchen neben dem Namen der Richtlinie.

  6. Wählen Sie den Abwärtspfeil neben Aktionen aus.

  7. Wählen Sie aus den angezeigten Optionen die Option anfügen aus.

  8. Suchen Sie nach dem Namen der Rolle, die Sie erstellt haben. Aktivieren Sie das Kontrollkästchen neben dem Namen.

  9. Wählen Sie Add permissions (Berechtigungen hinzufügen) aus. Ein Banner oben auf der Seite sollte darauf hinweisen, dass die Richtlinie erfolgreich an die Rolle angehängt wurde.

  • .

Wenn Sie einen automatischen Modellevaluierungsauftrag erstellen, können Sie aus verfügbaren textbasierten JumpStart Modellen wählen oder ein textbasiertes JumpStart Modell verwenden, das Sie zuvor auf einem Endpunkt bereitgestellt haben.

Gehen Sie wie folgt vor, um einen Auftrag zur automatischen Modellevaluierung zu erstellen.

Starten eines Auftrags zur automatischen Modellbewertung in Studio.
  1. Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.

  2. Geben Sie in die Suchleiste oben auf der Seite SageMaker AI ein.

  3. Wählen Sie unter Services Amazon SageMaker AI aus.

  4. Wählen Sie im Navigationsbereich Studio aus.

  5. Wählen Sie Ihre Domain im Bereich Erste Schritte aus, nachdem Sie den Abwärtspfeil unter Domain auswählen erweitert haben.

  6. Wählen Sie im Abschnitt Erste Schritte Ihr Benutzerprofil aus, nachdem Sie den Abwärtspfeil unter Benutzerprofil auswählen erweitert haben.

  7. Wählen Sie Studio öffnen, um die Landingpage für Studio zu öffnen.

  8. Wählen Sie im primären Navigationsbereich die Option Aufträge aus.

  9. Wählen Sie dann Modellevaluierung aus.

Um einen Evaluierungsjob einzurichten
  1. Wählen Sie als Nächstes Modell evaluieren,.

  2. Gehen Sie in Schritt 1: Jobdetails angeben wie folgt vor:

    1. Geben Sie den Namen Ihrer Modellevaluierung ein. Anhand dieses Namens können Sie Ihre Modellevaluierungsstelle nach der Einreichung leichter identifizieren.

    2. Geben Sie eine Beschreibung ein, um dem Namen mehr Kontext hinzuzufügen.

    3. Wählen Sie Weiter aus.

  3. Gehen Sie in Schritt 2: Bewertung einrichten wie folgt vor:

    1. Wählen Sie unter Bewertungstyp die Option Automatisch aus.

    2. Wählen Sie dann Modell zur Evaluierung hinzufügen

    3. Im Modal Modell hinzufügen können Sie wählen, ob Sie entweder ein vortrainiertes Jumpstart-Foundation-Modell oder einen SageMaker KI-Endpunkt verwenden möchten. Wenn Sie das JumpStart Modell bereits bereitgestellt haben, wählen Sie SageMaker KI-Endpunkt, andernfalls wählen Sie Vortrainiertes Jumpstart-Foundation-Modell.

    4. Wählen Sie dann Save (Speichern) aus.

    5. (Optional) Nachdem Sie Ihr Modell hinzugefügt haben, wählen Sie Prompt-Vorlage, um das erwartete Eingabeformat für Eingabeaufforderungen basierend auf dem ausgewählten Modell zu sehen. Weitere Informationen zum Konfigurieren einer Eingabeaufforderungen für einen Datensatz finden Sie unterPrompt-Vorlagen.

      • Um die Standardvorlage für Eingabeaufforderungen zu verwenden, führen Sie die folgenden Schritte aus, um

        1. Aktivieren Sie die Option Die in den Datensätzen bereitgestellten Standardvorlagen für Eingabeaufforderungen verwenden.

        2. (Optional) Überprüfen Sie für jeden Datensatz die von Clarify bereitgestellte Aufforderung.

        3. Wählen Sie Speichern.

      • Gehen Sie wie folgt vor, um eine benutzerdefinierte Prompt-Vorlage zu verwenden:

        1. Deaktivieren Sie die Option Verwenden Sie die in den Datensätzen bereitgestellten Standardvorlagen für Eingabeaufforderungen.

        2. Wenn Clarify eine Standard-Eingabeaufforderung anzeigt, können Sie sie anpassen oder entfernen und Ihre eigene Eingabe vornehmen. Sie müssen die $model_input Variable in die Eingabeaufforderungsvorlage aufnehmen.

        3. Wählen Sie Speichern.

    6. Wählen Sie dann unter Aufgabentyp einen Aufgabentyp aus.

      Weitere Informationen zu Aufgabentypen und den zugehörigen Bewertungsdimensionen finden Sie im Abschnitt Automatische Auswertung unter Verwenden von Prompt-Datensätzen und verfügbaren Bewertungsdimensionen bei Aufträgen zur Modellbewertung .

    7. Wählen Sie im Abschnitt Bewertungskennzahlen eine Bewertungsdimension aus. Das Textfeld unter Beschreibung enthält zusätzlichen Kontext zu der Dimension.

      Nachdem Sie eine Aufgabe ausgewählt haben, werden die mit der Aufgabe verknüpften Metriken unter Metriken angezeigt. Führen Sie in diesem Abschnitt die folgenden Schritte aus.

    8. Wählen Sie mit dem Abwärtspfeil unter Bewertungsdimension eine Bewertungsdimension aus.

    9. Wählen Sie einen Bewertungsdatensatz aus. Sie können wählen, ob Sie Ihren eigenen Datensatz oder einen integrierten Datensatz verwenden möchten. Wenn Sie Ihren eigenen Datensatz zur Bewertung des Modells verwenden möchten, muss dieser so formatiert sein, dass FMEval es verwendet werden kann. Es muss sich außerdem in einem S3-Bucket befinden, das über die CORS-Berechtigungen verfügt, auf die im vorherigen Abschnitt verwiesen wurde. So richten Sie Ihre Umgebung ein Weitere Informationen zum Formatieren eines benutzerdefinierten Datensatzes finden Sie unter Verwenden Sie einen benutzerdefinierten Eingabedatensatz.

    10. Geben Sie einen S3-Bucket-Speicherort ein, in dem Sie die ausgegebenen Evaluationsergebnisse speichern möchten. Diese Datei hat das Format jsonlines (.jsonl).

    11. Konfigurieren Sie Ihren Prozessor im Abschnitt Prozessorkonfiguration mit den folgenden Parametern:

      • Verwenden Sie die Anzahl der Instances, um die Anzahl der RechenInstances anzugeben, die Sie zur Ausführung Ihres Modells verwenden möchten. Wenn Sie mehr als eine 1 Instance verwenden, wird Ihr Modell in parallel Instances ausgeführt.

      • Verwenden Sie den Instance-Typ, um die Art der Rechen-Instance auszuwählen, die Sie zur Ausführung Ihres Modells verwenden möchten. Weitere Informationen zu den Instance-Typen finden Sie unter Instance-Typen, die für die Verwendung mit Amazon SageMaker Studio Classic-Notebooks verfügbar sind.

      • Verwenden Sie den Volume-KMS-Schlüssel, um Ihren Verschlüsselungsschlüssel AWS Key Management Service (AWS KMS) anzugeben. SageMaker KI verwendet Ihren AWS KMS Schlüssel, um eingehenden Datenverkehr vom Modell und Ihrem Amazon S3 S3-Bucket zu verschlüsseln. Weitere Informationen zu Schlüsseln finden Sie unter AWS Key Management Service.

      • Verwenden Sie den KMS-Ausgangsschlüssel, um Ihren AWS KMS Verschlüsselungsschlüssel für ausgehenden Datenverkehr anzugeben.

      • Verwenden Sie die IAM-Rolle, um den Zugriff und die Berechtigungen für den Standardprozessor anzugeben. Geben Sie die IAM-Rolle ein, die Sie in eingerichtet haben So richten Sie Ihre Umgebung ein

    12. Nachdem Sie Ihr Modell und Ihre Kriterien angegeben haben, wählen Sie Weiter. Im Hauptfenster wird mit Schritt 5 Überprüfen und Speichern fortgefahren.

Überprüfen Sie Ihren Bewertungsauftrag und führen Sie ihn aus
  1. Überprüfen Sie alle Parameter, Modelle und Daten, die Sie für Ihre Bewertung ausgewählt haben.

  2. Wählen Sie Ressource erstellen aus, um Ihre Bewertung durchzuführen.

  3. Um Ihren Jobstatus zu überprüfen, gehen Sie auf der Seite zum Anfang des Abschnitts Modellevaluierungen.