Bewerten eines Basismodells für die Textgenerierung in Studio

Anmerkung

Foundation Model Evaluations (FMEval) befindet sich in der Vorschauversion für Amazon SageMaker Clarify und kann sich ändern.

Wichtig

Um SageMaker Clarify Foundation Model Evaluations verwenden zu können, müssen Sie ein Upgrade auf das neue Studio-Erlebnis durchführen. Seit dem 30. November 2023 heißt das vorherige Amazon SageMaker Studio-Erlebnis jetzt Amazon SageMaker Studio Classic. Die Foundation-Evaluierungsfunktion kann nur in der aktualisierten Version verwendet werden. Weitere Informationen zur Aktualisierung von Studio finden Sie unter Migration von Amazon SageMaker Studio Classic. Informationen zur Verwendung der Studio-Classic-Anwendung finden Sie unter Amazon SageMaker Studio Klassisch.

Amazon SageMaker JumpStart bietet Integrationen mit SageMaker Clarify Foundation Model Evaluations (FMEval) in Studio. Wenn für ein JumpStart Modell integrierte Evaluierungsfunktionen verfügbar sind, können Sie in der JumpStart Studio-Benutzeroberfläche in der oberen rechten Ecke der Modelldetailseite die Option Evaluieren auswählen. Weitere Informationen zur Navigation in der JumpStart Studio-Benutzeroberfläche finden Sie unter In Studio öffnen und verwenden JumpStart

Verwenden Sie Amazon SageMaker JumpStart , um textbasierte Fundamentmodelle mit FMEval zu evaluieren. Sie können diese Modellbewertungen verwenden, um Kennzahlen zur Modellqualität und -verantwortung für ein Modell, zwischen zwei Modellen oder zwischen verschiedenen Versionen desselben Modells zu vergleichen, um Modellrisiken zu quantifizieren. FMEval kann textbasierte Modelle auswerten, die die folgenden Aufgaben erfüllen:

Generierung mit offenem Ende – Die Erzeugung natürlicher menschlicher Antworten auf Text, der keine vordefinierte Struktur hat.
Textzusammenfassung – Generierung einer präzisen und komprimierten Zusammenfassung unter Beibehaltung der Bedeutung und der wichtigsten Informationen, die in einem größeren Text enthalten sind.
Beantwortung von Fragen – Generierung einer Antwort in natürlicher Sprache auf eine Frage.
Klassifikation – Die Zuordnung einer Klasse, z. B. positive gegenüber negative, zu einer Textstelle auf der Grundlage ihres Inhalts.

Sie können FMEval es verwenden, um Modellantworten auf der Grundlage bestimmter Benchmarks automatisch auszuwerten. Sie können die Modellantworten auch anhand Ihrer eigenen Kriterien auswerten, indem Sie Ihre eigenen Prompt-Datensätze mitbringen. FMEval bietet eine Benutzeroberfläche (UI), die Sie durch die Einrichtung und Konfiguration eines Evaluierungsjobs führt. Sie können die FMEval Bibliothek auch in Ihrem eigenen Code verwenden.

Für jede Bewertung ist ein Kontingent für zwei Instances erforderlich:

Hosting-Instance – Eine Instance, die ein LLM hostet und bereitstellt.
Bewertungs-Instance – Eine Instance, die verwendet wird, um ein LLM auf der Hosting-Instance anzufordern und zu testen.

Wenn Ihr LLM bereits bereitgestellt ist, geben Sie den Endpunkt an, und SageMaker KI verwendet Ihre Hosting-Instanz, um das LLM zu hosten und bereitzustellen.

Wenn Sie ein JumpStart Modell evaluieren, das noch nicht für Ihr Konto bereitgestellt wurde, FMEval erstellt es eine temporäre Hosting-Instanz für Sie in Ihrem Konto und behält diese nur für die Dauer Ihrer Evaluierung bei. FMEval verwendet die Standardinstanz, die für das gewählte LLM JumpStart empfohlen wird, als Hosting-Instanz. Sie müssen über ein ausreichendes Kontingent für diese empfohlene Instance verfügen.

Bei jeder Bewertung wird außerdem eine Bewertungs-Instance verwendet, um dem LLM Prompts zu geben und die Antworten zu bewerten. Sie müssen außerdem über ausreichend Kontingent und Arbeitsspeicher verfügen, um die Bewertungsalgorithmen ausführen zu können. Die Kontingent- und Speicheranforderungen der Bewertungs-Instance sind im Allgemeinen geringer als die, die für eine Hosting-Instance erforderlich sind. Wir empfehlen, die ml.m5.2xlarge-Instance auszuwählen. Weitere Informationen zu Kontingenten und Speicher finden Sie unter Fehler bei der Erstellung eines Modellevaluierungsjobs in Amazon SageMaker AI beheben.

Automatische Bewertungen können verwendet werden, um LLMs in den folgenden Dimensionen Punkte zu erzielen:

Genauigkeit – für die Textzusammenfassung, Beantwortung von Fragen und Textklassifizierung
Semantische Robustheit – für die Generierung mit offenem Ende, Textzusammenfassung und Textklassifizierung
Faktenwissen – für die Generierung mit offenem Ende
Prompt-Stereotypisierung – für die Generierung mit offenem Ende
Toxizität – für die Generierung mit offenem Ende, Textzusammenfassung und Beantwortung von Fragen

Sie können auch menschliche Bewertungen verwenden, um Modellantworten manuell zu bewerten. Die FMEval Benutzeroberfläche führt Sie durch einen Arbeitsablauf, der aus der Auswahl eines oder mehrerer Modelle, der Bereitstellung von Ressourcen und dem Schreiben von Anweisungen für Ihre Mitarbeiter und deren Kontaktaufnahme besteht. Nach Abschluss der Bewertung durch den Mitarbeiter werden die Ergebnisse unter angezeigt. FMEval

Sie können über die JumpStart Landingpage in Studio auf die Modellevaluierung zugreifen, indem Sie ein zu evaluierendes Modell auswählen und dann Evaluieren wählen. Beachten Sie, dass nicht für alle JumpStart Modelle Evaluierungsfunktionen verfügbar sind. Weitere Informationen zur Konfiguration, Bereitstellung und Ausführung FMEval finden Sie unter Was sind Foundation-Model-Evaluierungen?

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Retrieval Augmented Generation

Beispiel-Notebooks