Bewerten eines Basismodells für die Textgenerierung in Studio - Amazon SageMaker AI

Bewerten eines Basismodells für die Textgenerierung in Studio

Anmerkung

Foundation Model Evaluations (FMEval) ist als Vorversion für Amazon SageMaker Clarify verfügbar und unterliegt Änderungen.

Wichtig

Um SageMaker Clarify Foundation Model Evaluations verwenden zu können, müssen Sie ein Upgrade auf die neue Studio-Oberfläche durchführen. Am 30. November 2023 wurde Amazon SageMaker Studio in Amazon SageMaker Studio umbenannt. Das Feature zur Bewertung von Basismodellen kann nur in der aktualisierten Version verwendet werden. Weitere Informationen zur Aktualisierung von Studio finden Sie unter Migration von Amazon SageMaker Studio Classic. Informationen zur Verwendung der Studio-Classic-Anwendung finden Sie unter Amazon SageMaker Studio Classic.

Amazon SageMaker JumpStart bietet Integrationen mit SageMaker Clarify Foundation Model Evaluations (FMEval) in Studio. Wenn für ein JumpStart-Modell integrierte Bewertungsfunktionen verfügbar sind, können Sie auf der Benutzeroberfläche von JumpStart Studio in der oberen rechten Ecke der Modelldetailseite die Option Bewerten auswählen. Weitere Informationen zur Navigation auf der JumpStart-Studio-Benutzeroberfläche finden Sie unter Öffnen und Verwenden von JumpStart in Studio.

Verwenden Sie Amazon SageMaker JumpStart, um textbasierte Basismodelle mit FMEval zu bewerten. Sie können diese Modellbewertungen verwenden, um die Qualitäts- und Verantwortungsmetriken zwischen zwei Modellen oder zwischen verschiedenen Versionen desselben Modells zu vergleichen, um Modellrisiken zu quantifizieren. FMEval kann textbasierte Modelle bewerten, die folgenden Aufgaben durchführen:

  • Generierung mit offenem Ende – Die Erzeugung natürlicher menschlicher Antworten auf Text, der keine vordefinierte Struktur hat.

  • Textzusammenfassung – Generierung einer präzisen und komprimierten Zusammenfassung unter Beibehaltung der Bedeutung und der wichtigsten Informationen, die in einem größeren Text enthalten sind.

  • Beantwortung von Fragen – Generierung einer Antwort in natürlicher Sprache auf eine Frage.

  • Klassifikation – Die Zuordnung einer Klasse, z. B. positive gegenüber negative, zu einer Textstelle auf der Grundlage ihres Inhalts.

Sie können FMEval verwenden, um Modellantworten auf der Grundlage bestimmter Benchmarks automatisch zu bewerten. Sie können die Modellantworten auch anhand Ihrer eigenen Kriterien bewerten, indem Sie Ihre eigenen Prompt-Datensätze verwenden. FMEval bietet eine Benutzeroberfläche (UI), die Sie durch die Einrichtung und Konfiguration eines Bewertungsjobs führt. Sie können die FMEval-Bibliothek auch in Ihrem eigenen Code verwenden.

Für jede Bewertung ist ein Kontingent für zwei Instances erforderlich:

  • Hosting-Instance – Eine Instance, die ein LLM hostet und bereitstellt.

  • Bewertungs-Instance – Eine Instance, die verwendet wird, um ein LLM auf der Hosting-Instance anzufordern und zu testen.

Wenn Ihr LLM bereits bereitgestellt ist, geben Sie den Endpunkt an und SageMaker AI verwendet Ihre Hosting-Instance, um das LLM zu hosten und bereitzustellen.

Wenn Sie ein JumpStart-Modell bewerten, das noch nicht für Ihr Konto bereitgestellt wurde, erstellt FMEval eine temporäre Hosting-Instance für Sie in Ihrem Konto, die nur für die Dauer der Bewertung bereitgestellt wird. FMEval verwendet die Standard-Instance, die JumpStart für das gewählte LLM empfiehlt, als Hosting-Instance. Sie müssen über ein ausreichendes Kontingent für diese empfohlene Instance verfügen.

Bei jeder Bewertung wird außerdem eine Bewertungs-Instance verwendet, um dem LLM Prompts zu geben und die Antworten zu bewerten. Sie müssen außerdem über ausreichend Kontingent und Arbeitsspeicher verfügen, um die Bewertungsalgorithmen ausführen zu können. Die Kontingent- und Speicheranforderungen der Bewertungs-Instance sind im Allgemeinen geringer als die, die für eine Hosting-Instance erforderlich sind. Wir empfehlen, die ml.m5.2xlarge-Instance auszuwählen. Weitere Informationen zu Kontingenten und Speicher finden Sie unter Fehler bei der Erstellung eines Modellevaluierungsjobs in Amazon SageMaker AI beheben.

Automatische Bewertungen können verwendet werden, um LLMs anhand der folgenden Dimensionen zu bewerten:

  • Genauigkeit – für die Textzusammenfassung, Beantwortung von Fragen und Textklassifizierung

  • Semantische Robustheit – für die Generierung mit offenem Ende, Textzusammenfassung und Textklassifizierung

  • Faktenwissen – für die Generierung mit offenem Ende

  • Prompt-Stereotypisierung – für die Generierung mit offenem Ende

  • Toxizität – für die Generierung mit offenem Ende, Textzusammenfassung und Beantwortung von Fragen

Sie können auch menschliche Bewertungen verwenden, um Modellantworten manuell zu bewerten. Die FMEval-Benutzeroberfläche führt Sie durch einen Workflow, bei dem Sie ein oder mehrere Modelle auswählen, Ressourcen bereitstellen, Anweisungen für Ihre Mitarbeiter schreiben und diese kontaktieren. Nach Abschluss der menschlichen Bewertung werden die Ergebnisse in FMEval angezeigt.

Sie können über die JumpStart-Startseite in Studio auf die Modellbewertung zugreifen, indem Sie ein zu bewertendes Modell auswählen und dann Bewerten auswählen. Beachten Sie, dass nicht für alle JumpStart-Modelle Bewertungsfunktionen verfügbar sind. Weitere Informationen zur Konfiguration, Bereitstellung und Ausführung von FMEval finden Sie unter Was sind Basismodellbewertungen?