Verwenden von Prompt-Datensätzen und verfügbaren Bewertungsdimensionen bei Aufträgen zur Modellbewertung - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Prompt-Datensätzen und verfügbaren Bewertungsdimensionen bei Aufträgen zur Modellbewertung

In den folgenden Abschnitten finden Sie eine Übersicht über die Verwendung von automatischen und auf Mitarbeitern basierenden Aufträgen zur Modellbewertung.

Aufgaben zur Modellbewertung

In einem Auftrag zur Modellbewertung handelt es sich bei einer Auswertungsaufgabe um eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Prompts ausführen soll.

Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen. In den folgenden Abschnitten erfahren Sie mehr auf die einzelnen Aufgabentypen. Jeder Abschnitt enthält auch eine Liste der verfügbaren integrierten Datensätze und der entsprechenden Metriken, die nur für automatische Aufträge zur Modellbewertung verwendet werden können.

Textgenerierung mit offenem Ende

Die Generierung von offenem Text ist eine grundlegende Modellaufgabe, bei der Antworten in natürlicher Sprache auf Eingabeaufforderungen generiert werden, die keine vordefinierte Struktur haben, wie z. B. allgemeine Anfragen an einen Chatbot. Bei der Textgenerierung mit offenem Ende kann Foundation Model Evaluations (FMEval) Ihr Modell anhand der folgenden Dimensionen evaluieren.

  • Faktenwissen — Evaluiert, wie gut Ihr Modell Faktenwissen kodiert. FMEval kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der TREXauf dem Open-Source-Datensatz basiert.

  • Semantische Robustheit — Evaluiert, wie stark sich Ihre Modellausgabe als Ergebnis kleiner, semantisch erhaltender Änderungen in der Eingabe ändert. FMEval misst, wie sich Ihre Modellausgabe aufgrund von Tippfehlern auf der Tastatur, zufälligen Änderungen an Großbuchstaben und zufälligem Hinzufügen oder Löschen von Leerräumen ändert.

  • Prompte Stereotypisierung — Misst die Wahrscheinlichkeit, mit der Ihr Modell in seiner Antwort Verzerrungen kodiert. Zu diesen Vorurteilen gehören Vorurteile in Bezug auf Rasse, Geschlecht, sexuelle Orientierung, Religion, Alter, Nationalität, Behinderung, körperliches Erscheinungsbild und sozioökonomischen Status. FMEval kann Ihre Modellantworten anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der auf dem CrowS-PairsOpen-Source-Challenge-Datensatz basiert.

  • Toxizität — Wertet Text anhand von Modellen zur Toxizitätserkennung aus. FMEval überprüft Ihr Modell auf sexuelle Hinweise, unhöfliche, unangemessene, hasserfüllte oder aggressive Kommentare, Obszönitäten, Beleidigungen, Flirts, Angriffe auf Identitäten und Bedrohungen. FMEval kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder integrierte Datensätze verwenden, die auf den, und Datensätzen basieren. RealToxicityPromptsRealToxicityPromptsChallengingBOLD

    RealToxicityPromptsChallengingist eine Teilmenge davonRealToxicityPrompts, die Grenzen eines großen Sprachmodells (LLM) zu testen. Außerdem werden Bereiche identifiziert, in LLMs denen die Gefahr besteht, dass giftiger Text generiert wird.

    Sie können Ihr Modell mit den folgenden Toxizitätsdetektoren bewerten:

Textzusammenfassung

Die Textzusammenfassung wird für Aufgaben wie das Erstellen von Zusammenfassungen von Nachrichten, Rechtsdokumenten, wissenschaftlichen Arbeiten, Inhaltsvorschauen und die Kuratierung von Inhalten verwendet. Folgendes kann die Qualität der Antworten beeinflussen: Mehrdeutigkeit, Kohärenz, Voreingenommenheit, Fließfähigkeit des Textes, der für das Training des Basismodells verwendet wird, sowie Informationsverlust, Genauigkeit, Relevanz oder Kontextinkongruenz. FMEval kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes auswerten oder integrierte Datensätze verwenden, die auf den Datensätzen und basieren. Government Report DatasetGigaword FMEval Kann Ihr Modell für die Textzusammenfassung auf Folgendes auswerten:

  • Genauigkeit — Ein numerischer Wert, der die Ähnlichkeit der Zusammenfassung mit einer Referenzzusammenfassung angibt, die als Goldstandard anerkannt ist. Ein hoher numerischer Wert weist darauf hin, dass die Zusammenfassung von hoher Qualität ist. Ein niedriger numerischer Wert weist auf eine schlechte Zusammenfassung hin. Die folgenden Kennzahlen werden verwendet, um die Genauigkeit einer Zusammenfassung zu bewerten:

    • ROUGE-N— Berechnet N-gram Überschneidungen zwischen der Referenz- und der Modellzusammenfassung.

    • Meteor— Berechnet die Wortüberschneidung zwischen der Referenz- und der Modellzusammenfassung und berücksichtigt dabei auch Umformulierungen.

    • BERTScore— Berechnet und vergleicht Satzeinbettungen für die Zusammenfassung und Referenz. FMEval verwendet die deberta-xlarge-mnli Modelle roberta-large-mnlioder microsoft/, um die Einbettungen zu berechnen.

  • Toxizität — Punktzahlen für generierte Zusammenfassungen, die mit einem Toxizitätsdetektormodell berechnet wurden. Weitere Informationen finden Sie im vorherigen Abschnitt zur Generierung von Aufgaben mit offenem Ende im Abschnitt Toxizität.

  • Semantische Robustheit — Ein Maß dafür, wie stark sich die Qualität der Textzusammenfassung Ihres Modells aufgrund kleiner, semantischer Änderungen in der Eingabe ändert. Beispiele für diese Änderungen sind Tippfehler, zufällige Änderungen an Großbuchstaben und zufälliges Hinzufügen oder Löschen von Leerräumen. Semantische Robustheit basiert auf dem absoluten Genauigkeitsunterschied zwischen einer ungestörten und einer ungestörten Textzusammenfassung. Der Genauigkeitsalgorithmus verwendet die BERTScoreMetriken, und ROUGE-NMeteor, wie zuvor in diesem Abschnitt beschrieben.

Beantwortung von Fragen

Die Beantwortung von Fragen wird für Aufgaben wie das Generieren automatischer Helpdesk-Antworten, das Abrufen von Informationen und E-Learning verwendet. FMEval kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes auswerten oder integrierte Datensätze verwenden, die auf den BoolQDatensätzen, und basieren. TriviaQANatural Questions Zur Beantwortung von Fragen FMEval kann Ihr Modell auf Folgendes geprüft werden:

  • Genauigkeit — Ein Durchschnittswert, bei dem die generierte Antwort mit den in den Referenzen angegebenen Frage-Antwort-Paaren verglichen wird. Die Punktzahl wird anhand der folgenden Methoden gemittelt:

    • Exakte Übereinstimmung — Eine binäre Punktzahl von 1 wird einer exakten Übereinstimmung zugewiesen, und 0 andernfalls.

    • Quasi-exakte Übereinstimmung — Eine binäre Punktzahl von 1 wird einer Übereinstimmung zugewiesen, nachdem Interpunktion und grammatikalische Artikel (wie das, ein und) entfernt wurden (Normalisierung).

    • F1 über Wörtern — Der F1-Wert oder das harmonische Mittel für Präzision und Erinnerungsvermögen zwischen der normalisierten Antwort und der Referenz. Der F1-Wert entspricht der doppelten Genauigkeit multipliziert mit der Rückrufaktion geteilt durch die Summe aus Präzision (P) und Erinnerung (R) oder F1 = (2*P*R)/(P + R).

      In der vorherigen Berechnung ist Genauigkeit definiert als die Anzahl der echten positiven Ergebnisse (TP) geteilt durch die Summe der echten positiven und falsch positiven Ergebnisse (FP) oder P = (TP)/(TP+FP).

      Der Rückruf ist definiert als die Anzahl der echten positiven Ergebnisse geteilt durch die Summe der wahren positiven und falsch negativen Ergebnisse (FN) oder R = (TP)/(TP+FN).

      Ein höherer Wert von F1 im Vergleich zu Wörtern weist auf qualitativ hochwertigere Antworten hin.

  • Semantische Robustheit — Ein Maß dafür, wie stark sich die Qualität der Textzusammenfassung Ihres Modells aufgrund kleiner, semantischer Änderungen in der Eingabe ändert. Zu diesen Änderungen gehören beispielsweise Tippfehler auf der Tastatur, die ungenaue Umwandlung von Zahlen in Wörter, zufällige Änderungen an Großbuchstaben und zufälliges Hinzufügen oder Löschen von Leerräumen. Semantische Robustheit basiert auf dem absoluten Genauigkeitsunterschied zwischen einer ungestörten und einer ungestörten Textzusammenfassung. Die Genauigkeit wird, wie bereits beschrieben, anhand von Exact-Match, Quasi-Exact Match und F1 im Vergleich zu Wörtern gemessen.

  • Toxizität — Die Ergebnisse bewerten die generierten Antworten mithilfe eines Toxizitätsdetektormodells. Weitere Informationen finden Sie im vorherigen Abschnitt zur Generierung von Aufgaben mit offenem Ende im Abschnitt Toxizität.

Klassifizierung

Die Klassifizierung wird verwendet, um Text in vordefinierte Kategorien zu einzuteilen. Zu den Anwendungen, die Textklassifizierung verwenden, gehören Inhaltsempfehlungen, Spam-Erkennung, Spracherkennung und Trendanalysen in sozialen Medien. Unausgeglichene, mehrdeutige, verrauschte Daten und Verzerrungen bei der Kennzeichnung sind einige Probleme, die zu Klassifizierungsfehlern führen können. FMEval bewertet Ihr Modell anhand eines integrierten Datensatzes, der Women’s ECommerce Clothing Reviewsauf dem Datensatz basiert, and/or anhand Ihrer eigenen Prompt-Datensätze für Folgendes.

  • Genauigkeit – eine Punktzahl, die die vorhergesagte Klasse mit ihrer Bezeichnung vergleicht. Die Genauigkeit wird anhand der folgenden Metriken gemessen:

    • Genauigkeit der Klassifizierung — Ein binärer Wert, der 1 angibt, ob das vorhergesagte Label dem wahren Label entspricht, und 0 andernfalls.

    • Präzision — Das Verhältnis von echten positiven Ergebnissen zu allen positiven Ergebnissen, berechnet über den gesamten Datensatz. Präzision ist ein geeignetes Maß, wenn es darauf ankommt, falsch positive Ergebnisse zu reduzieren. Die Punktzahl für jeden Datenpunkt kann anhand der folgenden Werte für den multiclass_average_strategy Parameter aggregiert werden. Jeder Parameter ist im folgenden Beispiel aufgeführt.

    • Erinnerung — das Verhältnis von echten positiven Ergebnissen zur Summe von echten positiven und falsch negativen Ergebnissen, berechnet über den gesamten Datensatz. Der Rückruf ist ein geeignetes Maß, wenn es darauf ankommt, falsch negative Ergebnisse zu reduzieren. Die Punktzahlen für jeden Datenpunkt können mithilfe der folgenden Werte für den multiclass_average_strategy Parameter aggregiert werden.

      • micro(Standard) — Die Summe der wahren positiven Ergebnisse geteilt durch die Summe der wahren positiven und falsch negativen Ergebnisse für alle Klassen. Dieser Aggregationstyp gibt ein Maß für die allgemeine Vorhersagegenauigkeit Ihres Modells, wobei alle Klassen gleichermaßen berücksichtigt werden. Mit dieser Aggregation kann beispielsweise die Fähigkeit Ihres Modells bewertet werden, Patienten mit allen Krankheiten, einschließlich seltener Krankheiten, korrekt zu klassifizieren, da alle Klassen gleich gewichtet werden.

      • macro— Die Summe der für jede Klasse berechneten Erinnerungswerte geteilt durch die Anzahl der Klassen. Dieser Aggregationstyp gibt ein Maß für die Vorhersagegenauigkeit Ihres Modells für jede Klasse, wobei jede Klasse gleich gewichtet wird. Mit dieser Aggregation kann beispielsweise die Fähigkeit Ihres Modells bewertet werden, alle Krankheiten vorherzusagen, unabhängig von der Prävalenz oder Seltenheit der einzelnen Erkrankungen.

      • samples(nur Klassifikation mit mehreren Klassen) — Das Verhältnis der Summe der echten positiven Ergebnisse über alle Stichproben zur Summe der echten positiven und falsch negativen Ergebnisse für alle Stichproben. Bei der Klassifizierung in mehrere Klassen besteht eine Stichprobe aus einer Reihe von prognostizierten Antworten für jede Klasse. Dieser Aggregationstyp liefert ein detailliertes Maß für den Erinnerungswert jeder Stichprobe bei Problemen mit mehreren Klassen. Da beispielsweise bei der Aggregation nach Stichproben jede Probe gleich behandelt wird, kann mit dieser Aggregation bewertet werden, ob Ihr Modell in der Lage ist, eine korrekte Diagnose für einen Patienten mit einer seltenen Krankheit vorherzusagen und gleichzeitig falsch negative Ergebnisse zu minimieren.

      • weighted— Das Gewicht für eine Klasse multipliziert mit dem Rückruf für dieselbe Klasse, summiert über alle Klassen. Dieser Aggregationstyp liefert ein Maß für den Gesamtwiederruf und berücksichtigt gleichzeitig die unterschiedliche Bedeutung der einzelnen Klassen. Mit dieser Aggregation kann beispielsweise bewertet werden, ob Ihr Modell in der Lage ist, eine korrekte Diagnose für einen Patienten vorherzusagen und lebensbedrohlichen Krankheiten ein höheres Gewicht beizumessen.

      • binary— Der für die Klasse berechnete Rückruf, die durch den Wert spezifiziert wird. pos_label Dieser Aggregationstyp ignoriert die nicht spezifizierte Klasse und bietet eine allgemeine Vorhersagegenauigkeit für eine einzelne Klasse. Mit dieser Aggregation kann beispielsweise bewertet werden, ob Ihr Modell in der Lage ist, eine Population auf eine bestimmte hochansteckende, lebensbedrohliche Krankheit zu untersuchen.

      • none— Der für jede Klasse berechnete Rückruf. Der klassenspezifische Rückruf kann Ihnen helfen, Klassenungleichgewichte in Ihren Daten zu beheben, wenn die Strafe für Fehler von Klasse zu Klasse sehr unterschiedlich ist. Mit dieser Aggregation kann beispielsweise bewertet werden, wie gut Ihr Modell alle Patienten identifizieren kann, die möglicherweise an einer bestimmten Krankheit leiden.

    • Balanced Classification Accuracy (BCA) — Bei der binären Klassifikation wird die Summe aus Erinnerungsvermögen und der tatsächlichen Negativrate 2 geteilt durch. Die True-Negativ-Rate ist die Anzahl der echten negativen Werte geteilt durch die Summe der wahren negativen und falsch positiven Werte. Bei der Klassifizierung in mehrere Klassen wird BCA als Summe der Erinnerungswerte für jede Klasse geteilt durch die Anzahl der Klassen berechnet. BCA kann helfen, wenn die Strafe für die Vorhersage sowohl falsch positiver als auch falsch negativer Ergebnisse hoch ist. BCA kann beispielsweise beurteilen, wie gut Ihr Modell eine Reihe hochansteckender tödlicher Krankheiten mit invasiven Behandlungen vorhersagen kann.

  • Semantische Robustheit — Evaluiert, wie stark sich Ihre Modellausgabe als Ergebnis kleiner, semantisch erhaltender Änderungen in der Eingabe ändert. FMEval misst Ihre Modellausgabe als Ergebnis von Tippfehlern auf der Tastatur, zufälligen Änderungen der Großschreibung und zufälligen Hinzufügungen oder Löschungen von Leerräumen. Semantische Robustheit bewertet den absoluten Unterschied in der Genauigkeit zwischen einer ungestörten und einer gestörten Textzusammenfassung.

Arten von Evaluierungen von Fundamentmodellen

In den folgenden Abschnitten finden Sie Einzelheiten zu den Evaluierungen Ihres Foundation-Modells sowohl durch Menschen als auch über Algorithmen.

Menschliche Bewertungen

Um Ihr Modell durch einen Menschen zu bewerten, müssen Sie die Metriken und die zugehörigen Metriktypen definieren. Wenn Sie mehr als ein Modell bewerten möchten, können Sie einen Vergleichs- oder Einzelbewertungsmechanismus verwenden. Wenn Sie ein Modell bewerten möchten, müssen Sie einen individuellen Bewertungsmechanismus verwenden. Die folgenden Bewertungsmechanismen können auf jede textbezogene Aufgabe angewendet werden:

  • (Vergleichs-) Likert-Skala — Vergleich — Ein menschlicher Bewerter gibt gemäß Ihren Anweisungen auf einer 5-Punkte-Likert-Skala an, welche der beiden Antworten sie bevorzugen. Im Abschlussbericht werden die Ergebnisse als Histogramm der Bewertungen nach Präferenzstärke über Ihren gesamten Datensatz dargestellt. Definieren Sie in Ihren Anweisungen die wichtigen Punkte der 5-Punkte-Skala, damit Ihre Bewerter wissen, wie sie die Antworten erwartungsgemäß bewerten können.

  • (Vergleichende) Auswahlschaltflächen — Ermöglicht es einem menschlichen Prüfer, anhand von Optionsfeldern gemäß Ihren Anweisungen eine bevorzugte Antwort einer anderen Antwort vorzuziehen. Die Ergebnisse im Abschlussbericht werden als Prozentsatz der Antworten ausgewiesen, die die Mitarbeiter für jedes Modell bevorzugt haben. Erläutern Sie Ihre Auswertungsmethode in der Anleitung klar.

  • (Vergleichend) Ordinale Reihenfolge – ermöglicht es einem menschlichen Bewerter, seine bevorzugten Antworten auf einen Prompt in der Reihenfolge von 1 beginnend und gemäß Ihren Anweisungen zu ordnen. Im Abschlussbericht werden die Ergebnisse als Histogramm der Bewertungen der Gutachter über den gesamten Datensatz dargestellt. Definieren Sie in Ihren Anweisungen unbedingt, was ein Rang von 1 bedeutet.

  • (Individuell) Daumen hoch/runter – ermöglicht es einem menschlichen Bewerter, jede Antwort eines Modells gemäß Ihren Anweisungen als akzeptabel oder inakzeptabel zu bewerten. Im Abschlussbericht zeigen die Ergebnisse den Prozentsatz der Gesamtzahl der Bewertungen durch die Bewerter, die für jedes Modell eine positive Bewertung abgegeben haben. Sie können diese Bewertungsmethode für die Auswertung eines oder mehrerer Modelle verwenden. Wenn Sie diese Methode für eine Auswertung mit zwei Modellen verwenden, bietet die Benutzeroberfläche Ihrem Arbeitsteam für jede Modellantwort eine „Daumen hoch“ oder „Daumen runter“. Im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln angezeigt. Definieren Sie in Ihren Anweisungen an Ihr Arbeitsteam, was eine akzeptable Antwort ist.

  • (Individuell) Likert-Skala – individuell – ermöglicht es einem menschlichen Bewerter, anhand Ihrer Anweisungen auf einer 5-Punkte-Likert-Skala anzugeben, wie sehr er die Modellantwort befürwortet. Im Abschlussbericht werden die Ergebnisse in Form eines Histogramms dargestellt, das die 5-Punkte-Bewertungen der Gutachter für Ihren gesamten Datensatz zeigt. Sie können diese Bewertungsmethode für die Auswertung mit einem oder mehreren Modellen verwenden. Wenn Sie diese Bewertungsmethode in einer Bewertung auswählen, die mehr als ein Modell enthält, wird Ihrem Arbeitsteam für jede Modellantwort eine 5-Punkte-Likert-Skala angezeigt. Im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln angezeigt. Definieren Sie in Ihren Anweisungen die wichtigen Punkte der 5-Punkte-Skala, damit Ihre Bewerter wissen, wie sie die Antworten erwartungsgemäß bewerten können.

Automatische Bewertungen

Automatische Auswertungen können integrierte Datensätze und Algorithmen nutzen. Alternativ können Sie Ihren eigenen Datensatz mit Eingabeaufforderungen mitbringen, die für Ihren Anwendungsfall spezifisch sind. Die integrierten Datensätze variieren je nach Aufgabe und werden in den folgenden Abschnitten aufgeführt. Eine Zusammenfassung der Aufgaben und der zugehörigen Metriken und Datensätze finden Sie in der Tabelle im folgenden Abschnitt zur Bewertung des Foundation-Modells.

Zusammenfassung der Grundlagenbewertung

In der folgenden Tabelle sind alle Bewertungsaufgaben, Kennzahlen und integrierten Datensätze für Evaluierungen sowohl für menschliche als auch für automatische Evaluierungen zusammengefasst.

Aufgabe Menschliche Bewertungen Menschliche Metriken Automatische Bewertungen Automatische Metriken Automatische integrierte Datensätze

Textgenerierung mit offenem Ende

Sprachkompetenz, Kohärenz, Toxizität, Genauigkeit, Konsistenz, Relevanz, Benutzerdefiniert

Präferenzrate, Präferenzstärke, Präferenzrang, Zustimmungsrate, Zustimmungsstärke

Faktenwissen

TREX

Semantische Robustheit

TREX

BOLD

WikiText

Prompt-Stereotypisierung

CrowS-Pairs

Toxizität

RealToxicityPrompts

BOLD

Textzusammenfassung

Accuracy

ROUGE-N

Government Report Dataset

BERTScore

Gigaword

Government Report Dataset

Gigaword

Government Report Dataset

Gigaword

Beantwortung von Fragen

Accuracy

Genaue Übereinstimmung

BoolQ

Quasi exakte Übereinstimmung

NaturalQuestions

F1 über Worte

TriviaQA

Semantische Robustheit

BoolQ

NaturalQuestions

TriviaQA

Toxizität

BoolQ

NaturalQuestions

TriviaQA

Textklassifizierung

Accuracy

Genauigkeit der Klassifizierung

Women's Ecommerce Clothing Reviews

Genauigkeit

Women's Ecommerce Clothing Reviews

Wiedererkennung

Women's Ecommerce Clothing Reviews

Ausgewogene Klassifizierungsgenauigkeit

Women's Ecommerce Clothing Reviews

Semantische Robustheit

Women's Ecommerce Clothing Reviews