Interpretieren Ihrer Ergebnisse - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Interpretieren Ihrer Ergebnisse

Analysieren Sie Bewertungskennzahlen aus Ihrem Vergleich mit Textklassifizierungsmodellen, um datengestützte Entscheidungen für den Produktionseinsatz zu treffen.

Verständnis von Bewertungsmetriken

Die Bewertung bietet mehrere wichtige Kennzahlen für jedes Modell in allen Datensätzen:

Accuracy

Misst den Prozentsatz der korrekten Vorhersagen und eignet sich am besten für ausgewogene Datensätze. Bei unausgewogenen Daten kann es jedoch irreführend sein und zu künstlich hohen Ergebnissen führen, wenn eine Klasse dominiert.

Genauigkeit

Evaluiert, wie gut das Modell falsch positive Ergebnisse vermeidet, indem gemessen wird, wie viel Prozent der positiven Prognosen richtig waren. Diese Metrik reicht von 0,0 bis 1,0 (höher ist besser) und wird entscheidend, wenn falsch positive Ergebnisse kostspielig sind.

Wiedererkennung

Beurteilt, wie gut das Modell alle positiven Fälle erfasst, indem gemessen wird, wie viel Prozent der tatsächlich positiven Fälle gefunden wurden. Es reicht von 0,0 bis 1,0 (höher ist besser) und wird kritisch, wenn das Fehlen positiver Ergebnisse kostspielig ist.

F1-Ergebnis

Stellt das harmonische Mittel für Präzision und Erinnerungsvermögen bereit und gleicht beide Messwerte zu einem einzigen Wert aus, der zwischen 0,0 und 1,0 liegt (höher ist besser).

Matthews Korrelationskoeffizient (MCC)

Misst die allgemeine Qualität der binären Klassifikation und dient als beste Metrik für unausgewogene Daten. Sie reicht von -1,0 bis 1,0, wobei höhere Werte für eine bessere Leistung und 0 für zufälliges Erraten steht.

Fläche unter der Kurve Empfänger-Betriebskennlinie

Prüft, wie gut das Modell zwischen Klassen unterscheidet. Es reicht von 0,0 bis 1,0, wobei 1,0 für eine perfekte Klassifizierung und 0,5 für zufälliges Erraten steht.

Durchschnittliche Inferenzzeit

Misst die Vorhersagegeschwindigkeit, was für Echtzeitanwendungen von entscheidender Bedeutung ist. Berücksichtigen Sie bei der Bewertung dieser Kennzahl sowohl Geschwindigkeit als auch Konsistenz.

Anmerkung

Verlassen Sie sich bei der Modellauswahl nicht ausschließlich auf Genauigkeit. Bei unausgewogenen Datensätzen bieten Präzision, Rückruf und MCC zuverlässigere Indikatoren für die Leistung in der realen Welt.

Vergleichen Sie die Leistung verschiedener Datensatztypen

Der ausgewogene Datensatz zeigt, wie gut Ihre Modelle unter idealen Bedingungen abschneiden, wobei positive und negative Beispiele zu gleichen Teilen dargestellt werden. Eine starke Leistung deutet darauf hin, dass das Modell grundlegende Textklassifizierungsmuster gelernt hat.

Der verzerrte Datensatz zeigt, wie Modelle mit einem realen Klassenungleichgewicht umgehen, das in Produktionsszenarien häufig vorkommt.

Der anspruchsvolle Datensatz testet die Robustheit des Modells in mehrdeutigen Fällen oder Randfällen, die in der Produktion auftreten könnten.

Modellauswahl

Verwenden Sie diesen systematischen Ansatz, um das optimale Modell für Ihren speziellen Anwendungsfall auszuwählen.

Definieren Sie Ihre Geschäftsprioritäten

Bevor Sie sich für ein Modell entscheiden, sollten Sie ermitteln, welche Leistungsfaktoren für Ihren Anwendungsfall am wichtigsten sind.

  1. Identifizieren Sie Ihre Genauigkeitsanforderungen und die akzeptable Mindestleistungsschwelle.

  2. Ermitteln Sie Ihre Latenzbeschränkungen, einschließlich der Frage, ob Sie eine Echtzeit- (<100 ms) oder eine Batch-Verarbeitung benötigen.

  3. Legen Sie Ihre Kostenüberlegungen und Ihr Budget für Inferenz und Skalierung fest.

  4. Analysieren Sie Ihre Dateneigenschaften, um herauszufinden, ob Ihre Produktionsdaten ausgewogen, verzerrt oder stark variabel sind.

Wann sollten Sie sich für jedes Modell entscheiden

Wählen Sie auf der Grundlage Ihrer Bewertungsergebnisse das Modell aus, das am besten zu Ihrem Anwendungsfall passt:

  • Entscheiden Sie sich für DistilBert, wenn Sie schnellere Inferenzen mit hoher Genauigkeit benötigen, wie z. B. Stimmungsanalysen in Echtzeit in Kundenservice-Chatbots, Systemen zur Inhaltsmoderation oder Anwendungen, bei denen Reaktionszeiten unter 100 ms entscheidend sind.

  • Entscheiden Sie sich für BERT, wenn maximale Genauigkeit wichtiger ist als Geschwindigkeit, z. B. bei der Klassifizierung von Rechtsdokumenten, der Analyse medizinischer Texte oder bei Compliance-Anwendungen, bei denen Präzision an erster Stelle steht und die Stapelverarbeitung akzeptabel ist.

Priorisieren Sie Ihre Bewertungsdatensätze

Konzentrieren Sie sich auf die Datensätze, die Ihren realen Anwendungsfall am besten repräsentieren.

  1. Geben Sie dem Datensatz, der Ihren realen Daten am ehesten ähnelt, mehr Gewicht.

  2. Berücksichtigen Sie die Bedeutung von Grenzfällen in Ihrer Anwendung und priorisieren Sie die Leistung anspruchsvoller Datensätze entsprechend.

  3. Gleichen Sie die Optimierung auf mehrere Szenarien ab, anstatt sich nur auf einen Datensatztyp zu konzentrieren.

Vergleichen Sie Ihre Bewertungsergebnisse mit diesen Prioritäten, um das Modell auszuwählen, das Ihren Anforderungen an Genauigkeit, Geschwindigkeit und Kosten am besten gerecht wird.

Nachdem Sie Ihr bevorzugtes Modell ausgewählt haben, sind Sie bereit für den Einsatz in der Produktion. Fahren Sie fort mit Bereitstellen Ihres Modells.