Reinforcement Fine-Tuning (RFT) bei Amazon SageMaker HyperPod

Reinforcement Fine-Tuning (RFT) ist eine Technik des maschinellen Lernens, die die Modellleistung durch Feedbacksignale — messbare Werte oder Belohnungen, die auf die Qualität der Antworten hinweisen — verbessert, anstatt durch direkte Überwachung mit exakt richtigen Antworten. Im Gegensatz zur herkömmlichen überwachten Feinabstimmung, die aus Input-Output-Paaren lernt, verwendet RFT Belohnungsfunktionen, um Modellantworten zu bewerten, und optimiert das Modell iterativ, um diese Belohnungen zu maximieren.

Dieser Ansatz ist besonders effektiv für Aufgaben, bei denen es schwierig ist, die exakte korrekte Ausgabe zu definieren, Sie aber die Qualität der Antworten zuverlässig messen können. RFT ermöglicht es Modellen, komplexe Verhaltensweisen und Präferenzen durch Versuche und Feedback zu erlernen, und eignet sich daher ideal für Anwendungen, die eine nuancierte Entscheidungsfindung, kreative Problemlösung oder die Einhaltung bestimmter Qualitätskriterien erfordern, die programmatisch bewertet werden können.

Wann sollte RFT verwendet werden

Verwenden Sie RFT, wenn Sie klare, messbare Erfolgskriterien definieren können, aber Schwierigkeiten haben, exakt korrekte Ergebnisse für das Training zu liefern. Es ist ideal für Aufgaben, bei denen die Qualität subjektiv oder facettenreich ist — wie kreatives Schreiben, Codeoptimierung oder komplexes Denken —, bei denen es mehrere gültige Lösungen gibt, von denen jedoch einige eindeutig besser sind als andere.

RFT funktioniert am besten, wenn Sie über Folgendes verfügen:

Eine zuverlässige Belohnungsfunktion, die Modellausgaben programmgesteuert auswerten kann
Sie müssen das Modellverhalten an bestimmten Präferenzen oder Einschränkungen ausrichten
Situationen, in denen die herkömmliche überwachte Feinabstimmung unzureichend ist, weil das Sammeln hochwertiger, beschrifteter Beispiele teuer oder unpraktisch ist

Ziehen Sie RFT für Anwendungen in Betracht, die iterative Verbesserungen, Personalisierung oder die Einhaltung komplexer Geschäftsregeln erfordern, die als Belohnungssignale kodiert werden können.

Wofür ist RFT am besten geeignet

RFT zeichnet sich in Bereichen aus, in denen die Ausgabequalität objektiv gemessen werden kann, es jedoch schwierig ist, optimale Antworten im Voraus zu definieren:

Mathematische Problemlösung: Überprüfbare Richtigkeit mit mehreren Lösungswegen
Codegenerierung und -optimierung: Testbare Ausführungsergebnisse und Leistungskennzahlen
Aufgaben zum wissenschaftlichen Denken: Logische Konsistenz und sachliche Richtigkeit
Strukturierte Datenanalyse: Programmatisch überprüfbare Ergebnisse
Mehrstufiges Denken: Aufgaben, die eine logische Weiterentwicklung erfordern step-by-step
Toolnutzung und API-Aufrufe: Der Erfolg ist an den Ausführungsergebnissen messbar
Komplexe Arbeitsabläufe: Einhaltung bestimmter Einschränkungen und Geschäftsregeln

RFT funktioniert hervorragend, wenn Sie mehrere konkurrierende Ziele wie Genauigkeit, Effizienz und Stil in Einklang bringen müssen.

Wann sollte der Argumentationsmodus für das RFT-Training verwendet werden

Amazon Nova 2.0 unterstützt den Argumentationsmodus während des RFT-Trainings. Die folgenden Modi sind verfügbar:

none: Keine Begründung (lassen Sie das Feld reasoning_effort weg)
niedrig: Minimaler Argumentationsaufwand
hoch: Maximales Argumentationsvermögen (Standard, wenn reasoning_effort angegeben ist)

Anmerkung

Es gibt keine mittlere Option für RFT. Wenn das Feld reasoning_effort in Ihrer Konfiguration nicht vorhanden ist, ist Reasoning deaktiviert.

Verwenden Sie High Reasoning für Folgendes:

Komplexe analytische Aufgaben
Mathematische Problemlösung
Mehrstufige logische Deduktion
Aufgaben, bei denen step-by-step Denken einen Mehrwert bietet

Verwenden Sie in folgenden Fällen keine Argumentation (lassen Sie Reasoning_Effort weg) oder wenig Argumentation:

Einfache sachliche Fragen
Direkte Klassifizierungen
Geschwindigkeits- und Kostenoptimierung
Einfache Beantwortung von Fragen

Wichtig

Höhere Argumentationsmodi erhöhen den Zeit- und Kostenaufwand für das Training, erhöhen die Inferenzlatenz und die Kosten, erhöhen aber auch die Leistungsfähigkeit des Modells für komplexe Denkaufgaben.

Unterstützte Modelle

RFT on SageMaker HyperPod unterstützt Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).

Wichtige Schritte

Der RFT-Prozess umfasst vier Hauptphasen:

Implementierung eines Evaluators: Erstellen Sie eine Belohnungsfunktion, um Modellantworten anhand Ihrer Qualitätskriterien programmgesteuert zu bewerten.
Eingabeaufforderungen hochladen: Bereiten Sie Trainingsdaten mit Referenzdaten für die Auswertung im angegebenen Konversationsformat vor und laden Sie sie hoch.
Einen Job starten: Starten Sie den Prozess zur Feinabstimmung der Bewehrung mit Ihren konfigurierten Parametern.
Überwachung: Verfolgen Sie den Trainingsfortschritt mithilfe von Metrik-Dashboards, um sicherzustellen, dass das Modell effektiv lernt.

Jeder Schritt baut auf dem vorherigen auf, wobei der Evaluator als Grundlage dient, der den gesamten Trainingsprozess steuert, indem er konsistente Feedbacksignale liefert.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

SFT auf Nova 2.0

RFT auf Nova 2.0